VERIFICA DELL`IPOTESI due campioni

PSICOMETRIA
Corso di laurea triennale (classe 34)
VERIFICA DELL’IPOTESI
CON DUE CAMPIONI
CAMPIONI INDIPENDENTI
Campioni estratti casualmente dalla
popolazione con caratteristiche
omogenee
Assegnazione casuale alle diverse
condizioni sperimentali
SITUAZIONE SPERIMENTALE CLASSICA
o ESPERIMENTO
CAMPIONI INDIPENDENTI
Due gruppi indipendenti uno sottoposto a
trattamento (gruppo sperimentale) e uno
no (gruppo di controllo)
 Trattamento si-no= VARIABILE INDIPENDENTE
(manipolata)
oppure
Due gruppi indipendenti sottoposti a
trattamenti diversi (gruppo sperimentale1 e
gruppo sperimentale2)
Trattamento 1-2 = VARIABILE INDIPENDENTE
(manipolata)
CAMPIONI INDIPENDENTI
Rilevazione della VARIABILE DIPENDENTE
su entrambi i gruppi in esame
Analisi statistica per rilevare differenze
a livello di variabile DIPENDENTE
ascrivibili alla INDIPENDENTE (posta
l’omogeneità dei gruppi)
Esempio a
ESPERIMENTO: Vengono estratti in modo
casuale tra gli impiegati di una grande
azienda 80 soggetti  Vengono assegnati in
modo casuale a due gruppi: gruppo
sperimentale (segue un corso di
aggiornamento) gruppo di controllo
(nessun aggiornamento) Aggiornamento
si/no= VARIABILE INDIPENDENTE (manipolata)
 Rilevazione del rendimento di entrambi i
gruppi = VARIABILE DIPENDENTE
Esempio b
ESPERIMENTO: Estrazione casuale tra gli
impiegati di una grande azienda di 80
soggetti Assegnazione casuale a due
gruppi: gruppo sperimentale1 (segue un
corso di aggiornamento) gruppo
sperimentale2 (viene affiancato da un
impiegato con esperienza decennale) 
Aggiornamento/Affiancamento=
VARIABILE INDIPENDENTE (manipolata)
 Rilevazione del rendimento di entrambi i
gruppi = VARIABILE DIPENDENTE
CAMPIONI INDIPENDENTI
Campioni estratti casualmente da due subpopolazioni con caratteristiche
omogenee eccetto una, quella che le
distingue
Assegnazione non casuale alle diverse
condizioni sperimentali
SITUAZIONE SPERIMENTALE
o QUASI ESPERIMENTO
CAMPIONI INDIPENDENTI
Due gruppi indipendenti distinti in base a
una caratteristica= VARIABILE INDIPENDENTE (non
manipolata)
Rilevazione della VARIABILE DIPENDENTE su
entrambi i gruppi in esame
Analisi statistica per rilevare differenze a livello
di DIPENDENTE ascrivibili alla INDIPENDENTE (unico
tratto distintivo, posta l’omogeneità dei gruppi)
Esempio
QUASI ESPERIMENTO: Vengono estratti in
modo casuale tra gli impiegati di una grande
azienda 40 soggetti con un’esperienza
lavorativa di meno di 5 anni (gruppo
sperimentale 1) e 40 soggetti con
un’esperienza lavorativa di più di 5 anni
(gruppo sperimentale 2)  Esperienza 5/+5 = VARIABILE INDIPENDENTE (non
manipolata)
 Rilevazione del rendimento di entrambi i
gruppi = VARIABILE DIPENDENTE
CAMPIONI INDIPENDENTI
In tutti i casi citati si parla di disegni
sperimentali o quasi sperimentali tra
soggetti (o between)
I disegni descritti per due campioni
possono essere estesi a k campioni
CAMPIONI DIPENDENTI
Campione estratto casualmente dalla
popolazione con caratteristiche
omogenee
Misure ripetute due volte sullo stesso
campione (prima e dopo sugli stessi
soggetti)
CAMPIONI DIPENDENTI
Un gruppo sottoposto a due livelli
(prima/dopo) della VARIABILE INDIPENDENTE
(manipolata o non manipolata)
Rilevazione della VARIABILE DIPENDENTE due volte
sullo stesso gruppo
Analisi statistica per rilevare una differenza tra
le due rilevazioni ascrivibile alla INDIPENDENTE
(unica differenza prima/dopo)
Esempio
Vengono estratti in modo casuale tra gli
impiegati di una grande azienda 80 soggetti
Viene rilevato il loro rendimento =
VARIABILE DIPENDENTE
 Segue un corso di aggiornamento:
Prima/Dopo l’aggiornamento =
VARIABILE INDIPENDENTE (manipolata)
 Rilevazione del rendimento dopo
l’aggiornamento = VARIABILE DIPENDENTE
CAMPIONI DIPENDENTI
Si parla di disegni sperimentali entro i
soggetti (o within)
I disegni descritti per due rilevazioni
sono estendibili a k rilevazioni sugli
stessi soggetti (campione)
I disegni sperimentali possono essere
misti ovvero contenere rilevazioni
entro e tra soggetti
VERIFICA DELL’IPOTESI- Campioni indipendenti
• Quando confronto due gruppi (variabile
indipendente) composti da diverse
persone su una data misura (variabile
dipendente), sto confrontando due
campioni INDIPENDENTI
• Quando la variabile dipendente è metrica,
devo confrontare la media dei due
campioni.
• A seconda della numerosità dei due
campioni e della conoscibilità della
deviazione standard delle popolazioni,
devo usare tecniche diverse
Campioni indipendenti – N grandi e sigma nota
Popolazioni con noti
2 Campioni INDIPENDENTI con n >30
Variabile indipendente dicotomica
Variabile dipendente metrica ( Medie)

DISTRIBUZIONE CAMPIONARIA DELLA
DIFFERENZA TRA MEDIE

DISTRIBUZIONE DI PROBABILITA’
NORMALE
Campioni indipendenti – N grandi e sigma nota
 Scelta del test statistico (di
significatività):
Si calcola z facendo riferimento alla dCDM
 Definizione dell’ipotesi:
H0:
H1:
=
1
1
2
2
(
= 0)
(bidirezionale)
1
-
2
> 2 ovvero 1 < 2
(monodirezionale)
1
Campioni indipendenti – N grandi e
sigma nota
 Fissare il livello di significatività
 Regione di rifiuto secondo e H1
(mono/bi-direzionale)  zcritico (come
nel caso di un solo campione)
 Si associa una probabilità ad H0
z
(M1
M2 ) (
2
2
1
2
n1
M1 M2
1
n2
2
)
(
1
2
) 0
Campioni indipendenti – N grandi e
sigma nota
 Decisione su H0 (H1):
Il confronto avviene tra z e zcritico
(p = area della curva associata a H0
viene confrontata con l’area di rifiuto
definita da ) come nel caso di un solo
campione.
Campioni indipendenti – N grandi e
sigma ignota
• Le deviazioni standard delle
popolazioni da cui estraiamo i
campioni non le conosciamo quasi
MAI
• Se la misura è metrica, ed entrambi
le numerosità campionarie sono >
30, posso comunque utilizzare la
DcDM assumendo che essa si
distribuisca normalmente
Campioni indipendenti – N grandi e
sigma ignota
I punti  e  sono analoghi al caso
precedente con noti
 Si associa una probabilità ad H0
 stima di 1 e 2 a partire da s1 e s2
z
ˆM1 M2
(M1
M2 )
s12
n1 1
(
1
s22
n2
2
1
)
(
1
2
) 0
Campioni indipendenti – N grandi e
sigma ignota
• In pratica, questa formula permette la
verifica dell’ipotesi a partire dai soli dati
campionari :
- si assume 1- 2 = 0
- 1 e 2 vengono stimati
Situazione più frequente (quasi mai si
conoscono i parametri della popolazione)
Esempio
Scegliendo in modo casuale 36 pazienti che
hanno seguito per un certo periodo una
terapia sperimentale si rileva la media da loro
ottenuta su una scala sintomatologica è
25.4 1.7.
Scegliendo in modo casuale 40 pazienti che
hanno seguito invece una terapia tradizionale,
si rileva che la media dei sintomi è 24.7 0.9.
Possiamo affermare che vi sia una differenza
di efficacia fra le due terapie?
In che caso ci troviamo?
 2 Campioni: n1=36 pazienti terapia
sperimentale (n>30)
n2=40 pazienti terapia
tradizionale (n>30)
Variabile indipendente dicotomica:
Tipo di terapia
Variabile dipendente metrica:
Punteggio alla scala sintomatologica
Scelta del test da effettuare
 M1=25.4; s1=1.7 e M2=24.7; s2=0.9

DISTRIBUZIONE CAMPIONARIA
DELLA DIFFERENZA TRA MEDIE

DISTRIBUZIONE DI PROBABILITA’
NORMALE
Test z di differenza fra le medie
Le ipotesi
 H0:
1
=
2
(la media della
popolazione dei pazienti trattati con la
terapia sperimentale è uguale alla
media dei pazienti sottoposti alla
terapia tradizionale)
H1: 1
2 (a media della
popolazione dei pazienti trattati con la
terapia sperimentale è diversa dalla
media dei pazienti sottoposti alla
terapia tradizionale)
Dove sono le regioni di rifiuto e di
accettazione di H0?
Ricorda!
=.05
Ipotesi alternativa bidirezionale
Regione
di rifiuto
/2
1Regione
di accettazione
Regione
di rifiuto
/2
z
Il valore critico
3. =.05  Si delinea la regione di rifiuto secondo
e H1 bidirezionale trovando uno zcritico sulla
Tavola
z
.00
.01
.02
.03
.04
.05
.06
.07
.08
.09
0 .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359
0.1 .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .0753
0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .1141
0.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1480 .1517
0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879
0.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224
0.6 .2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2517 .2549
0.7 .2580 .2611 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852
0.8 .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .3133
0.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389
1 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621
1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3830
1.2 .3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .4015
1.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .4177
1.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319
1.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .4441
1.6 .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .4545
1.7 .4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4625 .4633
1.8 .4641 .4649 .4656 .4664 .4671 .4678 .4686 .4693 .4699 .4706
1.9 .4713 .4719 .4726 .4732 .4738 .4744 .4750 .4756 .4761 .4767
2 .4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .4817
Il valore critico
Se =.05  /2=.0250  l’area tra 0 e lo
zcritico è .4750  Si trova il valore di z sulla
tavola corrispondente a questa area 
zcritico= 1.96 per l’ipotesi bidirezionale
1-
Regione
di rifiuto
Regione
di accettazione
/2
-1.96
/2
1.96
z
Calcolare il nostro effetto ed attribuirgli una
probabilità
 M1=25.4; s1=1.7 e M2=24.7; s2=0.9 
M1 M2
1.72
0.92
.32
36 1 40 1
z
(25.4 24.7) 0
2.19
.32
1Regione
di rifiuto
Regione
di accettazione
/2
-1.96
Regione
di rifiuto
/2
1.96 2.19
z
Effettuare la decisione statistica
 2.19 > 1.96  p< .05
 Si rifiuta H0  Si accetta H1  è vera
l’ipotesi alternativa
Posta l’uguaglianza tra 1 = 2 la probabilità di
ottenere una differenza fra le medie almeno
come quella osservata è minore del 5% fissato
con
 Pare vi sia una differenza sistematica fra gli
esiti delle due terapie
 La media della terapia sperimentale è
significativamente più elevata di quella
riscontrata nella terapia tradizionale
Quando invece n < 30…
Popolazioni con non noti
2 Campioni INDIPENDENTI con n<30
Variabile indipendente dicotomica
Variabile dipendente metrica ( Medie)

DISTRIBUZIONE CAMPIONARIA DELLA
DIFFERENZA TRA MEDIE

DISTRIBUZIONE DI PROBABILITA’ t
Quando invece n < 30…
 Scelta del test statistico (di
significatività):
Si calcola t facendo riferimento alla dCDM
 Definizione dell’ipotesi: Il confronto è tra le
due popolazioni di riferimento
H0:
H1:
1
1
1
=
= 0)
2 (bidirezionale)
> 2 ovvero 1 < 2 (monodirezionale)
2
(
1
-
2
VERIFICA DELL’IPOTESI
 Fissare il livello di significatività e
calcolare i gdl, per individuare il valore
critico :
In base a
gdl=n1+n2-2
H1 (mono/bi-direzionale)
 Si delinea la regione di rifiuto trovando
tcritico sulla Tavola
VERIFICA DELL’IPOTESI
 Si associa una probabilità ad H0
t
ˆM1
M2
(M1
M2 )
n1s12 n2s22
n1 n2 2
(
1
2
)
(
1
2
n1 n2
n1n2
 Decisione su H0 (H1):
Il confronto avviene tra t e tcritico come
nel caso di un solo campione.
) 0
Esempio
Per confrontare l’efficacia di due corsi di
sostegno per studenti con difficoltà, vengono
scelti in modo casuale 30 studenti con
problemi di apprendimento: 16 seguono il
corso Esperienziale e 14 il corso Normativo.
Il punteggio medio ad un test di rendimento
è 107 10 per il primo gruppo, 112 8 per il
secondo gruppo. Cosa possiamo dire?
Scelta del test
 2 Campioni: n1=16 Gruppo Esp (n<30)
n2=14 Gruppo Nor (n<30)
Variabile indipendente dicotomica: Corso
Variabile dipendente metrica: Punteggio al
test
 M1=107; s1=10 e M2=112; s2=8

DISTRIBUZIONE CAMPIONARIA DELLA
DIFFERENZA TRA MEDIE

DISTRIBUZIONE DI PROBABILITA’
t
Le ipotesi
 H0:
1
=
2
(la media degli studenti che
seguono il metodo Esp. è uguale a quella
degli studenti che seguono il metodo Nor.)
H1: 1
2 (bidirezionale, ovvero la media
degli studenti che seguono il metodo Esp. è
diversa da quella degli studenti che
seguono il metodo Nor.)

=.01 e gdl=16+14-2=28  Si delinea
la regione di rifiuto secondo , gdl e H1
bidirezionale trovando un tcritico sulla Tavola
= 2.76
Il valore critico

=.01 e gdl=16+14-2=28  Si delinea la regione di
rifiuto secondo , gdl e H1 bidirezionale
Calcolo l’effetto e gli associo una probabilità
 M1=107; s1=10 e M2=112; s2=8 
M1 M2
16 102 14 82
16 14 2
107 112
t
3.45
Regione
di rifiuto
/2
-2.76
16 14
16 14
1.45
Regione
di rifiuto
Regione
di accettazione
1-1.45
3.45
/2
2.76
t
Prendo la decisione statistica
 1.45 < 2.75  p> .01
 Si accetta H0  è vera l’ipotesi nulla
Posta l’uguaglianza tra 1 = 2 la probabilità di
ottenere le medie osservate è maggiore
dell’1% fissato con  Tra i due metodi c’è
una differenza ascrivibile al caso  Le medie
delle due popolazioni che hanno seguito il
metodo Esperienziale e il metodo Normativo sono
uguali
In altre parole, i due metodi producono gli
stessi risultati
Altro esempio
Scegliendo in modo casuale 25 pazienti che
hanno frequentato per un anno il Terapeuta A:

si rileva che la loro media al BDI è 10.36 4.95
Scegliendo in modo casuale 37 pazienti che
hanno frequentato per un anno il Terapeuta B:

si rileva che la loro media al BDI è 15.84 2.00
Possiamo affermare che vi sia una differenza tra
lo stato depressivo dei pazienti dei due terapeuti?
 2 Campioni: n1=25 Terapeuta A (n<30)
n2=37 Terapeuta B (n>30)
Variabile indipendente dicotomica:
Terapeuta
Variabile dipendente metrica: Sintomi
 M1=10.36; s1=4.95 e M2=15.84; s2=2

DISTRIBUZIONE CAMPIONARIA DELLA
DIFFERENZA TRA MEDIE

DISTRIBUZIONE DI PROBABILITA’ t
 H0:
=
(la media della
popolazione dei pazienti di A è uguale
a quella dei pazienti di B)
H1:
1
1
2
2
(bidirezionale, la media
della popolazione dei pazienti di A è
diversa a quella dei pazienti di B)
 =.05  Si delinea la regione di
rifiuto secondo e H1 bidirezionale
trovando una tcritica sulla Tavola
Rappresentazione grafica aree di
accettazione e rifiuto – test
bidirezionale
H
0
1Regione
di accettazione
/2
t critico
Regione
di rifiuto
/2
t critico
=.05, bidirezionale, gdl=25+37-2=60
 Si delinea la regione di rifiuto secondo , gdl e
H1 bidirezionale e si trova tcritico = ?
Esempio
 M1=10.36; s1=4.95 e M2=15.84; s2=2 n1=25, n2=37
t
t
(M1 M 2 )
n1s12 n2 s22
n1 n2 2
n1 n2
n1n2
10.36 15.84
25 4.952 37 22
25 37 2
5.48
612.5 148
62
62
925
25 37
25 37
5.48
12.675 .067
5.48
.92
5.95
 5.95 > 2.00  p< .05
H0
1Regione
di rifiuto
/2
-5.95 -2.00
Regione
di accettazione
0
Regione
di rifiuto
/2
2.00
t
 Commento
 Si rifiuta H0  Si accetta H1  l’ipotesi nulla è
poco plausibile
Posta l’uguaglianza tra 1 = 2 la probabilità di
ottenere le medie osservate è minore del 5%
fissato con ; ne concludo che, con un rischio di
errore del 5%:
 Tra i pazienti di A e di B vi è una differenza non
ascrivibile al caso
 La media dei sintomi dei pazienti di A è
significativamente diversa dalla media di quelli di B
VERIFICA DELL’IPOTESI CON
CAMPIONI DIPENDENTI
Dato un campione di ampiezza n dal
quale sono state tratte le misure xi e yi,
possiamo calcolare la media delle
differenze tra le due misure
n
MD
i 1
Di
n
Di xi yi
VERIFICA DELL’IPOTESI CON
CAMPIONI DIPENDENTI
Nel caso di due campioni dipendenti
poiché abbiamo in realtà un solo
campione, estraiamo un’unica misura
La verifica delle ipotesi si basa su una
media  DISTRIBUZIONE CAMPIONARIA
DELLE MEDIE  Distribuzione t di
Student con n-1 gradi di libertà
VERIFICA DELL’IPOTESI
Popolazioni con non noti
2 Campioni DIPENDENTI
Variabile indipendente dicotomica
Variabile dipendente metrica ( Media)

DISTRIBUZIONE CAMPIONARIA DELLE
MEDIE

DISTRIBUZIONE DI PROBABILITA’ t
VERIFICA DELL’IPOTESI
 Scelta del test statistico (di
significatività):
Si calcola t facendo riferimento alla dCM
 Definizione dell’ipotesi: Il confronto è
tra le due popolazioni di riferimento
H0:
H1:
=0
0 (bidirezionale)
D
D> 0 ovvero D< 0 (monodirezionale)
D
VERIFICA DELL’IPOTESI
 Fissare il livello di significatività
e calcolare i gdl :
In base a
gdl=n-1
H1 (mono/bi-direzionale)
 Si delinea la regione di rifiuto
trovando
tcritico sulla Tavola
VERIFICA DELL’IPOTESI
 Si associa una probabilità ad H0
n
MD
n
sD
i 1
Di
i 1
n
MD
n
Di
2
t
MD
D
sD
n 1
D
0
ˆD
 Decisione su H0 (H1):
Il confronto avviene tra t e tcritico come
nel caso di un solo campione.
Su 8 pazienti con attacchi di panico viene rilevata la
Esempio
frequenza
degli attacchi mensili prima e dopo una
psicoterapia breve.
I risultati sono i seguenti:
Prima (xi)
Dopo (yi )
5
4
8
5
9
6
6
4
8
9
4
5
4
2
8
7
C’è un miglioramento nella frequenza degli attacchi
di panico?
VERIFICA DELL’IPOTESI
 Scelta del test statistico (di significatività):
Si calcola t facendo riferimento alla dCM
 Definizione dell’ipotesi:
H0 :
H1 :
=0
0 (bidirezionale)
D
D> 0 ovvero D< 0 (monodirezionale)
D
 Fissare il livello di significatività
In base a
e calcolare i gdl :
gdl=n-1
H1 (mono/bi-direzionale)
 Si delinea la regione di rifiuto trovando
tcritico sulla Tavola
VERIFICA DELL’IPOTESI
 Si associa una probabilità ad H0
n
Di
MD
n
2
n
Di
sD
i 1
MD
t
MD
D
sD
n 1
i 1
n
D
0
ˆD
 Decisione su H0 (H1):
Il confronto avviene tra t e tcritico come nel
caso di un solo campione.
Esempio
 2 Campioni dipendenti ovvero due
misure sugli stessi soggetti: n=8
Variabile indipendente dicotomica: Tempo
(prima/dopo la terapia)
Variabile dipendente metrica: Numero attacchi

DISTRIBUZIONE CAMPIONARIA DELLE
MEDIE

DISTRIBUZIONE DI PROBABILITA’
t
Esempio
 H0:
D
= 0 (la media della differenza tra
H1:
D
> 0 (la media della differenza tra
prima e dopo è uguale a zero, cioè non c’è
differenza prima/dopo, e la terapia non ha
funzionato)
prima e dopo è maggiore di zero, cioè c’è
un decremento dopo la terapia)
Esempio

=.05 e gdl=8-1=7  Si delinea la
regione di rifiuto secondo , gdl e H1
monodirezionale: il tcritico è?
Esempio
Si procede con il calcolo di MD e sD
(utilizzando le formule con i dati grezzi)
Sogg.
1
2
3
4
5
6
7
8
xi
5
8
9
6
8
4
4
8
yi
4
5
6
4
9
5
2
7
Di
1
3
3
2
-1
-1
2
1
10
Di2
1
9
9
4
1
1
4
1
30
MD
sD
10
1.25
8
30
2
1.25 1.48
8
Esempio
 MD=1.25; sD=1.48 
t
1.25
1.48
8 1
2.23
Domanda: Quale è la probabilità di osservare
un valore uguale o maggiore a 2.23 se è vera
H0?
Regione
di accettazione
1-
Regione
di rifiuto
1.89 2.23
t
Esempio
 2.33 > 1.89  p< .05
 Si rifiuta H0  Si accetta H1  è vera
l’ipotesi alternativa
Posto D = 0, la probabilità di ottenere le
medie osservate è minore del 5% fissato
con ; ne concludo che:
 Tra i prima e dopo c’è una diminuzione
significativa degli attacchi
 I risultati suggeriscono che la terapia ha
avuto l’effetto desiderato.