Strrumenti psic
cometrrici di analis
si dei d
dati
Tecn
niche di rice
erca e analisi dati
La
statistica
t ti ti
è
facile!!!
Ripasso Psicometria
Strrumenti psic
cometrrici di analis
si dei d
dati
Tecn
niche di rice
erca e analisi dati
La
statistica
t ti ti
è
facile!!!
Distribuzione normale
DISTRIBUZIONE NORMALE
z
z
È definita da:
ƒ μ=media della popolazione
ƒ σ=d.s.
σ=d s della popolazione
Ha le seguenti caratteristiche:
ƒ INFINITA: va da -∞ a +∞
ƒ SIMMETRICA rispetto alla Y massima (f(x)= punto più alto
Öx=μ)
ƒ UNIMODALE (μ=Mo=Me)
ƒ ASINTOTICA: si avvicina all’asse delle X senza mai toccarlo
μ
X
DISTRIBUZIONE NORMALE
Per qualsiasi valore x che la variabile può
assumere, attraverso la funzione si calcola la
y corrispondente
yi =
Y
1
σ 2π
e
1 ⎛ x −μ ⎞
− ⎜ i
⎟
2⎝ σ ⎠
yi
μ
xi
X
2
DISTRIBUZIONE NORMALE
per -∞<x<μ e DECRESCENTE per
μ<x<+∞ Ödue punti di flesso a μ ± σ
CRESCENTE
Y
yμ =
Punti di flesso
1
σ 2π
Media=Moda=Mediana
Asintotica
-∞
μ-σ
μ μ+σ
X +∞
DISTRIBUZIONE NORMALE
La curva NORMALE è definita dai parametri μ
eσ
z Abbiamo un’ampia famiglia di distribuzioni
normali con medie e deviazioni standard
diverse…
z
Y
μ1≠ μ2 ≠ μ3
σ 1≠ σ 2 ≠ σ 3
μ2
μ1
μ3
X
DISTRIBUZIONE NORMALE
z
Oppure famiglie di distribuzioni normali con
diversa media e con uguale deviazione
standard
μ1≠ μ2 ≠ μ3
Y
σ1=σ 2 =σ 3
μ2
μ1
μ3
X
DISTRIBUZIONE NORMALE
z
Qualsiasi siano i parametri μ e σ, ll’area
area della porzione di
curva delimitata dalla media e un ordinata espressa in
termini di deviazioni standard è costante
Ö μ+σ= 34.13% della distribuzione
Ö μ+2σ= 47.73% della distribuzione
Ö μ+3σ= 49.86% della distribuzione
Y
99.73%
95 46%
95.46%
68.26%
μ-3σ μ-2σ μ-σ
μ μ+σ μ+2σ μ+3σ
Strrumenti psic
cometrrici di analis
si dei d
dati
Tecn
niche di rice
erca e analisi dati
La
statistica
t ti ti
è
facile!!!
Distribuzioni campionarie
Il campionamento e l’inferenza statistica
•Il problema centrale dell’inferenza statistica è quello di
generalizzare alla popolazione i risultati (ad es., media,
diff
differenze
medie,
di associazioni,
i i i ecc.)) ottenuti
tt
ti a lilivello
ll di
un campione.
•Popolazione = un insieme di unità statistiche che
condividono una o più caratteristiche
•Es: la popolazione dei pazienti con diagnosi di
depressione bipolare
•Campione = sottoinsieme della popolazione, composto
da unità estratte preferibilmente in modo casuale dalla
popolazione
•Es:
Es: i pazienti partecipanti ad un trial clinico sull’efficacia
sull efficacia di una
terapia per la depressione
Il campionamento e l’inferenza statistica
Sul campione si calcolano le STATISTICHE (ad es., M) del
campione per conoscere i PARAMETRI (ad es
es, μ) della
popolazione.
Questo passaggio dalle STATISTICHE ai PARAMETRI si basa
sulla conoscenza delle proprietà delle DISTRIBUZIONI
CAMPIONARIE dei
d i parametri
t i ((μ))
z
Se si estraggono tutti i possibili campioni di ampiezza n da una
popolazione (con μ e σ) e si calcola per ognuno la media,
ottengo:
ƒ DISTRIBUZIONE CAMPIONARIA DELLA MEDIA (dCM), anch’essa normale
e caratterizzata da una media (μM) e una deviazione standard, detta
errore standard (σ
( M)
DISTRIBUZIONE CAMPIONARIA DELLA MEDIA
z
Se la popolazione è infinita o se il campionamento
è con reinserimento: la media della distribuzione
campionaria
i
i è uguale
l alla
ll media
di d
della
ll popolazione
l i
e l’ errore standard è uguale alla deviazione
standard della popolazione fratto la radice di n
μM = μ
z
σM =
σ
n
Se la popolazione è finita ((N)) o il campionamento è
senza reinserimento, la media della distribuzione
campionaria è uguale alla media della popolazione
e l’errore
l’
standard
t d d diventa
di
t appena più
iù complicato:
li t
μM = μ
σ
M
=
σ
n
N − n
N −1
LEGGE DEI GRANDI NUMERI
z
All aumentare di n la varianza della distribuzione campionaria
All’aumentare
della media diminuisce e tende a zero
z
Più ampi sono i campioni:
ƒ più alta è la probabilità che la media di ognuno di essi sia vicina a quella
della popolazione
ƒ la varianza della dCM si riduce
ƒ Quando N=n la varianza della dCM è zero
σ
2
M
2
< σ
2
M
1
dCM2 con n
n= 20
dCM1 con n= 10
popolazione
μM1= μM2= μ
M
< σ
2
TEOREMA DEL LIMITE CENTRALE: dCM e Normale
z
Se si estraggono ripetuti campioni di
ampiezza n da una popolazione, qualsiasi sia
la forma della distribuzione nella popolazione:
ƒ all’aumentare di n la distribuzione campionaria
della media tende ad avvicinarsi alla normale e
può essere considerata normale per n≥30
DISTRIBUZIONE CAMPIONARIA DELLA MEDIA
DISTRIBUZIONE CAMPIONARIA DELLE MEDIE con n>30
DISTRIBUZIONE DI PROBABILITA NORMALE
S
STANDARDIZZATA
TRASFORMAZIONE IN
z
μM= media della
dCM (=μ)
( )
M media da
M=media
standardizzare
z=
M − μM
σ
n
n= ampiezza
i
campionaria
i
i
σM= errore
standard della dCM
DISTRIBUZIONE NORMALE
z
La distribuzione riparametrizzata sulla scala z
standardizzata mantiene le caratteristiche della curva
normale
Ö entro z = 1 34.13% della distribuzione
Ö entro z = 2 47.73% della distribuzione
Ö entro z = 3 49.86% della distribuzione
99.73%
Y
95 46%
95.46%
68.26%
-3
-2
-1
0
1
2
3
A che serve la z? A che serve l’errore standard?
z
La trasformazione in z, traduce una differenza fra medie dalla
metrica originaria (es: peso), in una nuova metrica, in cui la
nuova unità di misura corrisponde all’errore standard
z
Possiamo risalire alla probabilità di osservare una
discrepanza dalla media dell’entità espressa da z.
ƒ Infatti, la z, segue la distribuzione normale di probabilità
z
Rispetto alle differenze fra medie nella metrica originaria, la z
cii aiuta
i t a capire
i quanto
t è iimportante
t t iin termini
t
i i probabilistici
b bili ti i
la differenza osservata.
ƒ Questo perché ll’errore
errore standard è un’unità
un unità di misura delle differenze
più interessante rispetto alle unità di misura originarie.
pp
l’errore medio della stima che noi
ƒ L’errore standard rappresenta
effettuiamo calcolando la media campionaria
ƒ Una differenza grande svariate volte l’errore medio della stima, è un
evento poco probabile
probabile, e tutto ciò che è poco probabile è in genere
molto informativo.
ESEMPIO USO z
Poniamo di aver ottenuto su un campione di
nostri pazienti (n = 19) un punteggio pari a 25.5
in un test di depressione.
e Nel campione normativo il test ha una media di
24.1 con ds = 1.7.
e Il mio campione è “strano” rispetto a quello
normativo?
e
zM =
M − μ
σ
n
M
25.5 − 24.1
zM =
= 3.58
1 .7
19
Tavola z
ESEMPIO
Ne posso concludere che il mio campione
rappresenta un caso estremo ed improbabile della
popolazione
fOppure, posso sospettare che faccia parte di una
popolazione diversa rispetto a quella fotografata dal
campione normativo di standardizzazione del test
f
Probabilità di circa 2 su
diecimila
3.58
z
ESEMPIO USO z - 2
Poniamo di aver ottenuto su un campione di
nostri pazienti (n = 19) un punteggio pari a 24.5
in un test di depressione.
e Nel campione normativo il test ha una media di
24.1 con ds = 1.7.
e Il mio campione è “strano” rispetto a quello
normativo?
e
zM =
M − μ
σ
n
M
24.5 − 24.1
zM =
= 1.02
1 .7
19
Tavola z
ESEMPIO
Ne posso concludere che il mio campione rappresenta un
caso relativamente banale e abbastanza rappresentativo della
popolazione fotografata dal campione normativo
fOppure, i dati possono confermare che il mio campione
proviene probabilmente dalla medesima popolazione da cui è
stato tratto il campione normativo
f
Probabilità di circa il 15%
1.02
z
RIASSUMENDO…
z
La dCM la si ottiene calcolando la media di ciascun campione
estratto da una popolazione con una sua distribuzione con μ
eσ
z
La media della dCM è la media delle medie, la deviazione
standard
t d d sii calcola
l l con glili scarti
ti di ciascuna
i
media
di
campionaria dalla media delle medie
z
L POPOLAZIONE può
La
ò avere di
distribuzione:
t ib i
ƒ Normale
ƒ diversa dalla normale
ƒ non nota
z
Se n>30 la distribuzione delle medie dei campioni da essa
estratti è NORMALE, per qualunque distribuzione della
variabile.
DISTRIBUZIONE CAMPIONARIA DELLA MEDIA: t di Student
z
La POPOLAZIONE può avere distribuzione:
ƒ Normale
ƒ diversa dalla normale
ƒ non nota
z
z
Se n<30 la distribuzione delle medie dei campioni è
d l ti
del
tipo t di Student.
St d t Ha
H lle seguenti
ti caratteristiche:
tt i ti h
INFINITA, SIMMETRICA, UNIMODALE, ASINTOTICA
DISTRIBUZIONE t di Student a confronto con la Normale
z Rispetto
alla normale la varianza della
distribuzione sarà maggiore
ƒPerché n < 30 (campioni piccoli)
ƒcurva più appiattita e code più lunghe (ad
es. la porzione di area compresa tra ± 1 σ dalla
media
di sarà
à minore
i
d
dell 68%)
Distribuzione Normale
Distribuzione t
di Student
-σ
μ
+σ
t
DISTRIBUZIONE t di Student
z
z
z
La forma della distribuzione t varia secondo la
dimensione n dei campioni
Ciasc na distribuzione
Ciascuna
distrib ione t è definita dai parametri μ, σ
e ν = gradi di libertà ν = n − 1
La t è quindi una Famiglia di distribuzioni legate a il
numero di ν = gradi di libertà (all’aumentare di ν la
distribuzione tende alla normale)
Di t ib i
Distribuzione
Normale
N
l
Distribuzione t di
S d
Student
con ν=30
30
Distribuzione t di
Student con ν=5
t
DISTRIBUZIONE t di Student
z
Come per la normale
∞
p ( −∞ < x < ∞ ) =
∫
f ( t ) dt
d =1
−∞
z
La curva definisce una distribuzione di probabilità
Ö Distribuzione di probabilità t definita
dall’indicatore:
M − μ
t =
σˆ M
M
σˆ =
M
s
ν
ν = n −1
DISTRIBUZIONE t: RIASSUMENDO
DISTRIBUZIONE CAMPIONARIA DELLE MEDIE con n<30
DISTRIBUZIONE DI PROBABILITA’ t
TRASFORMAZIONE IN
Media
M
di da
d
standardizzare
M − μM
t=
s
n −1
Gradi di libertà legati a n
= ampiezza campionaria
t
Media della dCM
(=μ)
Errore standard
della dCM stimato a
partire da s
ESEMPIO USO t
Poniamo di aver ottenuto su un campione di
nostri pazienti (n = 19) un punteggio medio pari
a 25.3 (d.s. = 1.7) in un test di depressione.
e Le tabelle del campione normativo
suggeriscono che punteggi superiori a 25 sono
da considerarsi problematici.
e Quanto è problematico il mio campione?
e
M − μM
t=
s
n −1
25.3 − 25
t=
= .75
1.7
19 − 1
Tavola t
A che serve la t
z
Come la trasformazione in z, la trasformazione in t
scala le differenze osservate secondo una nuova
unità
ità di misura
i
d
data
t d
dall’errore
ll’
standard.
t d d
ƒ Attenzione: non confondere la distribuzione t con i
punteggi
t
i “T”!
z
Questa nuova scala segue una distribuzione nota
ƒ È possibile stabilire intervalli di confidenza intorno alla
media campionaria per stimare la media della
popolazione
ƒ Possiamo sapere quanto è probabile osservare una data
differenza rispetto ad una media data della popolazione
9Se una differenza supera di svariate volte l’errore
standard di misura ci troviamo di fronte ad una
differenza improbabile,
improbabile e quindi interessante e
informativa
Strrumenti psic
cometrrici di analis
si dei d
dati
Tecn
niche di rice
erca e analisi dati
La
statistica
t ti ti
è
facile!!!
Distribuzioni campionarie
della differenza fra le medie
Distribuzione campionaria della differenza fra medie
z
Se si estraggono da due popolazioni distribuite normalmente
(con medie μ1 e μ2, varianze σ12 e σ22 ) un gran numero di
campioni indipendenti di ampiezza n1 e n2, e si calcola la
differenza tra le loro medie ottengo:
DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA
MEDIE (dCDM)
z
La DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA TRA MEDIE
L
(dCDM) è caratterizzata da:
ƒ una media (μ
( M1-M2);
ƒ un errore standard (σM1-M2)
z
Se n1 e n2 sono maggiori
S
i i di 30,
30 per il Teorema
T
del
d l lilimite
it
centrale, la dCDM è normale qualsiasi sia la distribuzione delle
p p
popolazioni
Distribuzione campionaria della differenza fra medie
z
La media della distribuzione campionaria della differenza tra
medie è uguale alla differenza delle medie μ1 e μ2 delle due
popolazioni
μ M −M = μ M − μ M
1
z
1
2
L’errore standard è uguale alla radice quadrata della
somma delle varianze σ12 e σ22 delle due popolazioni fratto le
rispettive ampiezze campionarie n1 e n2
σM
z
2
1 −M 2
=
σ 12
n1
+
σ 22
n2
Usando questo errore standard possiamo riscalare la
differenza osservata fra le due medie in termini di errore
standard (trasformazione in z)
Distribuzione campionaria della differenza fra medie
Se σ12 e σ22 non sono note occorre stimarle a partire
d s12 e s22 Ö Stima
da
Si
d
dell’errore
ll’
standard
d d
VARIANZE STIMATE DELLA POPOLAZIONE
n1 2
s1
σˆ =
n1 − 1
2
1
σˆ M
1 −M 2
=
n2 2
s2
σˆ =
n2 − 1
2
2
s12
s 22
+
n1 − 1 n 2 − 1
Distribuzione campionaria della differenza fra medie
z
La z rappresenta un caso particolare, più in
generale:
ƒ Se n1 e n2 sono minori di 30 la DISTRIBUZIONE
CAMPIONARIA DELLA DIFFERENZA TRA MEDIE ((dCDM) non è
normale
ƒ Distribuzione t di Student con gradi di libertà:
gdl = n1 + n2 - 2
t=
x1 − x 2 − ( μ1 − μ 2 )
⎛ n1s12 + n2 s22 ⎞⎛ n1 + n2 ⎞
⎜⎜
⎟⎟⎜⎜
⎟⎟
⎝ n1 + n2 − 2 ⎠⎝ n1n2 ⎠
)
σ x −x
1
2
Interpretazione delle differenze fra medie in termini di probabilità
z
Se una differenza fra medie si traduce in una z (o t) di
determinata entità, possiamo controllare la probabilità di
osservare una differenza di quella entità
Ö differenze maggiori di z = ±1 Capitano meno del 32% delle volte
Ö differenze maggiori di z = ± 2 Capitano meno del 5% delle volte
Ö differenze maggiori di z = ± 3 Capitano meno del 1% delle volte
99.73%
Y
95 46%
95.46%
68.26%
-3
-2
-1
0
1
2
3
Riassumendo
z
Le distribuzioni della differenza campionaria delle media
sono concettualmente simili alle distribuzioni campionarie
delle media
media.
z
Siccome conosciamo la forma di queste distribuzioni (o sono
normali o sono del tipo t) è possibile calcolare un indicatore
normali,
delle differenze (o z o t) tramite il quale deriviamo
un’indicazione probabilistica dell’entità delle differenze
osservate.
t
z
La z è un caso particolare (distribuzione normale) di un caso
più
iù generale
l (di
(distribuzione
t ib i
t)
z
Ricordiamoci che differenze grandi (grandi z o grandi t)
indicano differenze poco probabili.
probabili
z
Ora sappiamo tutto ciò che ci serve per affrontare la verifica
delle ipotesi
ipotesi.
Strrumenti psic
cometrrici di analis
si dei d
dati
Tecn
niche di rice
erca e analisi dati
La
statistica
t ti ti
è
facile!!!
VERIFICA DELLE IPOTESI
INFERENZA STATISTICA
z
Teoria della verifica dell
dell’ipotesi
ipotesi :
ƒ si verifica, in termini probabilistici, se una certa affermazione relativa alla
popolazione è da ritenersi vera sulla base dei dati campionari
ƒ Questo approccio è il più tipico in psicologia
z
Teoria della stima dei parametri:
ƒ si stabilisce, in termini probabilistici, il valore numerico di uno o più parametri
incogniti della popolazione a partire dai dati campionari
ƒ Questo approccio è meno frequente in psicologia
z
Formulazione Ipotesi Statistiche
z
Raccolta dati sul Campione (ottenuto - idealmente - con
campionamento casuale)
z
Decisione (in base alla Teoria della Probabilità)
ƒ sempre soggetta ad errore
ƒ si assume a priori un rischio accettabile (poco probabile) di errore
FORMULAZIONE DELLE IPOTESI
z Si
formulano due ipotesi:
ƒH0 : ipotesi nulla
9(“non c’è effetto”)
ƒH
H1 : ipotesi
i t i alternativa,
lt
ti
o sostantiva,
t ti
o
sperimentale
9 (“qualche effetto c’è”)
z Per
verificare un’ipotesi
p
((H1) che afferma la
presenza di effetti, si assume che sia invece vera
un’ipotesi
un
ipotesi contraria (H0 ), che nega la presenza di
effetti.
FORMULAZIONE DELLE IPOTESI
z
Si calcola la probabilità di osservare valore pari
almeno al valore “sperimentale” (quello ottenuto)
assumendo come vera l’ipotesi nulla.
ƒ Se tale probabilità è bassa si decide che H0 è falsa, e H1 è
verosimile.
ƒ Bisogna però ricordare che H0 può essere vera, e che noi
abbiamo semplicemente sbagliato campionamento.
z
Es: Due diverse terapie garantiscono diversa efficacia?
™ H0 (ipotesi nulla): non esiste una differenza tra due terapie
™ H1 (ipotesi alternativa): esiste una differenza tra due terapie
™ Si cerca di falsificare probabilisticamente l’ipotesi che non vi siano
diff
differenze
(H0) per dimostrare
di
t
che
h lla diff
differenza c’è
’è (H1)
FORMULAZIONE DELLE IPOTESI
z
Ipotesi sperimentale H1 può essere:
ƒ Semplice: si fissa un unico valore del parametro
ƒ Composta: si fissano diversi valori possibili del parametro
ƒ MONODIREZIONALE (una coda) prevede la direzione
della differenza
ƒ BIDIREZIONALE (due code) non prevede direzione
H0 : μs = μc
H1 :
μ = 60 Semplice
oppure
μs< μc Composta
p
Monodirezionale
oppure
μs> μc Composta Monodirezionale
oppure
μs ≠ μc Composta Bidirezionale
DECISIONE SU H0
z
Si calcola la probabilità associata agli eventi
osservati posto che H0 sia vera
z
se la probabilità è alta accetto H0
z
se la probabilità è bassa respingo H0 e accetto H1
H0
Alta
Bassa
Bassa
0
LIVELLO DI SIGNIFICATIVITÀ
z
Come si stabilisce che la probabilità associata a H0 è alta
o bassa?
Si definiscono dei limiti probabilistici:
ƒ entro certi livelli di probabilità accetto H0
ƒ oltre certi livelli di probabilità rifiuto H0
Il livello di significatività = α:
z Definisce la regione di Rifiuto di H0
ƒ α é una probabilità
ƒ Regione della distribuzione campionaria composta dai risultati che
hanno una probabilità molto bassa di essere osservati quando H0 è
vera
z
Definisce la regione di Accettazione di H0
ƒ Regione della distribuzione campionaria composta dai risultati che
hanno una probabilità molto alta di essere osservarti quando H0 è
vera (1- α).
DECISIONE SU H0: Regioni di accettazione rifiuto per ipotesi monodirezionali
zRicorda!
Ri d !
™L’area sotto la curva rappresenta una probabilità
™L’asse delle ascisse rappresenta una statistica (z o t)
H0
Regione di
accettazione
(1- α)
Regione di rifiuto
α
H1 monodirezionale
di i l
0
DECISIONE SU H0: Regioni di accettazione rifiuto per ipotesi bidirezionali
zRicorda!
Ri d !
™L’area sotto la curva rappresenta una probabilità
™L’asse delle ascisse rappresenta una statistica (z o t)
H0
Regione di
accettazione
((1- α))
Regione
di rifiuto
Regione
di rifiuto
α/2
α/2
0
H1 bidirezionale
bidi i l
LIVELLO DI SIGNIFICATIVITÀ
z
Sia p il valore di probabilità calcolato per l’evento
osservato
α
ƒ se p > α : Accetto H0 e Rifiuto H1
p
α
ƒ se p < α : Rifiuto H0 e Accetto H1
p
REGOLE DI DECISIONE
Regole
g
di decisione su
base probabilistica
La decisione non è mai certa
La decisione è sempre soggetta ad errore
Il rischio di errore che ci sentiamo di correre
è rappresentato da α
REGOLE DI DECISIONE: Errori
zStabilire
S bili il lilivello
ll di α significa:
i ifi
ƒ Stabilire il rischio che siamo disposti a correre di commettere l’errore di
respingere
i
H0 quando
d è vera (Errore
(E
di I° tipo)
i )
z Si tende a stabilire un valore di α basso perché:
ƒ è preferibile non affermare l’esistenza di un fenomeno se non si è
probabilisticamente “sicuri”
sicuri della sua presenza
ƒ “Andare appresso” a risultati apparentemente significativi (che
dipendono
p
da eccessivo errore di campionamento)
p
) è scientificamente
una perdita di tempo
zα
= .05 Ö rischio di sbagliare rifiutando H0 quando essa è vera = 5 volte su 100
zα
= .01Ö rischio di sbagliare rifiutando H0 quando essa è vera = 1 volta su 100
zα
= .001Ö rischio di sbagliare rifiutando H0 quando essa è vera = 1 volta su 1000
REGOLE DI DECISIONE: Errori
z
S H0 è vera:
Se
ƒ si può decidere di accettare H0 = Decisione corretta
ƒ si può decidere di rifiutare H0 = Decisione scorretta (Errore di I° tipo)
z
ERRORE DI I° TIPO
ƒ Respingo H0 quando è vera
ƒ Accetto H1 quando è falsa
z
z
Commettendo l’errore di I tipo si considera presente (vero) un effetto
assente (falso) nella popolazione
La probabilità di questo errore è α
ƒ α= probabilità di evidenziare un fenomeno che in realtà non esiste
ƒ α= probabilità di rintracciare un effetto presente solo in un campione (per
errore di campionamento), ma assente nella popolazione di riferimento
REGOLE DI DECISIONE: Errori
z
Se H0 è falsa:
ƒ si può decidere di rifiutare H0 : Decisione corretta
ƒ si può decidere di accettare H0 : Decisione scorretta (Errore di II°
tipo)
z
ERRORE DI II° TIPO
ƒ Accetto H0 quando è falsa Ö
ƒ Rifiuto H1 quando è vera
z
z
Si considera assente (falso) un effetto presente (vero) nella
popolazione di riferimento
La probabilità di questo errore è β
ƒ β = probabilità di non evidenziare un fenomeno che in realtà esiste
ƒ β = probabilità di non rintracciare un effetto assente solo nel campione
osservato, ma in realtà presente nella popolazione di riferimento
z
Purtroppo
P
t
il valore
l
di β,
β a differenza
diff
di quello
ll di α, non può
ò
essere determinato
Relazione fra α e β
H0
H1
Regione di
accettazione
1-β
β
1α
1-α
Regione di
accettazione
β
α
D=0
Campione appartenente ad una popolazione
dove H0 è falsa,
ma che conduce ad errore di II tipo
D≠0
Campione appartenente ad una popolazione
dove H0 è vera,
ma che conduce ad errore di I tipo
Relazione fra α e β
H0
H1
Regione di
accettazione
1-β
β
1α
1-α
Regione di
accettazione
β
α
D=0
D≠0
•Se
Se α diminuisce,
diminuisce β aumenta.
aumenta
™Evitare
errori di I° tipo può portare ad una elevata probabilità di
commettere errori di II° tipo
p
REGOLE DI DECISIONE
Ipotesi
H0 è vera
Decisione
Accetto H0 Decisione Corretta
(1 α))
(1-
Rifiuto H0
Decisione Errata
Errore di I°
I tipo
(α )
H0 è falsa
Decisione Errata
E
Errore
di II° tipo
ti
(β )
Decisione Corretta
(1 - β )
POTENZA DEL TEST
•
La potenza
poten a del test è la probabilità di respingere H0 quando
q ando è vera
era H1
Ö
11- β
•
Capacità del test di condurre alla decisione corretta
•
La potenza di un test è determinata fondamentalmente dalla grandezza
del campione
de
ca p o e
•
Inoltre, la potenza è determinata dalla grandezza dell’effetto.
•
Infine, la potenza è in parte influenzata dal tipo di analisi statistica
effettuata.
L’applicabilità
L
applicabilità delle tecniche di analisi dipende a sua volta da:
¾Livello di misura
¾G
Grandezza
a de a ca
campione
po e
¾Distribuzione
•
Strrumenti psic
cometrrici di analis
si dei d
dati
Tecn
niche di rice
erca e analisi dati
La
statistica
t ti ti
è
facile!!!
VERIFICA DELLE IPOTESI:
Ip
passi da seguire
g
VERIFICA DELL’IPOTESI: I passi da seguire
–
IIn base
b
a:
Livello di misurazione variabile/i
9Categoriale
9Ordinale
9Intervalli
9Rapporti
–
Caratteristiche del/dei campione/i (n° e tipo)
1 CAMPIONE
2 CAMPIONI
k CAMPIONI
dipendenti
indipendenti
indipendenti
c Scelta del test statistico (di significatività)
dipendenti
VERIFICA DELL’IPOTESI: I passi da seguire
d
Definizione dell’ipotesi:
H0: IPOTESI NULLA (da falsificare)
H1: IPOTESI ALTERNATIVA (da verificare)
IPOTESI SEMPLICE
IPOTESI COMPOSTA
MONODIREZIONALE
BIDIREZIONALE
VERIFICA DELL’IPOTESI: I passi da seguire
e
Fissare il livello di significatività α =
p
probabilità
p
prefissata di considerare H0 falsa
quando è vera (errore di 1° tipo)
Ö Si delinea la regione di rifiuto in base a:
–
–
α prefissato
Tipo di H1 (mono/bi-direzionale)
(mono/bi direzionale)
ƒ Nel fissare α devo tenere anche conto della
potenza che mi aspetto del test, e quindi:
ƒ Considerare
C
id
lla grandezza
d
attesa
tt
d
dell effetto
ff tt iipotizzato
ti
t
ƒ Avere un’idea della numerosità campionaria
ƒ Scegliere il test più potente fra quelli appropriati
VERIFICA DELL’IPOTESI: I passi da seguire
f
Associare una probabilità ad H0:
Test statistico
Ø
Distribuzioni campionarie
Ø
Distribuzioni teoriche di probabilità
(T
(Tavole)
l )
g
Decisione su H0 (ÖH1):
9Se la probabilità associata ad H0 è maggiore
di α (p
( > α)) Ö Si accetta
tt H0
9Se la probabilità associata ad H0 è minore di
α (p < α)) Ö Si rifiuta H0 Ö Si accetta H1
Strrumenti psic
cometrrici di analis
si dei d
dati
Tecn
niche di rice
erca e analisi dati
La
statistica
t ti ti
è
facile!!!
VERIFICA DELLE IPOTESI CON 1 CAMPIONE
Esempio
z
Sappiamo che, considerando l’intera popolazione di
pazienti di un professionista negli anni precedenti
precedenti, il
punteggio medio dei pazienti allo STAI era
24 7±1 7
24.7±1.7.
z
Scegliendo in modo casuale 36 pazienti accorsi dal
professionista nell’ultimo anno, si osserva che il
punteggio medio da loro ottenuto è 25
25.4.
4
z
Possiamo inferire che i pazienti dell’anno
dell anno in corso
siano più ansiosi rispetto a quelli degli anni
precedenti?
VERIFICA DELL’IPOTESI
Popolazione con μ e σ noti
1 Campione
p
n>30
Variabile metrica (Ö Media)
Ø
DISTRIBUZIONE CAMPIONARIA DELLE MEDIE
Ø
DISTRIBUZIONE DI PROBABILITA’ NORMALE
VERIFICA DELL’IPOTESI
c
Scelta del test statistico di significatività:
Si calcola z facendo riferimento alla dCM
d
Definizione dell
dell’ipotesi:
ipotesi: Confronto con la
popolazione di riferimento
H0: μM = μ
H1: μM ≠ μ (bidirezionale)
μM > μ oppure μM < μ (monodirezionale)
Domanda: Nell’esempio precedente, quale
ipotesi veniva formulata?
VERIFICA DELL’IPOTESI
e
Fissare il livello di significatività α Ö
Si delinea la regione di rifiuto secondo α e H1
(mono/bi-direzionale) trovando uno zcritico sulla
Tavola
f
Si associa una probabilità ad H0
standardizzando la media in oggetto
zM =
M − μ
σ
n
M
VERIFICA DELL’IPOTESI
g
D i i
Decisione
su H0 (ÖH1):
)
Il confronto avviene tra z e zcritico (p = area della
curva associata a H0 viene confrontata con l’area
di rifiuto definita da α)
⏐z⏐<⏐zcritico
iti ⏐ = p > α
Ö Si accetta H0 Ö è vera l’ipotesi nulla
⏐z⏐>⏐zcritico⏐ = p < α
Ö Si rifiuta H0 Ö Si accetta H1 Ö è vera l’ipotesi
alternativa
ESEMPIO
c
1 Campione: n=36 pazienti (n>30)
Variabile metrica: punteggio STAI
Ö M=25.4;
μ= 24.7;
24 7 σ=1.7
17
Ø
DISTRIBUZIONE CAMPIONARIA DELLE MEDIE
Ø
DISTRIBUZIONE DI PROBABILITA’ NORMALE
ESEMPIO
d
H0: μM = μ (la
(l media
di d
della
ll di
distribuzione
t ib i
campionaria è uguale a quella della popolazione,
ovvero la
l media
di d
dell’anno
ll’
corrente
t è uguale
l a
quella degli anni precedenti)
H1: μM > μ (monodirezionale destra, ovvero la
media dell’anno corrente è maggiore di quella
degli anni precedenti)
e α=.05 Ö Si delinea la regione di rifiuto secondo
α e H1 monodirezionale destra trovando uno zcritico
sulla Tavola
ESEMPIO
Devo rintracciare lo scostamento dalla media
(valore critico) che corrisponde alla probabilità
alpha sotto un’ipotesi
alpha,
un ipotesi monodirezionale
1-α
Regione
di accettazione
α
Regione
di rifiuto
z critico
ii
95% (.95)
5% (.05)
ESEMPIO
Per iipotesi
P
t i monodirezionali,
di i
li Se
S α=.05
05 Ö
l’area tra 0 e lo zcritico è .4500 (su una sola coda
d ll di
della
distribuzione);
t ib i
)
l’area oltre lo zcritico deve essere minore di
.0500
050050% (.50)
45% (.45)
1-α
Regione
R
i
di accettazione α
Regione
di rifiuto
z critico
ii
95% (.95)
5% (.05)
Tavola z
z
.00
.01
.02
.03
.04
.05
.06
.07
.08
.09
0 .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359
0.1 .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .0753
0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .1141
0.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1480 .1517
0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879
0.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224
0.6 .2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2517 .2549
Z critico
0.7 .2580 .2611 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852
0.8 .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .3133
0.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389
1 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621
1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3830
1.2 .3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .4015
1 3 .4032
1.3
4032 .4049
4049 .4066
4066 .4082
4082 .4099
4099 .4115
4115 .4131
4131 .4147
4147 .4162
4162 .4177
4177
1.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319
1.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .4441
1.6 .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .4545
1 7 .4554
1.7
4554 .4564
4564 .4573
4573 .4582
4582 .4591
4591 .4599
4599 .4608
4608 .4616
4616 .4625
4625 .4633
4633
1.8 .4641 .4649 .4656 .4664 .4671 .4678 .4686 .4693 .4699 .4706
1.9 .4713 .4719 .4726 .4732 .4738 .4744 .4750 .4756 .4761 .4767
2 .4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .4817
1 α
1−α
ESEMPIO
Se α=.05
S
05 Ö l’area
l’
ttra 0 e llo zcritico è .4500;
4500
l’area oltre lo zcritico deve essere minore di
.0500
0500
Ö Si trova il valore di z sulla tavola corrispondente
aq
questa area Ö zcritico=1.65 p
per l’ipotesi
p
mono. dx
(quadrante positivo degli assi cartesiani)
1-α
Regione
R
i
di accettazione
Regione
d rifiuto
di
f
α
1.65
z
ESEMPIO
f
Calcolo della statistica z
n=36,, σ=1.7 Ö
σM =
1.7
36
= .28
25.4 − 24.7
z=
= 2.5
.28
1-α
Regione
di accettazione
Regione
di rifiuto
ifi t
1.65
2.5
z
ESEMPIO
g ⏐2.5⏐>⏐1.65⏐
Ö p< .05
Ö Si rifiuta H0 Ö Si accetta H1 Ö si considera falso l’ipotesi
nulla e “vera” quella alternativa
Posta l’uguaglianza tra μM = μ la probabilità di ottenere
una media come q
quella osservata è minore del 5%
%
fissato con α; ne concludo che:
Ö La media dei pazienti dell’anno
dell anno corrente si discosta
significativamente dalla media generale.
Ö In
I quell’anno
ll’
i pazienti
i ti iin iingresso erano
significativamente più ansiosi che in passato
VERIFICA DELL’IPOTESI
Popolazione
P
l i
con σ non noto
t
1 Campione n>30
Variabile metrica (Ö Media)
Ø
DISTRIBUZIONE CAMPIONARIA DELLE MEDIE
Ø
DISTRIBUZIONE DI PROBABILITA’ NORMALE
ERRORE STANDARD STIMATO
zM
M − μM
=
s
n −1
σˆ M =
s
n −1
Esempio
z La
media della popolazione in un
questionario di autostima è uguale a 100.
z Un
U
campione
i
di 61 soggetti
tti di
divorziati,
i ti
selezionati a caso, sottoposto al test ottiene
una media di 98±7.5.
z
Possiamo
P
i
concluderne
l d
che
h i di
divorziati
i ti h
hanno
un’autostima più bassa rispetto alla
popolazione generale?
Esempio
c
1 Campione: n= 61 divorziati (n>30)
n
Variabile metrica: Punteggio al
questionario autostima.
Ö M= 98; s= 7.5
μ= 100
Ø
DISTRIBUZIONE CAMPIONARIA DELLE MEDIE
Ø
DISTRIBUZIONE DI PROBABILITA’ NORMALE
Esempio
d
H 0 : μM = μ
(la media della distribuzione campionaria è uguale a
quella della popolazione)
H1: μM < μ
(monodirezionale sinistra, cioè la media dei neoeconomisti è minore di quella generale)
e α
α=.01
.01 Ö Si delinea la regione di rifiuto
secondo α e H1 (monodirezionale sinistra)
trovando uno zcritico
sulla Tavola
iti
Esempio
Per α=.01
P
01 monodirezionale:
di i
l l’area
l’
tra 0 e llo
zcritico è .4900; l’area oltre zcritico è minore di
.0100.
0100
1-α
99% (.99)
Regione
d rifiuto
di
f
1% (.01)
Regione
g
di accettazione
α
z critico
iti
Tavola z
Z critico
1−α
α
Esempio
Per ipotesi monodirezionali,
monodirezionali Se α
α=.01
01 Ö ll’area
area tra 0 e
lo zcritico è .4900; l’area oltre zcritico è minore di .0100.
Ö Il valore
l
di z sulla
ll ttavola
l corrispondente
i
d t a questa
t
area è:
zcritico= -2.33 per l’ipotesi è mono. sx (quadrante
negativo degli assi cartesiani)
1-α
Regione
g
di rifiuto
Regione
R
i
di accettazione
α
-2.33
z
Esempio
f
n=61,
61 σ=non noto,
t s=7.5
75Ö
98−100
z=
= −2.06
.97
σˆ M =
7.5
61 − 1
1-α
Regione
di rifiuto
Regione
di accettazione
α
-2.33 -2.06
z
= .97
Esempio
⏐2.06⏐<⏐2.33⏐
⏐
⏐ ⏐
⏐ Ö p > .01
Ricordare che il test confronto va effettuato sui valori assoluti
delle due z.
z
Ö Si accetta H0 Ö non posso considerare falsa l’ipotesi nulla
Posta l’uguaglianza tra μM = μ la probabilità di ottenere una
media come quella osservata è maggiore dell’1% fissato con
α
Ö La media dei divorziati non si discosta significativamente
d ll media
dalla
di nella
ll popolazione.
l i
Ö I divorziati mostrano un livello di autostima analogo a
quello della popolazione.
VERIFICA DELL’IPOTESI
Popolazione con σ non noto
p
n<30
1 Campione
Variabile metrica (Ö Media)
Ø
DISTRIBUZIONE CAMPIONARIA DELLE MEDIE
Ø
DISTRIBUZIONE DI PROBABILITA’
t
VERIFICA DELL’IPOTESI
c
d
Scelta del test statistico (di significatività):
Si calcola t facendo riferimento alla dCM
Definizione dell’ipotesi: Il confronto è con la
popolazione di riferimento
H0: μM = μ
H1: μM ≠ μ (bidirezionale)
μM > μ ovvero μM < μ (monodirezionale)
VERIFICA DELL’IPOTESI
e
Fissare il livello
Fi
li ll di significatività
i ifi ti ità α e
calcolare i gdl .
I base
In
b
a:
α
gdl=n-1
dl
1
H1 (mono/bi-direzionale)
… si delinea la regione di rifiuto trovando
tcritico sulla
ll T
Tavola
l
TAVOLA DI t
Riporta i valori di t in base a: α,
α H1, gdl
• Esempio:
α =.01
H1 bidirezionale
n=11 Ö gdl=10
t=±3.17
VERIFICA DELL’IPOTESI
f
Si associa una probabilità ad H0 calcolando:
M − μM
t =
s
n −1
g
Decisione su H0 (ÖH1):
Il confronto avviene tra t e tcritico trovato sulla tavola
⏐ ⏐ ⏐ critico⏐ = p > α
⏐t⏐<⏐t
Ö Si accetta H0 Ö è verosimile l’ipotesi
p
nulla
⏐t⏐>⏐tcritico⏐ = p < α
Ö Si rifiuta H0 Ö Si accetta H1 Ö è plausibile ll’ipotesi
ipotesi
alternativa
Esempio
z Vengono
selezionati in modo casuale 26
pazienti Narcisisti; li si intervista e si calcola il
numero medio di “relazione
relazione positive”
positive , pari a
10± 3.
z Se
la media delle “relazioni positive” fra i
pazienti con altre diagnosi è 12, si può
affermare che il narcisismo conduce a maggiori
problemi di relazione rispetto ad altre diagnosi?
Esempio
c
1 Campione: n = 26 Narcisisti (n<30)
Variabile metrica: Numero di “relazioni
relazioni
positive”
Ö M= 10; s= 3
μ= 12
Ø
DISTRIBUZIONE CAMPIONARIA DELLE MEDIE
Ø
DISTRIBUZIONE DI PROBABILITA’ t
Esempio
d
H0: μM = μ: la media della distribuzione
campionaria è uguale a quella della
popolazione
cioè la media dei narcisisti è uguale a quella
generale
H1: μM < μ (monodirezionale sinistra)
cioè
i è lla media
di di ““relazioni
l i i positive”
iti ” dei
d i narcisisti
i i ti è
minore di quella generale
Esempio
e α=.05 e gdl=26-1=25
ÖSi delinea
d li
l regione
la
i
di rifiuto
ifi t secondo
d α, gdl
dl e H1
monodirezionale trovando un tcritico sulla Tavola
ÖQuale sarà il valore critico?
Esempio
f
n=26, σ=non noto, s=3 Ö
10−12
t=
= −3.33
0.6
σˆ M =
3
26 − 1
1-α
Regione
di rifiuto
α
-3.33
Regione
di accettazione
-1.71
t
= 0.6
Esempio
g ⏐3.33⏐>⏐1.71⏐
Ö p< .05
Ö Si rifiuta H0 Ö Si accetta H1
Ö è plausibile ll’ipotesi
ipotesi alternativa
Posta l’uguaglianza tra μM=μ la probabilità di
ottenere una media come quella osservata è
minore del 5% fissato con α; ne concludo che:
Ö La media dei narcisisti si discosta significativamente
dalla media generale.
Ö Si può tentativamente affermare che i narcisisti
soffrano di problemi più gravi di tipo relazionale rispetto
ad altre diagnosi.
Esempio t un campione
z
Con SPSS
Statistiche per un campione
N
pregiudizi
26
Media
10 0000
10,0000
Deviazione
std.
3 00000
3,00000
Errore std.
Media
,58835
58835
Test per un campione
Valore oggetto del test = 12
pregiudizi
t
-3,399
3 399
df
25
Sig. (2-code)
,002
002
Differenza
fra medie
-2,00000
2 00000
Intervallo di confidenza
per la differenza al
95%
Inferiore
Superiore
-3,2117
3 2117
-,7883
7883
Non viene riportato il valore critico, solo la probabilità di osservare un risultato più estremo se H0 è vera
Altro Esempio SPSS t un campione
z
Con SPSS
Statistiche per un campione
N
N tti i
Notti_insonn
39
Media
5,5000
000
Deviazione
std.
1 863 8
1,86378
Errore std.
Media
,29844
298
Test per un campione
Valore oggetto del test = 5
Notti_insonn
t
1,675
df
38
Sig (2-code)
Sig.
(2 code)
,102
Differenza
fra medie
,50000
Intervallo di confidenza
per la differenza al
95%
Inferiore
Superiore
-,1042
1,1042
VERIFICA DELL’IPOTESI per Un campione: Riassumiamo
• Nel caso in cui σ non è noto (il caso più
frequente nella pratica) è sempre corretto usare
t.
9Per n>30 i valori di t e z praticamente coincidono
9 è quindi indifferente fare riferimento all’una
all una o
all’altra distribuzione.
• Si ppuò notare,, inoltre,, che la formula per
p il
calcolo di t e z se σ non è noto è identica
Strrumenti psic
cometrrici di analis
si dei d
dati
Tecn
niche di rice
erca e analisi dati
La
statistica
t ti ti
è
facile!!!
VERIFICA DELLE IPOTESI CON 2 CAMPIONI
Esempio
z
Scegliendo in modo casuale 25 pazienti che hanno
frequentato per un anno il Terapeuta A:
ƒ si rileva che la loro media al BDI è 10.36 ±4.95
z
Scegliendo in modo casuale 37 pazienti che
hanno frequentato
q
p
per un anno il Terapeuta
p
B:
ƒ si rileva che la loro media al BDI è 15.84 ±2.00
z
Possiamo
P
i
affermare
ff
che
h vii sia
i una diff
differenza ttra
lo stato depressivo dei pazienti dei due terapeuti?
VERIFICA DELL’IPOTESI
Popolazioni con σ non noti
2 Campioni INDIPENDENTI
Variabile indipendente dicotomica (Città)
Variabile dipendente metrica (Ö Medie)
Ø
DISTRIBUZIONE CAMPIONARIA DELLA DIFFERENZA
TRA MEDIE
Ø
DISTRIBUZIONE DI PROBABILITA’ t
VERIFICA DELL’IPOTESI
c
S l del
Scelta
d l test statistico
i i (di significatività):
i ifi i i à)
Si calcola t facendo riferimento alla dCDM
Definizione dell’ipotesi:
H0: μ1 = μ2 ( μ1 - μ2 = 0)
H1: μ1 ≠ μ2 (bidirezionale)
μ1 > μ2 ovvero μ1 < μ2 (monodirezionale)
Fissare il livello di significatività α e calcolare
i gdl :
d
In base a
α
gdl=n1+n2-2
H1 (mono/bi-direzionale)
(
/b d
l )
Ö Si delinea la regione di rifiuto trovando
tcritico sulla Tavola
VERIFICA DELL’IPOTESI
Si associa una probabilità ad H0
f
t =
σˆ
M
g
1
−M
2
(M
1
− M
2
(μ1 − μ2 ) = 0
) − (μ1 − μ 2 )
⎛ n 1 s 12 + n 2 s 22
⎜⎜
⎝ n1 + n 2 − 2
⎞⎛ n1 + n 2
⎟⎟ ⎜⎜
⎠⎝ n1 n 2
⎞
⎟⎟
⎠
Decisione su H0 (ÖH1):
Il confronto avviene tra t e tcritico come nel caso
di un solo campione
campione.
Oppure, coi software, si confronta α con p
Esempio
c
2 Campioni: n1=25 Terapeuta A (n<30)
n2=37 Terapeuta B (n>30)
Variabile indipendente dicotomica: Terapeuta
p
metrica: Sintomi
Variabile dipendente
Ö M1=10.36; s1=4.95 e M2=15.84; s2=2
Ø
DISTRIBUZIONE CAMPIONARIA DELLA
DIFFERENZA TRA MEDIE
Ø
DISTRIBUZIONE DI PROBABILITA’ t
Esempio
d
H0: μ1 = μ2 (la media della popolazione dei
pazienti di A è uguale a quella dei pazienti di
B)
H1: μ1 ≠ μ2 (bidirezionale,
bidi i
l la
l media
di d
della
ll
popolazione dei pazienti di A è diversa a quella
d i pazienti
dei
i ti di B)
e α
α=.05 Ö Si delinea la regione
g
di rifiuto
secondo α e H1 bidirezionale trovando una
tcritica sulla Tavola
Esempio
Rappresentazione grafica aree di
accettazione e rifiuto – test bidirezionale
H0
1-α
α/2
Regione
di accettazione
t critico
ii
Regione
di rifiuto
α/2
t critico
ii
Esempio
α=.05, bidirezionale, gdl=25+37-2=60
Ö Si delinea la regione di rifiuto secondo α, gdl e
H1 bidirezionale e si trova tcritico = ?
Esempio
f
M1=10.36; s1=4.95 e M2=15.84; s2=2 Ön1=25, n2=37
t=
t=
(
(M1 − M 2 )
⎛ n1s12 + n2 s22 ⎞⎛ n1 + n2 ⎞
⎟⎟
⎟⎟⎜⎜
⎜⎜
⎝ n1 + n2 − 2 ⎠⎝ n1n2 ⎠
10.36 −15.84
) (
⎡ 25× 4.952 + 37× 22
⎢
25 + 37 − 2
⎣
− 5.48
)⎤⎜⎛ 25+ 37 ⎞⎟
=
⎥ 25× 37
⎠
⎦⎝
− 5.48
− 5.48
=
=
=
= −5.95
.92
12.675×.067
⎡ (612.5) + (148) ⎤⎛ 62 ⎞
⎟
⎜
⎢⎣
⎥
62
⎦⎝ 925⎠
Esempio
g ⏐5.95⏐>⏐2.00⏐
⏐5 95⏐>⏐2 00⏐
Ö p< .05
05
H0
1-α
Regione
di rifiuto
ifi t
α/2
-5.95
5 95 -2.00
2 00
Regione
di accettazione
0
Regione
di rifiuto
α/2
2.00
2 00
t
Esempio
6 Commento
C
t
p
nulla è
Ö Si rifiuta H0 Ö Si accetta H1 Ö l’ipotesi
poco plausibile
Posta l’uguaglianza
l uguaglianza tra μ1 = μ2 la probabilità di
ottenere le medie osservate è minore del 5% fissato
con α; ne concludo che
che, con un rischio di errore del
5%:
Ö Tra i pazienti di A e di B vi è una differenza non
ascrivibile al caso
Ö La media dei sintomi dei pazienti del terapeuta A
è significativamente diversa dalla media dei pazienti
del terapeuta B
Esempio t due campioni
z
Con SPSS
Esempio t due campioni
z
Con SPSS
Statistiche di gruppo
g pp
sintomi
Terapeuta
A
B
N
25
37
Deviazione
std.
4 94874
4,94874
2,00712
Media
10 3600
10,3600
15,8378
Errore std.
Media
,98975
98975
,32997
T t per campioni
Test
i i indipendenti
i di
d ti
Test di Levene di
uguaglianza delle
varianze
F
sintomi Assumi varianze ug 33,442
Non assumere
varianze uguali
Sig.
Sig
,000
Test t di uguaglianza delle medie
t
-6,054
-5,250
tervallo di confidenz
Differenza per la differenza al
95%
Differenza errore
df
Sig (2-code)fra
Sig.
(2-code) fra medie standard Inferiore Superiore
60
,000 -5,47784
,90477 -7,28765 -3,66803
29,389
,000 -5,47784
1,04330 -7,61040 -3,34527
Altro esempio t due campioni
z
Confrontiamo due gruppi randomizzati, sottoposti a due terapie.
ƒ Ci aspettiamo che la terapia “2” sia significativamente più efficace
ƒ α = .05, monodirezionale
Statistiche di gruppo
Terpia
1,00
2,00
Sintomi1
N
11
14
Media
9,5455
13,6429
Deviazione
std
std.
4,61224
6,61708
Errore std.
Media
1,39064
1,76849
Test per campioni indipendenti
Test di Levene di
uguaglianza delle
varianze
Sintomi1
Assumi varianze uguali
Non assumere
varianze uguali
F
1,456
Sig.
,240
Test t di uguaglianza delle medie
t
-1,744
-1,821
23
Sig. (2-code)
,094
Differenza
fra medie
-4,09740
22,743
,082
-4,09740
df
Differenza
errore
standard
2,34927
2,24976
Intervallo di confidenza
per la differenza al
95%
Inferiore
Superiore
-8,95724
,76243
-8,75430
,55950
Esercizio:
z
Quale è la probabilità oltre t 1.74 su una sola coda?
z
Su un’ipotesi H1 monodirezionale, accetto o rifiuto
l’ipotesi nulla con t=1.74 e n=25?
p
1.74
t
Strrumenti psic
cometrrici di analis
si dei d
dati
Tecn
niche di rice
erca e analisi dati
Campioni dipendenti
CAMPIONI DIPENDENTI
z
Campione estratto casualmente dalla popolazione
con caratteristiche omogenee
Misure ripetute due volte sullo stesso campione
(prima e dopo sugli stessi soggetti; in diverse
occasioni, riguardo diversi concetti…)
z Un gruppo sottoposto a due livelli (prima/dopo)
della VARIABILE INDIPENDENTE (manipolata o non
manipolata)
z Rilevazione della VARIABILE DIPENDENTE due volte sullo
stesso gruppo
z Analisi statistica per rilevare una differenza tra le
d rilevazioni
due
il
i i ascrivibile
i ibil alla
ll INDIPENDENTE (unica
( i
differenza prima/dopo)
z
Esempio
Vengono estratti in modo casuale 80 pazienti
tra i pazienti di un gruppo di terapeuti
ÖAl tempo 1 viene rilevata la loro insonnia
VARIABILE INDIPENDENTE (manipolata)
Ö I pazienti
i ti sii sottopongono
tt
ad
d una tterapia
i
centrata sulla riduzione dell’attivazione emotiva:
Prima/Dopo la terapia
VARIABILE DIPENDENTE
Ö Al tempo 2 (dopo la terapia) rilevazione dell’
insonnia
CAMPIONI DIPENDENTI
Si parla di disegni sperimentali entro i
soggetti (o within)
z I disegni descritti per due rilevazioni sono
estendibili a k rilevazioni sugli
g stessi soggetti
gg
(campione)
z I disegni sperimentali possono essere misti
z
ƒ Vale a dire, includono sia rilevazioni entro sia tra i
soggetti
Esempio
z Su
8 pazienti con attacchi di panico viene
rilevata la frequenza degli attacchi mensili
prima
i
ed
dopo una psicoterapia
i t
i b
breve.
z I risultati sono i seguenti:
Prima (xi)
Dopo (yi )
z Assistiamo
A i ti
5
4
8
5
9
6
6
4
8
9
4
5
4
2
8
7
a un miglioramento
i li
t nella
ll ffrequenza
degli attacchi di panico?
VERIFICA DELL’IPOTESI CON CAMPIONI DIPENDENTI
z
Il test viene effettuato sulla media delle differenze
ƒ dato che la variabile dipendente è su scala di misura
metrica.
metrica
ƒ Sempre controllare la scala di misura!
z
Dato un campione di ampiezza n dal quale sono
state tratte le
l misure
i
xi e yi, possiamo
i
calcolare
l l
lla
media delle differenze tra le due misure
n
M
D
=
∑D
i =1
n
i
Di = xi − yi
VERIFICA DELL’IPOTESI CON CAMPIONI DIPENDENTI
z
Nel caso di due campioni dipendenti poiché
abbiamo in realtà un solo campione, ci
riferiremo alla distribuzione di un’unica media
data dalla differenza fra due variabili.
z
La verifica delle ipotesi si basa su una media
Ö DISTRIBUZIONE CAMPIONARIA DELLE MEDIE
Ö Distribuzione t di Student con n-1 gradi di
libertà
VERIFICA DELL’IPOTESI
c
Scelta del test statistico (di significatività):
Si calcola t facendo riferimento alla dCM
d
Definizione dell’ipotesi:
H0: μD = 0
H1: μD ≠ 0 (bidirezionale)
μD> 0 ovvero μD< 0 (monodirezionale)
e
Fissare il livello di significatività α e calcolare i gdl :
In base a
α
gdl=n-1
gdl
n1
H1 (mono/bi-direzionale)
Ö Si delinea
d li
l regione
la
i
di rifiuto
ifi t trovando
t
d
tcritico sulla Tavola
VERIFICA DELL’IPOTESI
f
Si associa
i una probabilità
b bilità ad
d H0
n
M
n
sD =
g
∑ (D
i =1
i
D
−M
n
=
D
∑D
i =1
n
)
2
i
t =
M
D
− μD
μD = 0
sD
n −1
σˆ D
Decisione su H0 ((ÖH1)):
Il confronto avviene tra t e tcritico come nel caso
di un solo campione.
Esempio
c
2 Campioni dipendenti ovvero due misure
sugli stessi soggetti: n=8
Variabile indipendente dicotomica: Tempo
(prima/dopo la terapia)
Variabile dipendente metrica: Numero attacchi
Ø
DISTRIBUZIONE CAMPIONARIA DELLE MEDIE
Ø
DISTRIBUZIONE DI PROBABILITA’ t
Esempio
d
H0: μD = 0 (la media della differenza tra
prima e dopo è uguale a zero
zero, cioè non c’è
cè
differenza prima/dopo, e la terapia non ha
funzionato)
H1: μD > 0 (la media della differenza tra
prima
i
ed
dopo è maggiore
i
di zero, cioè
i è c’è
’è un
decremento dopo la terapia)
e α=.05 e gdl=8-1=7 Ö Si delinea la regione
di rifiuto secondo α, gdl e H1
monodirezionale trovando un tcritico sulla
Tavola
a o a = 1.89
89
Esempio
z
Si procede con il calcolo di MD e sD (utilizzando
le formule con i dati grezzi)
Sogg. xi
Sogg
5
1
8
2
9
3
6
4
8
5
4
6
4
7
8
8
yi
4
5
6
4
9
5
2
7
Di
1
3
3
2
-1
1
-1
2
1
10
Di2
1
9
9
4
1
1
4
1
30
10
M D = = 1.25
8
30
2
sD =
− (1.25) = 1.48
8
Esempio
f
MD=1.25; sD=1.48 Ö
1.25
t=
= 2.23
1.48
8 −1
Domanda: Quale è la probabilità di osservare un valore
uguale o maggiore a 2.23 se è vera H0?
Regione
di accettazione
1-α
Regione
di rifiuto
α
1.89 2.23
t
Esempio
g ⏐2.33⏐>⏐1.89⏐
Ö p< .05
Ö Si rifiuta H0 Ö Si accetta H1 Ö è vera
l’ipotesi alternativa
Posto μD = 0, la probabilità di ottenere le
medie osservate è minore del 5% fissato con
α; ne concludo che:
Ö Tra
T i prima
i
ed
dopo c’è
’è una di
diminuzione
i
i
significativa degli attacchi
Ö I risultati suggeriscono che la terapia ha
avuto l’effetto desiderato.
Con SPSS…
Statistiche per cam pioni appaiati
Coppia
1
panico_pre tes t
panico_pos t tes t
Media
6,5000
5,2500
N
8
8
Deviaz ione
std.
2,00000
2,12132
Errore std.
Media
,70711
,75000
Correlazioni per campioni appaiati
ATTENZIONE: QUESTO
NON E’ IL TEST CHE CI INTERESSA
N
Coppia
1
panico_pre
panico
pre test e
panico_post test
Correlazione
8
Sig.
,707
,050
Tes t pe r cam pioni appaiati
Media
Coppia
1
panico_pre tes t panico_post tes t
1,25000
Dif f erenze a coppie
Intervallo di c onf idenza
per la dif f erenza al
95%
D i iione
Deviaz
E
Errore
std.
td
Inf eriore
Superiore
std.
Media
1,58114
DOBBIAMO GUARDARE QUESTO!
,55902
-,07187
2,57187
t
2,236
df
Sig. (2-code)
7
,060