verifica delle ipotesi-2010

VERIFICA DELLE IPOTESI
Ipotesi statistica
►una qualunque affermazione che
specifica completamente o parzialmente
la distribuzione di probabilità di una
v.c. X.
semplice: se la specificazione è
altrimenti si parla di ipotesi composta.
parametrica
non parametrica
sui parametri della distribuzione
sulla forma della distribuzione o su altri
aspetti non parametrici
Ipotesi statistica
Test statistico
completa,
popolazione
► regola di decisione che ad ogni
valore campionario associa una
decisione sul parametro incognito, tale
schema decisionale viene formulato
prima di effettuare il campionamento o
di avere i dati a disposizione.
Test statistico: campione
Test statistico parametrico
Test statistico non parametrico
popolazione
si suppone nota la
distribuzione di probabilità
della variabile di partenza X
non si fanno assunzioni
stringenti sulla forma
analitica della distribuzione
di probabilità di X
LE IPOTESI STATISTICHE
L’ipotesi da sottoporre a verifica viene definita Ipotesi nulla
e viene indicata con H0 .
H : θ = θ0
0
L’ipotesi alternativa è una controaffermazione che viene
fatta in antitesi all’ipotesi nulla e viene indicata con H1 . E’
costituita da un singolo valore o da un insieme di valori
possibili per θ e considerati alternativi a θ0:
H : θ = θ1
1
H : θ < θ0
1
H : θ > θ0
1
H : θ ≠ θ0
1
Le due ipotesi sono esaustive e disgiunte!!!
Qualsiasi decisione viene presa su H o mai su H 1
alla fine del Test io accetto o rifiuto H o
Il TEST STATISTICO
Poiché il valore campionario di un test statistico varia da
campione a campione, il test statistico costituisce una
variabile casuale che può assumere valori compresi in un
insieme che costituisce lo Spazio Campionario secondo una
distribuzione di probabilità che è la distribuzione
campionaria del test
Un test statistico da quindi luogo alla ripartizione dello
spazio campionario in due sottoinsiemi complementari:
 un insieme A costituito dai valori del test che sono
compatibili con l’ipotesi nulla H 0: REGIONE DI
ACCETTAZIONE DEL TEST
 un insieme C che raggruppa i valori del test considerati
incompatibili con H 0 : REGIONE DI RIFIUTO DEL
TEST
REGOLA
Se il valore della Statistica Campionaria cade nella regione
di accettazione del Test: ACCETTO L’IPOTESI NULLA
Se il valore della Statistica Campionaria cade nella regione
di rifiuto del Test: RIFIUTO L’IPOTESI NULLA
il test statistico non da risultati statistici certi ma probabili
Tipi di errore
Non essendoci certezze assolute, le conclusioni di un test
statistico sono soggette ad errori, di primo o secondo tipo
nella realtà
Ho è vera
Ho è falsa
nel test
Accetto Ho
decisione corretta
errore di secondo tipo E 2
Rifiuto Ho
errore di primo tipo E 1
decisione corretta
La probabilità di commettere un errore di primo tipo
corrisponde al livello di significatività del test e si indica
con α
La probabilità di commettere un errore di secondo tipo si
indica con β
La probabilità di rifiutare H0 quando H0 è falsa si chiama
potenza del test e si indica con 1-β
Due approcci:
1)Approccio basato sul lemma di Neyman-Pearson
2)Approccio basato sul p-value
Formalizziamo
Dato il parametro θ esso assume valori nell’insieme parametrico
Θ
Θο insieme dei valori di θ
sotto l’ipotesi nulla
Θ1 insieme dei valori di θ
sotto l’ipotesi alternativa
Θ
t(x) : Valore campionario del test
C : Insieme dei valori campionari del test t(x) che portano a
rifiutare H 0
A : Insieme dei valori campionari del test t(x) che portano
ad accettare H 0
Errore di I tipo: t (X) ∈C | θ ∈ Θο
P: (t (X) ∈C | θ ∈ Θο)= α
Errore di II tipo: t (X) ∈A | θ ∈ Θ1
P: (t (X) ∈A | θ ∈ Θ1)= β
Potenza del test
t (X) ∈C | θ ∈ Θ1
P: (t (X) ∈C | θ ∈ Θ1)= 1−β
Approccio basato sul lemma di Neyman-Pearson
 Nella maggior parte dei casi, il test delle ipotesi viene
costruito in modo che l’ipotesi nulla giochi un ruolo più
importante dell’ipotesi alternativa nel problema di decisione
che si intende affrontare.
 Questo significa che i due tipi di errore in cui è possibile
incorrere non vengono considerati ugualmente importanti,
poiché l’errore di I tipo si suppone avere conseguenze più
gravi di quelle legate all’errore di II tipo.
 Neyman e Pearson propongono allora di prefissare un livello
α di probabilità di commettere l’errore di I tipo e
successivamente, condizionatamente al valore di α fissato,
scegliere il test che minimizza la probabilità β di commettere
l’errore di II tipo.
 In base al principio di Neyman-Pearson è quindi possibile
definire una regione critica ottimale, scegliendo, tra i
possibili test alternativi caratterizzati dallo stesso livello di
significatività α, quello per il quale la probabilità β risulta
minima.
Una regione critica con potenza superiore a qualunque altra
regione per un test di livello α viene definita regione critica
ottimale e il test ad essa associato viene indicato come il test
più potente.
Approccio basato sul p-value
Il p-value è il più piccolo valore di α per cui riesco a
rifiutare Ho
Supponiamo che io non consideri, a priori, alcun livello di
significatività ma sulla base del risultato campionario, decida di
rifiutare l’ipotesi nulla. Qual è la probabilità che stia sbagliando?
Più piccolo è il p-value, più “distante” risulta essere il valore
campionario osservato da quanto ci si aspetta sotto H 0 e quindi
più problematico diventa accettare questa discrepanza come
attribuibile alla sola aleatorietà campionaria.
I software statistici ed econometrici semplificano i test e ci
forniscono solo p-value, il ricercatore dovrà decidere in
base alla propria esperienza e conoscenza del fenomeno
se accettare o rifiutare H0