lez3-verifica

annuncio pubblicitario
Precorso di Statistica
VERIFICA DI IPOTESI
Prof. L. Neri
a.a. 2016-2017
1
La verifica di ipotesi
Fase dell’inferenza che consente di verificare
delle ipotesi sui parametri della popolazione
alla luce dell’analisi delle differenze tra i
risultati osservati (statistica campionaria) e
quelli che ci aspetteremmo se la nostra
ipotesi sulla popolazione fosse vera.
2
La verifica di ipotesi
Esempio: in una azienda che produce scatole
metalliche vuole valutare se il processo produttivo
opera in modo tale da garantire che la lunghezza
del lato maggiore sia pari a 368 mm. Viene
estratto un campione di 25 scatole. Se la
lunghezza delle scatole risultasse diversa sarebbe
necessario un intervento correttivo, altrimenti no.
3
La verifica di ipotesi
La verifica di ipotesi ha inizio con la
formulazione del sistema di ipotesi sottoposto a
verifica.
Il sistema di ipotesi fa sempre riferimento a
qualche parametro della popolazione. Consiste
sempre in due ipotesi contrapposte.
4
La verifica di ipotesi
L’ipotesi nulla H0 è l’ipotesi sottoposta a verifica, si
riferisce sempre a un valore specifico del parametro
della popolazione (ad esempio μ), e non a una statistica
campionaria (ad esempio la media campionaria). L’ipotesi
nulla contiene sempre un segno di eguale relativo al
valore specificato del parametro della popolazione
(ad esempio H0: μ=368 mm).
L’ipotesi alternativa H1 rappresenta la conclusione
raggiunta quando H0 è rifiutata
5
La verifica di ipotesi
 Se la statistica campionaria prescelta si avvicina al valore
ipotizzato nell’ipotesi nulla accettiamo H0, altrimenti rifiutiamo H0
a favore dell’ipotesi alternativa H1.
 La teoria della verifica di ipotesi fornisce una regola su cui basare il
processo decisionale.
 Questo risultato viene ricavato determinando prima la distribuzione
campionaria della statistica di interesse (statistica test) e quindi
calcolando il valore assunto per il particolare campione considerato.
 La distribuzione campionaria della statistica test spesso è una
distribuzione statistica nota, quindi possiamo ricorrere alle tavole
statistiche per sottoporre a verifica un’ipotesi nulla.
6
La verifica di ipotesi
La distribuzione campionaria della statistica test è divisa in
due regioni:
•una regione di accettazione
•una regione di rifiuto (o regione critica)
Regione di rifiuto: insieme dei valori della statistica test è improbabile
che si verifichino quando è vera H0 ed è probabile si verifichino quando
H0 è falsa.
La regola decisionale è:
Valore della statistica test
Cade nella regione di accettazione
Cade nella regione di rifiuto
L’ipotesi nulla non può essere rifiutata
L’ipotesi nulla deve essere rifiutata
7
La verifica di ipotesi
Per prendere una decisione sull’ipotesi nulla,
determinare il valore critico della statistica test.
dobbiamo
Tale valore separa la regione di accettazione dalla regione di rifiuto.
8
Test per la media della popolazione
(varianza nota)
Per verificare l’ipotesi che la media della popolazione sia uguale ad
un certo valore , contro l’ipotesi alternativa che la media differisca da
tale valore, conoscendo , si ricorre alla statistica Z:
X è distribuita come una normale => sotto H0, Z è distribuita come
una normale standardizzata
Se Z assume valori vicini allo zero siamo portati ad accettare H0,
altrimenti si propende per rifiutare H0 (test a due code).
9
Test per la media (varianza nota)
Fissato un livello di significatività di 0.05 (5%)
Regola decisionale:
Rifiuto H0
se Z>+1,96 o
se Z<-1,96
altrimenti
Accetto H0
10
Test per la media (varianza nota)
Esempio: l’azienda che produce scatole metalliche intende valutare se il processo
produttivo opera in modo tale da garantire che la lunghezza del lato maggiore sia pari a
368 mm. Viene estratto un campione di 25 scatole. Lo scarto quadratico medio della
popolazione è pari a 15 mm e la media campionaria assume il valore 372,5 mm.
H0:  = 368
H1:  ≠ 368
Il valore della statistica test mi
porta ad accettare H0.
11
Varianza campionaria ed errore standard della
media campionaria
In generale la varianza della popolazione è incognita.
Si stima la varianza campionaria S2
S2 è uno stimatore corretto della varianza della popolazione
L’errore standard di
standard di X ed è
X è uno stimatore della deviazione
SE ( X )  s
n
Varianza campionaria ed errore standard della
media campionaria
La varianza campionaria è uno stimatore consistente
della varianza della popolazione, ovvero
La varianza campionaria è prossima alla varianza
della popolazione quando n è grande.
Test t per la media della popolazione
(varianza popolazione non nota)
Se la varianza della popolazione non è nota si utilizza
SE ( X )  s
n
Anche in questo caso si può procedere secondo l’approccio del
valore critico ricorrendo alle tavole della distribuzione t di Student
anziché a quelle della Normale.
14
Distribuzione della statistica t per grandi campioni
Dato che la varianza campionaria è uno stimatore consistente
della varianza della popolazione e dato il teorema del limite
centrale:
Y  Y
Y  Y
t

Z
d
s
Y d
n
n
t si distribuisce approssimativamente come una Normale
per n grande
Terminologia della verifica di ipotesi
• Errore di I tipo: rifiutare H0 quando H0 è vera
• Errore di II tipo: NON rifiutare H0 quando H0 è falsa
• Livello di significatività α del test: probabilità di commettere
errore di I tipo (E’ la frazione di volte che viene rifiutata un ipotesi nulla
vera se ripetessi tante volte il test su campioni diversi -presi dalla stessa, o
dalle stesse, popolazione/i-)
• Potenza del test (da max): probabilità di rifiutare H0
(correttamente) quando H0 è falsa
NB. Maggiore è l’α, maggiore sarà la potenza del test
Quale livello di significatività in pratica?
• Conservatori: si scegli un livello α molto basso perché?
H0:imputato NON COLPEVOLE,
H0:imputato COLPEVOLE
α =prob(rifiutare NON COLPEVOLE| NON COLPEVOLE)
Un test molto conservativo (α =0.01 o minore) può essere visto
come un test che vuole rischiare molto poco di fare un errore di
primo tipo, che sappiamo essere un errore molto grave perché
rifiutare l’ipotesi nulla è una decisione forte (come condannare un
imputato) mentre non rifiutarla non significa in realtà accettarla
(ma solo dire che i dati sono compatibili con essa)
Quale livello di significatività in pratica?
• Meno Conservatori: si sceglie un livello α più alto (0.05)
È il livello usato in economia, sociologia o politica economica che
richiedono meno conservatorismo rispetto ad un caso legale.
Insomma possiamo permetterci una probabilità maggiore di
rifiutare H0 quando H0 è vera avantaggio di una potenza del test
più elevata.
L’approccio del p-value
Negli ultimi anni, anche grazie all’ampia diffusione di pacchetti
statistici e fogli elettronici, si è affermato un altro approccio alla
verifica di ipotesi: l’approccio del p-value.
Il p-value è anche chiamato livello di significatività osservato essendo
il livello di significatività più basso per il quale si può rifiutare H0 dato il
valore osservato della statistica test.
Regola decisionale:
• se il p-value è maggiore o uguale ad , l’ipotesi nulla viene accettata
• se il p-value è minore di , l’ipotesi nulla è rifiutata
19
I test ad una coda (alternative unilaterali)
Talvolta l’ipotesi alternativa a due code sembra non avere senso.
Esempio: Si deve decidere se aprire o meno un centro commerciale in un certo
Comune della Regione Lazio. La decisione è connessa al reddito medio degli
abitanti del comune e di quelli limitrofi, se tale reddito è almeno di 2000 euro
mensili (superiore o uguale), allora ha senso aprire tale centro, altrimenti
conviene mirare in un’altra area. A tal fine è stata svolta un’indagine campionaria
rilevando il reddito mensile di 196 famiglie, sulle quali è stato rilevato un reddito
medio mensile pari a 1864 euro con una varianza campionaria corretta di 141,61
euro. Fissato un livello di significatività pari a 0,01 che cosa si decide di fare?
Il sistema di ipotesi adeguato al problema è

H0 :  =2000,
H1 : <2000
20
Test per la media (varianza non nota)
H1: µ≠µ0
H1: µ<µ0
H0: µ=µ0
H1: µ>µ0
21
Esempio
Si deve decidere se aprire o meno un centro commerciale in un
certo Comune della Regione Lazio. La decisione è connessa al
reddito medio degli abitanti del comune e di quelli limitrofi, se
tale reddito superiore o uguale a 2000 euro mensili conviene
aprire tale centro, altrimenti conviene mirare in un’altra area. A tal
fine è stata svolta un’indagine campionaria rilevando il reddito
mensile di 196 famiglie, sulle quali è stato rilevato un reddito
medio mensile pari a 1864 euro con una varianza campionaria
corretta di 141,61 euro. Fissato un livello di significatività pari a
0,01 che cosa si decide di fare?
Il sistema di ipotesi adeguato al problema è

H0 :  =2000,
H1 : <2000
22
…Esempio
La statistica test è
X



2000
0 1864
t



160
S
141
,
61
n
196
Il valore di (t ) con 195 g.l è approssimabile alla distribuzione N(0,1)
e quindi a (-2,326),
-160<-2,36 quindi rifiuto H0
ovvero l’evidenza empirica suggerisce che nei comuni oggetto di
studio ci sia un reddito troppo basso per ritenere conveniente
l’investimento.
23
Test per la proporzione
Consideriamo un campione aleatorio Y1, Y2, . . . , Yn con distribuzione
B(1, p), dove p è incognito. Sulla base di un campione di n osservazioni,
sottoponiamo a verifica l’ipotesi
H0: p = p0
H1:p ≠ p0
La statistica test
z
Y  p0
p 0(1  p 0)
n
Se H0 è vera, Z è approssimativamente distribuita come un N(0, 1), se
np0 ≥ 5 (successi attesi) e n(1 − p0) ≥ 5 (insuccessi attesi). Ne segue che
la regione critica del test è
Y  p0
p 0(1  p 0)
n
 z
2
24
Esempio
Supponiamo che il manager operativo dell’azienda che produce
scatole metalliche sia interessato a valutare la percentuale di scatole
non conformi. Nel passato il 10% delle scatole non è risultata
conforme. Si sperimenta un nuovo sistema di produzione ed il
manager stabilisce che adotterà il nuovo sistema solo in caso di forte
evidenza empirica a favore del nuovo. Dopo un giorno di prova, si
estrae un campione di 200 scatole, di cui 11 non risultano sigillate in
maniera adeguata. Verifica al livello sig. 0.05.
H0: p = 0,10
H1: p < 0,10
Si ha: p = 11/200 =0,055, n = 200 e p0 = 0,10, quindi:
25
…esempio
Z
0.055  0.1
 2.12
0.1* (1  0.1)
200
Il valore teorico di z=-1.96, -2.12 <-1.96 quindi l’evidenza empirica mi induce a
rifiutare H0 e quindi ad adottare il nuovo sistema.
26
…da ricordare
La specificazione dell’ipotesi nulla e dell’ipotesi alternativa nei
test a una coda deve seguire le seguenti regole:
1. L’ipotesi nulla H0 è l’ipotesi sottoposta a verifica.
2. L’ipotesi alternativa H1 è specificata come ipotesi opposta a quella
nulla e rappresenta la conclusione sostenuta se l’ipotesi nulla è
rifiutata.
3. L’ipotesi nulla H0 si riferisce sempre a un parametro della
popolazione (come ) non a una statistica campionaria (come la
media campionaria).
4. L’ipotesi nulla contiene sempre un segno di uguale riferito a un
valore specificato del parametro della popolazione (H0:  368 mm).
5. L’ipotesi alternativa non contiene mai un segno di eguale riferito a
un valore specificato del parametro della popolazione.
27
Scarica