Diapositiva 1 - Docenti.unina

CAPITOLO 11
LA VERIFICA DELLE
IPOTESI
Ipotesi statistica
Assunzione che si fa su un parametro θ o su una caratteristica
di una popolazione.
Supponiamo di voler verificare l’ipotesi che tutti gli abitanti
della Campania, aventi 18 anni e più, si dividano a metà nei
riguardi del problema dell’aborto.
In tal caso, l’ipotesi riguarda la proporzione nella popolazione
che venga assunto, cioè:
  0,5
Esempio
Supponiamo ancora che la percentuale dei divorziati in Campania sia uguale a quella dei
divorziati in Lombardia. Valutare se usi, costumi e comportamento sociale siano o meno
influenti sulle risposte.
c  l
Assunzioni
La produzione di un certo bene soggetto a consumo abbia una
certa durata.
Un certo medicinale sia efficiente nella cura di una malattia.
1. Valutare, sulla base delle osservazioni campionarie, se esiste dipendenza o indipendenza
nella popolazione.
2. Valutare se un fenomeno osservato segue una legge di sviluppo (Es. verificare dopo un
certo numero di lanci se una dado è truccato o meno).
Le assunzioni di cui sopra si riferiscono evidentemente a misure relative
ad una popolazione (delle Campania, della Lombardia, del bene prodotto,
degli affetti da una certa malattia, ecc.).
E’ evidente che la verifica delle assunzioni fatte deve necessariamente
passare attraverso il confronto con dati sperimentali (campionari).
Verificare un’ipotesi statistica, quindi, significa confrontare il valore del
parametro Θ con il valore della statistica campionaria (S) ottenuto dai dati
sperimentalmente estratti (campione).
Per fare ciò necessita essere in possesso di una serie di conoscenze relative
alla distribuzione campionaria della statistica (S) di riferimento (quali la
media campionaria, proporzioni, varianza, ecc.)
Esempio
Consideriamo il caso del direttore della produzione di un’industria di
pneumatici per auto e supponiamo esistano due turni di lavoro, uno di
giorno ed uno di notte.
L’azienda vende i suoi pneumatici garantendo che il battistrada dura
40.200 km. Possiamo affermare che una certa percentuale della
produzione effettuata dal turno di giorno presenti difetti prima di
raggiungere i 16.000 km .?
Oppure si può ipotizzare che lo standard fissato (40.200 km) sia
inferiore per i pneumatici prodotti dal turno di notte ?
E’ evidente che la risposta affermativa alle domande poste comporterà
l’intervento nel processo produttivo per correggere le anomalie.
Come affrontare il
problema?
• E’ impossibile pensare di sottoporre a prova tutta
la produzione.
• Si può, invece, sottoporre a prova una parte della
produzione (campione) e confrontando il risultato
ottenuto con l’assunzione fatta, inferire sulla
caratteristica generale ipotizzata per la popolazione.
Esempio
Supponiamo di avere estratto un campione, di avere
sottoposto a prova di usura i suoi elementi e di avere
misurata la durata media del battistrada.
Il risultato può offrire, oltre la coincidenza dei valori (ma
è molto difficile) due alternative: o la media
campionaria è vicina al dato ipotizzato per la
popolazione o è lontana da esso.
La strategia inferenziale della verifica delle ipotesi consente di
sostituire a termini arbitrari (in quanto sottoponibili a
valutazioni diverse) un processo di quantificazione del
processo decisionale.
E’ evidente che un parametro può assumere infiniti valori nel suo spazio di che
possiamo indicare con Ω. Tale spazio è divisibile in due regioni definite ω1 e ω2.

1
2
valori di θ che non
soddisferanno la
nostra ipotesi
valori di θ che
soddisferanno la
nostra ipotesi
Nella strategia della verifica delle ipotesi si rende necessario,
allora, formalizzare le ipotesi.
Le ipotesi assumibili sono essenzialmente 2. Una che contiene
la nostra assunzione su θ e l’altra che la nega.
Esse vengono indicate con:
H0= ipotesi nulla
H1= ipotesi alternativa.
La prima, se verificata ed accettata, indicherà che le differenze che esistono tra il
dato sperimentale (S = statistica campionaria) e l’assunzione fatta sul dato
dell’universo (θ = parametro incognito) sono casuali. Sono, cioè, dovute a
fluttuazioni campionarie e, quindi, ininfluenti.
Entrambi i dati provengono dalla stesa distribuzione appartenente ad una V.C. che
descrive la distribuzione dello stimatore di riferimento.
Si dovrà allora verificare
H0 :  1
H1 :    2
La verifica riguarda l’ipotesi nulla H0
Test statistici
La verifica di H0 viene effettuata ricorrendo a test statistici.
Il test statistico viene costruito con dati campionari e consente di accettare o
respingere con un prefissato rischio di errore (α) espresso in termini di
probabilità.
L’insieme dei valori che il test può assumere al variare dei campioni nell’universo
campionario viene diviso in due parti:

una che contiene tutti quei valori per i quali H0 è accettabile;

una che contiene tutti quei valori per i qualiH1 é rifiutata.
Ciò consente di dividere la distribuzione del test in due regioni:
1.
contiene i valori per i quali è accettabile (regione di accettazione A;
2.
contiene valori per i quali è rifiutata, detta regione di rifiuto R.
Graficamente
Area di non rifiuto
di H0: 1-α quiidi di
accettazione
α/2
α/2
a
0
Parametro
incognito della
popolazione
b
Per provare un’ ipotesi, deve essere nota
la distribuzione del test, sotto la
condizione che H0 sia vera
I requisiti dei test possono essere riassunti:
 deve essere nota la funzione della V.C. descritta del test sotto H0
Ciò permetterà di fissare a priori R (rifiuto) di dimensione α
 il test deve essere non distorto cioè qualsiasi siano n e δ deve
sempre essere 1-β> α
 il test deve essere consistente, cioè:
n→∞
β→ 0
Fasi della verifica delle
ipotesi
1. Stabilire le ipotesi H0 e H1
2. Scegliere il test. E’ una fase importante e delicata. La scelta errata del
test può portare a conclusioni errate. La scelta va fatta basandosi sulle
seguenti conoscenze:
a. n = dimensione campionaria
b. tipo di campionamento;
c. distribuzione della popolazione
Fasi della verifica delle
ipotesi
Occorrerà, inoltre:
1. avere a disposizione la Distribuzione Campionaria del test nella
maggior parte dei casi si tratta di valori gia tabulati;
2. delimitare R in funzione di α;
3. fissare la regola di decisione, secondo i seguenti criteri:
a. fissato α e scelto il test si cerca nella distribuzione del test quel
valore di kα che delimita il confine tra A ed R;
b. si calcola la statistica test empirica (quella desumibile dai dati
campionari) - ke , si respinge H0 se ke > kα .
Esempio 1
Una macchina produce, in media un pezzo ogni 596 secondi.
Si vuole installare un congegno di sicurezza: i dirigenti della fabbrica si oppongono
sostenendo che il congegno comporta un innalzamento del tempo medio di
produzione (596 secondi) con la conseguente perdita di produzione.
Viene sperimentato il congegno su un campione di 101 pezzi ottenendo i seguenti
risultati:
x  600
s  20
I sindacati sostengono che l’aumento del tempo di produzione è dovuto a fatti
casuali. Si chiama uno statistico per decidere.
Si fissa
  0,01
Dati:   596
x  600
s  20
n  101
  0,01
Fissiamo le ipotesi:
H0 : x  
H1 : x  
Siamo in presenza delle seguenti condizioni:
1) un grande campione infatti n = 101;
2) la distribuzione campionaria della media è normale;
3) σ² della popolazione é incognito;
4) l’errore standard della media può essere stimato con:
s
n 1
Esempio 2
Una fabbrica di lampadine pubblicizza il suo prodotto assumendo
che esse durano mediamente 2000 ore.
Si verifica la produzione di una settimana durante la quale sono
stati provati nuovi materiali di non eccellente qualità. Viene
estratto un campione di 100 lampadine e si riscontra che:
X  1995
Da esperienze pregresse si può assumere che
 x  250h
Test :
z
x

n

1955  2000
 1,8  ze
250
100
Se supponiamo che il materiale nuovo ha comportato una riduzione della durata
dobbiamo modificare l’ipotesi alternativa
H 0 : 0  2000
Per   0, 05 con un test uni direzionale z c = - 1.645
H 1 : 0  2000
Poiché il valore empirico di z e calcolato è = a 1,8 rifiuterò H 0
Perché questi risultati
sono contraddittori?
La decisione da assumere è legata al valore assegnato ad α
che viene fissato arbitrariamente. Ne segue che essendo la
scelta di arbitraria, anche le conclusioni potrebbero essere
arbitrarie. Il criterio per scegliere (quindi di decidere su H0) è
quello di minimizzare il costo legato ad una decisione
sbagliata. Quindi deve essere scelto con il criterio di
minimizzare la perdita legata ad una decisione sbagliata su
H0.
Esempio 3
I salari di 401 operai di una fabbrica sono distribuiti normalmente con
µ=350 euro
Da un campione estratto senza ripetizione di 17 operai sindacalisti si rilevò
= 400 euro, con s = 90 euro
Proviamo che il salario medio dei sindacalisti non è significativamente
maggiore di quello degli altri operai avendo fissato α = 0.05
H 0 : 0  350 oppure x  0
H1 : 0  350 oppure x  0
Scelta del test
 popolazione distribuita normalmente;
 σ ignoto;
 campione piccolo.
 La D.C. della media segue una t di Studente con n – 1 gradi di
libertà, quindi:
x
t
ˆ x
ˆ x  s
1
N n

n 1
N
Con

90
400  350
 2,268
1
401  17
401
17  1
 = 0,05
17-1=16 G.L.
te =2,268
t0, 05;16  1,746
Rifiuto H0 i i salari sono signicativamente diversi
Confronto tra le medie di
due popolazioni
indipendenti con varianze
uguali
Avviene molto spesso di dovere formulare ipotesi sui valori delle media di
due popolazioni in dipendenza di fenomeni rilevati in tempi diversi o
in situazioni diverse.
Consideriamo, per esempio, l’altezza di una popolazione rilevata due volte
a distanza di 30 anni. Dalla differenza delle medie calcolate sui dati
osservati si può desumere che via sia stato un cambiamento nell’altezza
della popolazione e concludere che la popolazione è cambiata nel
tempo?
Ipotizziamo di avere una fabbrica che produce su due turni diversi gomme per
auto. Lo standard produttivo della durata del battistrada è fissato in 40.200 km. La
differenza riscontrata in una verifica tra la durata media della produzione del turno
A e quella del turno B ci consente di affermare che la produzione di uno dei turni
non rispetta lo standard e che quindi la produzione generale non è unica se riferita
allo standard?
Oppure un medicinale dovrebbe ridurre il tasso di colesterolo nel sangue dei
cardiopatici del 15%. L’osservazione sperimentale ha fornito percentuali diverse
dopo la somministrazione del farmaco a due gruppi di malati di razze diverse. Si
può affermare che l’effetto è significativamente diverso per le due razze?
Si tratterà di porre a confronto le seguenti ipotesi originando test nunidireziionaLI
H 0 : 1  2  1  2  0
H1 : 1  2  1  2  0
Dando in tal modo origine a
test
bidirezionali
o
unidirezionali
H1 : 1  2  1  2  0
H1 : 1  2  1  2  0
E’ evidente, per quanto affermato a proposito della teoria della verifica delle ipotesi
che per scegliere il test si dovrà conoscere la sua distribuzione di riferimento.
In via preventiva si tratta di individuare quale può essere la statistica
test di riferimento.
La
distribuzione
campionarie
campionaria
delle
differenze
tra
le
medie
xi  x j
Per grandi campioni segue una legge normale del tipo:
Z
( x1  x2 i )  ( 1  2 )

2
1
n1


2
2
n2

( x1  x2 i )
 12
n1

 22
n2
1 e  2
Poiché nella maggioranza dei casi i valori
non sono noti, bisogna ricorrere alla loro stima e sotto le ipotesi che:
1) le popolazioni sono distribuite normalmente o tendano ad esserlo
1 e  2
2) le varianze
sono uguali
La distribuzione campionaria delle differenze segue una Legge t di Student
con
n  n  2 gradi di libertà è descritta dall’equazione
1
2
tn1  n2  2  
x
1

 x 2  1  2 
1
1
s 2p (

)
n1
n2
s 2p rappresenta
la stima della varianza comune avendo imposto l’ipotesi della
omoschedasticità delle popolazioni ed utilizzando le varianze campionarie
2
2
Corrette : sˆ1  sˆ2
(n1  1) sˆ1  (n2  1) sˆ22
2
sp 
n1  n2  2
2
oppure, utilizzando le varianze campionarie:
2
n
s

n
s
2 2
s 2p  1 1
n1  n2  2
2
Esempio
Una fabbrica produce pneumatici su due turni, uno di giorno ed uno di notte.
Poiché sono sorti dubbi sull’efficienza produttiva del turno di notte si pongono a
confronto le due produzioni.
Estratti due campioni di uguale numerosità la prova ha dato i seguenti risultati:
Turno di giorno
x g  40900
sˆ g  6.500
n g  100
Turno di notte
x n  37500
sˆn  4.800
nn  100
Ipotesi:
H0 : g   n
H1 :  g   n
Soluzione
Adottiamo un test bilaterale. Fissato α = 0.01 avremo:
t198 
x

 xn
1
1
s 2p (

)
ng
nn
g
in
cui
s
2
p
n

g
 1sˆg2  nn  1sˆn2
ng  nn  2
2
2
99
*
6500

99
*
4800
s 2p 
 32645000
100  100  2
t198 
40900  37500
1 
 1
32645000


100
100


t198  t0,005;198  rifiuto H 0
 4,21
t0, 005;198  2,617
la produzione dei due turni è
significativamente diversa.
Teoria degli errori
PIOVE
NON PIOVE
prendo l'ombrello -> prendo l'ombrello ->
decisione corretta
decisione errata
non prendo
l'ombrello ->
decisione errata
non prendo
l'ombrello ->
decisione corretta
STATI DELLA NATURA
DECISIONE
PIOVE
NON PIOVE
prendo l'ombrello
0
-5
non prendo
l'ombrello
-100
0
Dall’esempio su esposto appare evidente che le decisioni che
si vanno ad assumere in dipendenza dell’effettuazione della
verifica di una ipotesi statistica
possono indurre il ricercatore in errore.
Prima di procedere va fissato un concetto importante ed inderogabile: le
decisioni che si assumono circa le ipotesi formulate riguardano
esclusivamente l’ipotesi H0.
Le conclusioni e le conseguenze sono, quindi, il frutto derivante dalla
accettazione o dal rifiuto dell’ipotesi nulla formulata e verificata.
Ma come si può sbagliare decidendo sull’ipotesi sottoposta a verifica?
Non bisogna dimenticare che la verifica viene effettuata avendo fissato a priori
un rischio di errore α la cui dimensione è stabilita dal ricercatore.
Decidendo, quindi, sull’ipotesi H0 normalmente si decide attraverso il
confronto tra il valore soglia (critico) del test adottato ed il valore del test
calcolato (empirico) sui dati sperimentali.
La decisioni da assumere, formalizzata in termini probabilistici è:
PrS  A /   0   1  
L’appartenenza della statistica test ad A (regione di accettazione), infatti,
comporterà accettazione dell’ipotesi nulla H0
Non va, però, dimenticato che si agisce in considerazione di incertezza e che la
regione di rifiuto, la cui dimensione è legata ad α può comportare anche la
seguente posizione definita probabilisticamente come:
PrS  R /   0   
La posizione indica che il test effettuato comporta il rifiuto di H0 nonostante
questa sia un’ipotesi vera. La posizione in parentesi indica che si sta rifiutando
un’ipotesi vera commettendo un errore di I tipo o di I specie
Tutta l’espressione indica che la probabilità di commettere tale tipo di errore è
uguale ad α .
Esempio
Si supponga di avere estratto 10 campioni di 36 unità da una popolazione normale
con media μ =10 e varianza pari a 36. Per ognuno di questi campioni si è calcolata la
media campionaria e l’intervallo di confidenza al 95%. In questo caso gli estremi
dell’intervallo di confidenza saranno dati da
campione

6
X  1,96 
 X  1,96 
 X  1.96
n
36
Possiamo sintetizzare i
risultati nella seguente
tabella
X
Estremo
inferiore
Estremo
superiore
1
8.75
6.79
10.71
2
11.75
9.79
13.71
3
8.45
6.49
10.41
4
9.70
7.74
11.6
5
10.50
8.54
12.46
6
9.00
7.04
10.96
7
11.15
9.19
13.11
8
8.5
6.54
10.46
9
7.75
5.79
9.71
10
10.1
8.14
12.06
13,71
10,71
11,6
10,46
10,41
7,74
4,49
13,11
12,06
10,96
9,79
6,79
12,46
9,19
8,54
Media
della
popolazione
9,91
6,54
8,14
7,04
5,97
Come si riscontra facilmente dal grafico su 10 intervalli di confidenza se
ne possono individuare 9 (pur se in maniera diversa) che contengono la
media della popolazione (μ=10) mentre uno non la contiene.
Vogliamo verificare le seguenti ipotesi
H 0 :   0  10
H1 :   0  10
X  7,55
DATI
x 1
  0,05
zc  1,96
Rifiuteremo H0 vera commettendo un
errore di I tipo (prima specie) di
probabilità α
Formalmente
PrS  R /   0   
Si tratterà di accettare l’ipotesi
formulata
Nell’esempio precedente,
considerando che normalmente la
media della popolazione è
incognita se assumessimo
Accetteremmo un ipotesi nulla falsa
in 4 casi. Poiché su α e su β
(probabilità di commettere gli
errori) non si può intervenire
direttamente (riducendoli) in
quanto sono inversamente
proporzionali (diminuire l’uno
significa indurre aumento
dell’altro), si può definire la
seguente posizione
H 0 :   0  10
H1 :   0    1
H 0 :   0  11
H1 :    0
PrS  R /   1  1  
Se analizziamo tale posizione, essa ci dice che:
• la Statistica Test appartiene alla zona di rifiuto perché non è vera la posizione
assunta sotto
H 0 :   0
• la probabilità assegnata è pari ad (1 – β) e deve essere massima.
La probabilità di commettere un errore di secondo tipo è molto bassa. Avendo,
quindi, verificato il valore di (1 – β) si può essere più tranquilli nel rifiutare H0
Potenza del test
Sensibilità di un test a riconoscere i cambiamenti (H0 è falsa – l’ipotesi formulata non è
vera).
PrS  R /   1  1  
Test bidirezionale
Area di accettazione
di H0 = 1-α
α/2
α/2
µ-σ
-z
0
µ+σ
+z
Test unidirezionale
Area di
accettazione di
H0
1-α
Area di rifiuto
di H0
α
0
z
Esercizi
Di seguito, vengono riportati una serie di links che rinviano a fogli di
lavoro Excel, nei quali sono stati sviluppati esercizi sul tema trattato in
questa lezione.
Ogni esercizio reca un foglio di commento ed uno di svolgimento.
Si noti, inoltre, che ogni esercizio è impostato con formule predefinite. Si
consiglia, quindi, dopo un attento studio della materia, di cimentarsi
nella soluzione di altre tracce e, successivamente, di inserire i propri dati
all’interno del foglio di lavoro per verificare la correttezza dei risultati
ottenuti.
Esercizio 1
Esercizio 2
Esercizio 3