Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m. gherghi
gherghi
Università di Napoli Federico II - Facoltà di Economia m.
Anno accademico 2011-’12
Lezione 22 – La verifica delle ipotesi
Corso di
Statistica
(A-D)
22
La verifica delle ipotesi
marco gherghi
[email protected]
1
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
Lezione 22 – La verifica delle ipotesi
m.
m. gherghi
gherghi
La verifica delle ipotesi
da Orsi, pag. 354
In molte circostanze il ricercatore si trova a dover decidere quale, tra le diverse situazioni possibili
riferibili alla popolazione, è quella meglio sostenuta dalle evidenze empiriche.
Anche in questo caso la struttura del problema consiste in una famiglia di distribuzioni di probabilità
parametriche f(x; θ), con θ incognito, e nelle osservazioni campionarie X1, …, Xn, che costituiscono delle
realizzazioni della distribuzione di probabilità e che, quindi, forniscono delle informazioni sul valore di θ
incognito.
Una ipotesi statistica è dunque una affermazione concernente la distribuzione di probabilità o il
processo che ha generato le osservazioni campionarie osservate.
Una volta definita l’informazione che è necessario estrarre dal campione e la statistica che deve essere
impiegata per questa operazione, occorrerà dare un giudizio sulla coerenza del risultato
campionario con l’ipotesi specificata per la popolazione.
Più precisamente, se il risultato campionario si verrà a trovare talmente lontano dal valore teorizzato
dall’ipotesi fatta per θ da cadere in un insieme di valori ritenuti non “coerenti” (in quanto troppo poco
probabili) con l’ipotesi su θ, tale risultato avvalorerà la possibilità di ipotesi alternative a quella
specificata.
E’ dunque necessario definire una regola di decisione, o test statistico, che ad ogni valore
campionario associ una decisione sul parametro q, e tale schema decisionale viene formulato prima di
2
effettuare il campionamento o di avere i dati a disposizione.
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
Lezione 22 – La verifica delle ipotesi
m.
m. gherghi
gherghi
La verifica delle ipotesi
da Piccolo, pagg. 607-608
Nel test delle ipotesi si evidenzia il ruolo della Statistica come scienza delle decisioni in
condizioni di incertezza.
Infatti, è proprio del test tradurre un problema reale in un’affermazione statistica, assumere
informazioni campionarie sulla popolazione di riferimento e, su questa base, prendere
decisioni attribuendo a tale scelta un giudizio probabilistico sulla sua veridicità.
Un test si può derivare supponendo nota la
distribuzione di probabilità di una variabile X, per
cui l’inferenza si riferisce ai soli parametri che la
specificano;
Oppure si può effettuare senza fare assunzioni
stringenti circa la forma analitica della
distribuzione di probabilità di X, per cui l’inferenza
riguarda sia la forma della distribuzione che i suoi
parametri.
Il test delle ipotesi statistiche è una regola istituita sullo spazio campionario mediante la quale,
sulla base del campione osservato, si decide se rifiutare o meno una ipotesi statistica H0 riferita
alla popolazione e detta Ipotesi nulla.
3
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
La verifica delle ipotesi
da Piccolo, pagg. 607-608
Le ipotesi statistiche
Si definisce ipotesi statistica una qualunque affermazione che specifica completamente o
parzialmente la distribuzione di probabilità di una v.c. X. Se la specificazione è completa, si parla di
ipotesi semplice, altrimenti si parla di ipotesi composta.
Un’ipotesi viene definita parametrica quando gli aspetti incogniti riguardanti la popolazione vertono
principalmente sui parametri della distribuzione di probabilità e non sulla forma o su altri aspetti non
parametrici.
Nell’ambito delle ipotesi composte si parlerà di ipotesi unidirezionale sul parametro q quando
questa include valori reali in una sola direzione (ad esempio H : θ >θ0), ipotesi bidirezionale nel caso in
cui questa comprenda valori in entrambe le direzioni (ad esempio H : θ ≠θ0)
4
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
La verifica delle ipotesi
Le ipotesi statistiche
L’ipotesi da sottoporre a verifica viene definita Ipotesi nulla e viene indicata con H0. E’ l’ipotesi
preesistente rispetto all’esperimento campionario, quella che viene considerata valida fino a prova
contraria, e comprende il sottoinsieme dei valori dello spazio parametrico
test. Tipicamente, l’ipotesi nulla è un’ipotesi di tipo semplice:
Θ che si vuole sottoporre a
H0 : θ = θ0
Il complemento all’ipotesi nulla costituisce l’ipotesi alternativa e viene indicata con H1. E’ costituita da
un singolo valore o da un insieme di valori possibili per θ e considerati alternativi a θ0 :
H1 : θ = θ1
;
H1 : θ < θ0
;
H1 : θ > θ0
;
H1 : θ ≠ θ0
L’ipotesi alternativa rappresenta dunque una controaffermazione che viene fatta in antitesi all’ipotesi
nulla, e indica la direzione di allontanamento da H0 che si desidera esaminare.
E’ bene sottolineare che l’ipotesi nulla e l’ipotesi alternativa non sono equivalenti ai fini della
decisione, nel senso che il test non è mai conclusivo circa H1, ma concerne solo la possibilità che dal
campione si possa pervenire al rifiuto o al non rifiuto di H0.
Le ipotesi H0 e H1 sono esaustive e disgiunte: o vale l’una o vale l’altra.
da Orsi, pag. 359 e
Piccolo, pagg. 608-609
5
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
La verifica delle ipotesi
Test e regole di decisione
da Orsi, pag. 362
Una volta formulate le ipotesi, occorre decidere se, sulla base dell’evidenza empirica campionaria,
l’ipotesi nulla H0 debba essere rifiutata o meno. E’ perciò necessario mettere a punto una regola che
permetta di discriminare tra i risultati campionari che portano ad accettare l’ipotesi nulla e quelli che
portano a rifiutarla. Questa regola costituisce il
Il test è dunque una regola che
permette di stabilire se le osservazioni
campionarie debbano ritenersi coerenti
con l’ipotesi nulla oppure no.
Poiché il valore campionario di un test statistico varia
da campione a campione, il test statistico costituisce
una variabile casuale che può assumere valori
compresi in un insieme che costituisce
lo
del test, secondo
una particolare distribuzione di probabilità che è la
Da un punto di vista operativo,
un test è una statistica che fa
corrispondere ad ogni campione casuale
(X1, …, Xn)un valore numerico che può essere
classificato secondo due diverse possibilità:
del test.
6
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
La verifica delle ipotesi
Test e regole di decisione
da Orsi, pag. 362
Un test statistico da quindi luogo alla ripartizione dello spazio campionario in due sottoinsiemi
complementari: un insieme A costituito dai valori del test che sono compatibili con l’ipotesi nulla H0, e
un insieme C che raggruppa i valori del test considerati incompatibili con H0.
Quest’ultimo insieme è costituito dai valori del test che portano al
e viene definito la
del test.
Quando il valore campionario di t cade nella regione critica, l’evidenza empirica del fenomeno studiato
porta a ritenere che l’ipotesi H0 non possa essere considerata valida, e quindi che non possa essere
accettata come vera.
Regione di
accettazione di H0
Regione di
rifiuto di H0
Regione critica per un test statistico
con ipotesi alternativa unidirezionale:
t
Regione di
rifiuto di H0
Regione di
accettazione di H0
Regione di
rifiuto di H0
H0 : θ = θ0
H1 : θ > θ0
Regione critica per un test statistico
con ipotesi alternativa bidirezionale:
t
H0 : θ = θ0
H1 : θ ≠ θ0
7
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
La verifica delle ipotesi
Test e regole di decisione
da Orsi, pag. 367
Indipendentemente dalla regola adottata, il test porta sempre a dover scegliere tra due
possibili decisioni, H0 e H1 e a poter commettere due possibili errori, rifiutare un’ipotesi vera
oppure accettare un’ipotesi falsa.
Quindi, la decisione deve considerare
l’importanza relativa dei due diversi tipi di
Situazione vera
errore o, nell’ottica della Teoria delle
decisioni, le diverse funzioni di perdita.
H0
H1
Decisione
Ipotizzando vera H0, la regione critica
Accetto H0 falsa
H0
viene definita
Errore II tipo
Rifiuto H0 vera
H1
associata (cioè la probabilità di rifiutare H0)
Errore I tipo
test e indicata con
del
.
Accettare o rifiutare H0 non può e non deve
essere inteso come una dimostrazione della
verità o meno di H0 (altre ipotesi, diverse da
H0, avrebbero potuto essere accettate o
rifiutate sulla base dello stesso campione)
ma solo come una conclusione che
l’evidenza empirica è favorevole o meno
all’ipotesi nulla.
8
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
La verifica delle ipotesi
Test e regole di decisione
da Orsi, pag. 370
Stati della natura
Piove
Errore
Prendo
l’ombrello
Decisione
Non piove
Porto inutilmente
l’ombrello
Errore
Non prendo
l’ombrello
Bagno il vestito
nuovo e lo rovino
9
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
La verifica delle ipotesi
Test e regole di decisione
da Orsi, pag. 370
Realtà
Innocente
Errore
Assoluzione
Decisione
Colpevole
Assolvo
un colpevole
Errore
Condanna
Condanno
un innocente
10
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
La verifica delle ipotesi
Test e regole di decisione
Θ :
Insieme dei
possibili valori di q
da Orsi, pag. 372
Θ0
Insieme dei valori di
θ sotto l’ipotesi nulla H0
Θ1
Insieme dei valori di
θ sotto l’ipotesi alternativa H1
t(x) : Valore campionario del test
C:
Insieme dei valori campionari del test t(X) che portano a rifiutare H0
A:
Insieme dei valori campionari del test t(X) che portano ad accettare H0
Errore di I tipo:
(Rifiuto H0 vera)
t ( X ) ∈ C | θ ∈ Θ0
P (Errore di I tipo):
Errore di II tipo:
(Accetto H0 falsa)
P ⎡⎣t ( X ) ∈ C | θ ∈ Θ0 ⎤⎦ = α
t ( X ) ∈ A | θ ∈ Θ1
( )
P (Errore di II tipo): P ⎡t X ∈ A | θ ∈ Θ ⎤ =
1⎦
⎣
β
11
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
La verifica delle ipotesi
Test e regole di decisione
Θ :
Insieme dei
possibili valori di q
da Orsi, pag. 372
Θ0
Insieme dei valori di
θ sotto l’ipotesi nulla H0
Θ1
Insieme dei valori di
θ sotto l’ipotesi alternativa H1
t(x) : Valore campionario del test
C:
Insieme dei valori campionari del test t(X) che portano a rifiutare H0
A:
Insieme dei valori campionari del test t(X) che portano ad accettare H0
Potenza del test
(Rifiuto H0 falsa)
t ( X ) ∈ C | θ ∈ Θ1
P ⎡⎣t ( X ) ∈ C | θ ∈ Θ1 ⎤⎦ = 1 − β
12
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
Lezione 22 – La verifica delle ipotesi
m.
m. gherghi
gherghi
La verifica delle ipotesi
Esempio
(sulla media)
La durata delle lampadine prodotte da una certa azienda ha media pari a 2000 ore
e deviazione standard pari a 250 ore.
La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo di
materiale sulla cui qualità il responsabile della produzione avanza seri dubbi. Prima di mettere
in vendita le lampadine prodotte si desidera, dunque, indagare sulla qualità del materiale
impiegato e, in particolare, verificare se possa avere influito sulla durata delle lampadine.
Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e
se ne misura la durata media, che risulta pari a 1955 ore.
E’ possibile affermare, con significatività α=0,05, che tale riduzione sia imputabile alla scarsa
qualità del materiale utilizzato?
•  Le ipotesi (Nulla, H0, e Alternativa, H1)
•  Il livello di significatività (α)
•  La statistica di riferimento
•  La regola di decisione
13
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
La verifica delle ipotesi
Esempio
(sulla media)
La durata delle lampadine prodotte da una certa azienda ha media pari a 2000 ore e deviazione standard pari a 250 ore.
La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo di materiale sulla cui qualità il responsabile della
produzione avanza seri dubbi. Prima di mettere in vendita le lampadine prodotte si desidera, dunque, indagare sulla qualità del
materiale impiegato e, in particolare, verificare se possa avere influito sulla durata delle lampadine.
Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e se ne misura la durata media, che
risulta pari a 1955 ore. E’ possibile affermare, con significatività a=0,05, che tale riduzione sia imputabile alla scarsa qualità del
materiale utilizzato?
µ =2000
σ =250
H0: µ = 2000
H1: µ < 2000
x = 1955
n =100
α = 0,05
X ~N
za = -1,645
1.
σ
n
1955 X
c
1975
2000
2.
1
Zc
0
Z =
Rifiuto H0 se:
;
X −µ
σ
n
x − µ0
σ
1955 − 2000
= −1, 8
250
100
-1,8 < -1,645
X
5%
-1
α =0,05
< − zα
n
Rifiuto H0
Valore critico
σ
= 1958, 9
non standardizzato: µ0 − 1,645 ×
n
14
1955 < 1958,9
Rifiuto H0
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
Lezione 22 – La verifica delle ipotesi
m.
m. gherghi
gherghi
La verifica delle ipotesi
Esempio
(sulla media)
La durata delle lampadine prodotte da una certa azienda ha media pari a 2000 ore
e deviazione standard pari a 250 ore.
La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo di
materiale di cui si ignorano le performance. Prima di mettere in vendita le lampadine prodotte
si desidera, dunque, indagare sulla qualità del materiale impiegato e, in particolare, verificare
se possa influire sulla durata delle lampadine.
Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e
se ne misura la durata media, che risulta pari a 2010 ore. E’ possibile affermare, con
significatività a=0,05, che tale variazione sia imputabile al nuovo materiale utilizzato?
•  Le ipotesi (Nulla, H0, e Alternativa, H1)
•  Il livello di significatività (a)
•  La statistica di riferimento
•  La regola di decisione
15
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
La verifica delle ipotesi
Esempio
(sulla media)
La durata delle lampadine prodotte da una certa azienda ha media pari a 2000 ore e deviazione standard pari a 250 ore.
La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo di materiale di cui si ignorano le performance.
Prima di mettere in vendita le lampadine prodotte si desidera, dunque, indagare sulla qualità del materiale impiegato e, in
particolare, verificare se possa influire sulla durata delle lampadine.
Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e se ne misura la durata media, che
risulta pari a 2010 ore. E’ possibile affermare, con significatività α=0,05, che tale variazione sia imputabile al nuovo materiale
utilizzato?
H0: µ= 2000
H1: µ ≠ 2000
µ =2000
α = 0,05
σ =250
2,5%
X ~N
x = 2010
n =100
zα = 1, 96
1.
2,5%
2
2010
1951
2000
2,5%
− zα
2.
2,5%
2
0
0,4
zα
Z =
2
;
X −µ
σ
n
x − µ0
σ
α =0,05
> zα
n
2
2010 − 2000
= 0, 4
250
100
|0,4| < 1,96
X
2049
Rifiuto H0 se:
Valori critici
non standardizzati:
1951 ≤ 2010 ≤ 2049
Non rifiuto H0
µ0  1,96 ×
σ
n
=
1951, 0
2049, 0
Non rifiuto H0
16
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
Lezione 22 – La verifica delle ipotesi
m.
m. gherghi
gherghi
La verifica delle ipotesi
Esempio
(sulla media)
La durata delle lampadine prodotte da una certa azienda ha media pari a 2000 ore
e deviazione standard pari a 250 ore.
Viene proposta alla Direzione una nuova macchina che, secondo i produttori, è in
grado di ottimizzare il processo con un guadagno, in termini di efficienza del prodotto,
quantificabile in un miglioramento di performance del 3,5%.
Prima di decidere se procedere o meno all’acquisto, si decide di considerare un campione casuale
di 100 lampadine prese dalla produzione della nuova macchina e di considerare significativo il
risultato se la media campionaria risulta oltre il 99° percentile (quindi, α=0,01).
Si definisca la probabilità β dell’errore di II tipo e, quindi, la potenza del test e, eventualmente, si
definisca una possibile strategia alternativa.
17
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
La verifica delle ipotesi
Esempio
(sulla media)
La durata delle lampadine prodotte da una certa azienda ha media pari a 2000 ore e deviazione standard pari a 250 ore.
Viene proposta alla Direzione una nuova macchina che, secondo i produttori, è in grado di ottimizzare il processo con un guadagno, in
termini di efficienza del prodotto, quantificabile in un miglioramento di performance del 3,5%.
Prima di decidere se procedere o meno all’acquisto, si decide di considerare un campione casuale di 100 lampadine prese dalla
produzione della nuova macchina e di considerare significativo il risultato se la media campionaria risulta oltre il 99° percentile (quindi,
α=0,01). Si definisca la probabilità β dell’errore di II tipo e, quindi, la potenza del test e, eventualmente, si definisca una possibile
strategia alternativa.
µ0 =2000
σ =250
H0: µ = 2000
H1: µ = 2070
α = 0,01
H0
2000
n =100
α =0,01
X ~N
µ1=2000+(2000×0,035)=2070
Rifiuto H0 se:
H1
2070
Per calcolare β, è necessario determinare il valore critico.
x − µ0
σ
> zα
n
X
18
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
La verifica delle ipotesi
Esempio
(sulla media)
La durata delle lampadine prodotte da una certa azienda ha media pari a 2000 ore e deviazione standard pari a 250 ore.
Viene proposta alla Direzione una nuova macchina che, secondo i produttori, è in grado di ottimizzare il processo con un guadagno, in
termini di efficienza del prodotto, quantificabile in un miglioramento di performance del 3,5%.
Prima di decidere se procedere o meno all’acquisto, si decide di considerare un campione casuale di 100 lampadine prese dalla
produzione della nuova macchina e di considerare significativo il risultato se la media campionaria risulta oltre il 99° percentile (quindi,
α=0,01). Si definisca la probabilità β dell’errore di II tipo e, quindi, la potenza del test e, eventualmente, si definisca una possibile
strategia alternativa.
µ0 =2000
σ =250
H0: µ = 2000
H1: µ = 2070
α =0,01
n =100
α = 0,01
H0
µ1=2000+(2000×0,035)=2070
X ~N
Rifiuto H0 se:
H1
x − µ0
σ
> zα
n
1%
2000
X
2070
µ0 + zα ⋅
σ
n
= 2000 + 2,33 ⋅
250
100
=2.058,3
19
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
La verifica delle ipotesi
Esempio
(sulla media)
La durata delle lampadine prodotte da una certa azienda ha media pari a 2000 ore e deviazione standard pari a 250 ore.
Viene proposta alla Direzione una nuova macchina che, secondo i produttori, è in grado di ottimizzare il processo con un guadagno, in
termini di efficienza del prodotto, quantificabile in un miglioramento di performance del 3,5%.
Prima di decidere se procedere o meno all’acquisto, si decide di considerare un campione casuale di 100 lampadine prese dalla
produzione della nuova macchina e di considerare significativo il risultato se la media campionaria risulta oltre il 99° percentile (quindi,
α=0,01). Si definisca la probabilità β dell’errore di II tipo e, quindi, la potenza del test e, eventualmente, si definisca una possibile
strategia alternativa.
µ0 =2000
σ =250
H0: µ = 2000
H1: µ = 2070
n =100
α = 0,01
H0
α =0,01
X ~N
H1
β
=P
µ1=2000+(2000×0,035)=2070
Rifiuto H0 se:
(θˆ ∈ A | θ ∈ Θ )
x − µ0
σ
> zα
n
1
1%
2.058 2070
2000
P
( X ≤ 2058,3 | µ
X
⎛
⎞
X
−
µ
2058,3
−
2070
⎜
⎟
≤
= 2070 = P ⎜
⎟ = P ( Z ≤ −0, 468) = 0,32
σ
250
⎜
⎟
100 ⎠
n
⎝
)
20
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
La verifica delle ipotesi
Esempio
(sulla media)
H0: µ = 2000
H1: µ = 2070
µ0 =2000
α = 0,01
σ =250
X ~N
n =100
α =0,01
Rifiuto H0 se:
xc − µ0
σ
> zα
n
µ1=2000+(2000×0,035)=2070
β = 0,32
H0
2000
H1
2070
Come possiamo rendere il test
più “potente”?
X
21
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
La verifica delle ipotesi
Esempio
(sulla media)
H0: µ = 2000
H1: µ = 2070
µ0 =2000
α = 0,01
X ~N
σ =250
n =180
H0
H1
α =0,01
Rifiuto H0 se:
xc − µ0
σ
> zα
n
µ1=2000+(2000✕0,035)=2070
Aumentando la numerosità campionaria n, la
varianza dello stimatore media campionaria si
riduce, riducendosi anche l’area di sovrapposizione
(“area grigia”) tra le due curve.
2000
2070
X
22
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
La verifica delle ipotesi
Esempio
(sulla media)
H0: µ = 2000
H1: µ = 2070
µ0 =2000
α = 0,01
X ~N
σ =250
n =180
H0
H1
α =0,01
Rifiuto H0 se:
xc − µ0
σ
> zα
n
µ1=2000+(2000✕0,035)=2070
Con la nuova numerosità campionaria, possiamo
determinare il nuovo valore critico e calcolare, a
parità di α, il nuovo valore di β.
2000
2070
X
23
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
La verifica delle ipotesi
Esempio
(sulla media)
H0: µ = 2000
H1: µ = 2070
µ0 =2000
α = 0,01
X ~N
σ =250
n =180
H0
H1
α =0,01
Rifiuto H0 se:
=P
σ
> zα
n
µ1=2000+(2000✕0,035)=2070
X c = 2000 + 2,33 ×
β
xc − µ0
250
180
= 2043, 4
(θˆ ∈ A | θ ∈ Θ )
1
1%
2000
P
( X ≤ 2043, 4 | µ
2043
2070
⎛
⎞
⎜ X − µ 2043, 4 − 2070 ⎟
= 2070 = P ⎜
≤
⎟ =P
σ
250
⎜
⎟
180
n
⎝
⎠
)
X
( Z ≤ −1, 43)
= 0, 08
24
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
La verifica delle ipotesi
Esempio
(sulla media)
La frequenza cardiaca (battiti al minuto, bpm) dei maschi giovani sani segue
una distribuzione Normale con media µ=72 bpm.
Si misura la frequenza cardiaca su un campione di 12 atleti maschi e si ottiene
una media µ=68,7 bpm e una varianza corretta s2=75,12.
Si verifichi, con significatività α=0,05, che la frequenza cardiaca degli atleti è diversa da
quella della popolazione di tutti i maschi sani.
H0: µ = 72
H1: µ ≠ 72
x = 68,7
α = 0,05
s = 75,12 = 8,67
X ~N
n =12
Rifiuto H0 se:
x − µ0
> tα ;11
s
2
n
x − µ0 68,7 − 72
−3,3
=
= −1,32
=
s
2,5
8,67
n
12
25
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
La verifica delle ipotesi
Tavola della distribuzione T di Student
Area nella coda di destra
Gradi di
libertà
0,25
0,1
0,05
0,025
0,01
0,005
1
1,0000
3,0777
6,3138
12,7062
31,8205
63,6567
2
0,8165
1,8856
2,9200
4,3027
6,9646
9,9248
3
0,7649
1,6377
2,3534
3,1824
4,5407
5,8409
4
0,7407
1,5332
2,1318
2,7764
3,7469
4,6041
5
0,7267
1,4759
2,0150
2,5706
3,3649
4,0321
6
0,7176
1,4398
1,9432
2,4469
3,1427
3,7074
7
0,7111
1,4149
1,8946
2,3646
2,9980
3,4995
8
0,7064
1,3968
1,8595
2,3060
2,8965
3,3554
9
0,7027
1,3830
1,8331
2,2622
2,8214
3,2498
10
0,6998
1,3722
1,8125
2,2281
2,7638
3,1693
11
0,6974
1,3634
1,7959
2,2010
2,7181
3,1058
12
0,6955
1,3562
1,7823
2,1788
2,6810
3,0545
13
0,6938
1,3502
1,7709
2,1604
2,6503
3,0123
14
0,6924
1,3450
1,7613
2,1448
2,6245
2,9768
15
0,6912
1,3406
1,7531
2,1314
2,6025
2,9467
16
0,6901
1,3368
1,7459
2,1199
2,5835
2,9208
17
0,6892
1,3334
1,7396
2,1098
2,5669
2,8982
18
0,6884
1,3304
1,7341
2,1009
2,5524
2,8784
26
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
La verifica delle ipotesi
Esempio
(sulla media)
La frequenza cardiaca (battiti al minuto, bpm) dei maschi giovani sani segue
una distribuzione Normale con media µ=72 bpm.
Si misura la frequenza cardiaca su un campione di 12 atleti maschi e si ottiene
una media µ=68,7 bpm e una varianza corretta s2=75,12.
Si verifichi, con significatività α=0,05, che la frequenza cardiaca degli atleti è diversa da
quella della popolazione di tutti i maschi sani.
H0: µ = 72
H1: µ ≠ 72
x = 68,7
α = 0,05
s = 75,12 = 8,67
X ~N
n =12
x − µ0 68,7 − 72
−3,3
=
= −1,32
=
s
2,5
8,67
n
12
dalle tavole: t0,025;11 = 2,201
Rifiuto H0 se:
x − µ0
> tα ;11
s
2
n
Non rifiuto H027
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
Lezione 22 – La verifica delle ipotesi
m.
m. gherghi
gherghi
La verifica delle ipotesi
Il lemma di Neyman-Pearson
Nella maggior parte dei casi, il test delle ipotesi viene costruito in modo che l’ipotesi
nulla giochi un ruolo più importante dell’ipotesi alternativa nel problema di decisione
che si intende affrontare.
Questo significa che i due tipi di errore in cui è possibile incorrere non vengono
considerati ugualmente importanti, poiché l ’ errore di I tipo si suppone avere
conseguenze più gravi di quelle legate all’errore di II tipo.
Neyman e Pearson propongono allora di prefissare un livello a di probabilità di
commettere l’errore di I tipo e successivamente, condizionatamente al valore di a fissato,
scegliere il test che minimizza la probabilità b di commettere l’errore di II tipo.
In base al principio di Neyman-Pearson è quindi possibile definire una regione critica
ottimale, scegliendo, tra i possibili test alternativi caratterizzati dallo stesso livello di
significatività a, quello per il quale la probabilità b risulta minima;
Una regione critica con potenza superiore a qualunque altra regione per un test di
livello a viene definita regione critica ottimale e il test ad essa associato viene indicato
come il test più potente.
da Orsi, pagg. 393-394
28
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
La verifica delle ipotesi
Esempio
(sulla proporzione)
In una scommessa con un amico, lanciando 100 volte una moneta si sono ottenute
54 teste. Abbiamo il sospetto che l’amico ci abbia ingannati utilizzando una
moneta truccata. Si verifichi questa ipotesi ad un livello di significatività α=0,1.
H0: π = 0,5
H1: π > 0,5
n=100
p~N
α = 0,10
Rifiuto H0 se:
π 0 ⋅ (1 − π 0 )
10%
=
n
p
pc
0,80 < 1,28
10%
zα
p−π
π ⋅ (1 − π )
n
> zα
n
p − π0
0
π 0 ⋅ (1 − π 0 )
zα = 1,28
p =0,54
0,50
p − π0
0,54 − 0,50
0,50 ⋅ (1 − 0,50 )
100
= 0, 80
Non rifiuto H0
Supponiamo che io non consideri, a priori, alcun livello
di significatività ma che, sulla base del risultato
campionario, decida di accusare l’amico di utilizzare una
moneta truccata. Qual è la probabilità che lo stia
29
accusando ingiustamente?
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
La verifica delle ipotesi
Esempio
(sulla proporzione)
In una scommessa con un amico, lanciando 100 volte una moneta si sono ottenute
54 teste. Abbiamo il sospetto che l’amico ci abbia ingannati utilizzando una
moneta truccata. Si verifichi questa ipotesi ad un livello di significatività α=0,1.
H0: π = 0,5
H1: π > 0,5
n=100
p~N
arbitraria
⎛
⎜
p−π
⎜
≥
P p ≥ 0,54 = P ⎜
⎜ π ⋅ (1 − π )
⎜
n
⎝
p =0,54
(
)
Livello di significatività
“osservato”
0,5
Rifiuto H0 se il valore campionario
mi sembra “eccessivo”
0,54
= 0,21
⎞
⎟
0,54 − 0,5 ⎟
= P ( Z ≥ 0,80)
⎟
0,5 ⋅ (1 − 0,5) ⎟
⎟
100
⎠
p-value
p
Orsi, pag. 387
Più piccolo è il p-value, più “distante” risulta essere
il valore campionario osservato da quanto ci si
aspetta sotto H0, e quindi più problematico diventa
accettare questa discrepanza come attribuibile alla
sola aleatorietà campionaria.
Il p-value è la probabilità
di commettere un errore nel rifiutare
l’ipotesi nulla sulla base del risultato
campionario.
30
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
La verifica delle ipotesi
Il p-value
La durata delle lampadine prodotte da una certa azienda ha media pari a 2000 ore e deviazione standard pari a 250 ore.
La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo di materiale sulla cui qualità il responsabile della
produzione avanza seri dubbi. Prima di mettere in vendita le lampadine prodotte si desidera, dunque, indagare sulla qualità del
materiale impiegato e, in particolare, verificare se possa avere influito sulla durata delle lampadine.
Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e se ne misura la durata media, che
risulta pari a 1955 ore. Qual è la probabilità di errore nell’affermare che tale riduzione sia imputabile alla scarsa qualità
del materiale utilizzato?
µ =2000
σ =250
H0: µ = 2000
H1: µ < 2000
x = 1955
n =100
arbitraria
X ~N
⎛
⎞
⎜ X − µ 1955 − 2000 ⎟
≤
P X ≤ 1955 = P ⎜
⎟ = P ( Z ≤ −1,8) = 0, 036
σ
250
⎜
⎟
n
100 ⎠
⎝
(
1955
-1,8
Rifiuto H0 se la probabilità di errore associata al
valore campionario osservato risulta troppo elevata.
2000
0
)
X
Z =
p-value
X −µ
σ
n
0,036
La percentuale di errore nel rifiutare l’ipotesi H0 sulla base del valore campionario
osservato è del 3,6%. La decisione se rifiutare o meno H0 dipenderà dunque da quanto
31
noi consideriamo piccola (o grande) questa percentuale, ed è quindi arbitraria,
a
differenza della quantificazione del rischio, che è invece oggettiva.
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
I test non parametrici
•  Il test chi-quadrato sull’indipendenza fra mutabili
Si riporta, di seguito, la tabella che incrocia il Voto di laurea con l’Occupazione (al
momento dell’intervista) di 382 laureati della Facoltà di Economia.
E’ possibile affermare, con un livello di significatività a=0,05, che esiste relazione tra i due
caratteri osservati?
Conteggio
VOTO Meno di 96
VOTO
96-105
106-110
110 e lode
Totale
OCCUPAZIONEATTUALE
ATTUALE
OCCUPAZIONE
Non occupato
Precario
Occ. stabile
22
19
29
61
57
51
25
23
25
22
20
28
130
119
133
Totale
70
169
73
70
382
32
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
I test non parametrici
•  Il test chi-quadrato sull’indipendenza fra mutabili
Conteggio
VOTO Meno di 96
VOTO
96-105
106-110
110 e lode
Totale
OCCUPAZIONEATTUALE
ATTUALE
OCCUPAZIONE
Non occupato
Precario
Occ. stabile
22
19
29
61
57
51
25
23
25
22
20
28
130
119
133
α = 0,05
Totale
70
169
73
70
382
VOTO
Meno di 96
96-105
106-110
110 e lode
Totale
(n
∑∑
ij
i
j
− n ij
n ij
χ2 = ∑ ∑
i
Conteggio
%
Conteggio
%
Conteggio
%
Conteggio
%
Conteggio
%
j
(
nij − n ij
n ij
)
2
=3,84
OCCUPAZIONE ATTUALE
Non occupato
Precario
Occ. stabile
22
19
29
31,4%
27,1%
41,4%
61
57
51
36,1%
33,7%
30,2%
25
23
25
34,2%
31,5%
34,2%
22
20
28
31,4%
28,6%
40,0%
130
119
133
34,0%
31,2%
34,8%
Totale
70
100,0%
169
100,0%
73
100,0%
70
100,0%
382
100,0%
)
2
33
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
I test non parametrici
Tavola della distribuzione
Gradi
di
libertà
χ2
Area nella coda destra
0,995
0,990
0,975
0,950
0,900
0,750
0,250
0,100
0,050
0,025
0,010
0,004
0,103
0,352
0,711
1,145
1,635
2,167
2,733
3,325
3,940
0,016
0,211
0,584
1,064
1,610
2,204
2,833
3,490
4,168
4,865
0,102
0,575
1,213
1,923
2,675
3,455
4,255
5,071
5,899
6,737
1,323
2,773
4,108
5,385
6,626
7,841
9,037
10,219
11,389
12,549
2,706
4,605
6,251
7,779
9,236
10,645
12,017
13,362
14,684
15,987
3,841
5,991
7,815
9,488
11,070
12,592
14,067
15,507
16,919
18,307
5,024
7,378
9,348
11,143
12,833
14,449
16,013
17,535
19,023
20,483
6,635
9,210
11,345
13,277
15,086
16,812
18,475
20,090
21,666
23,209
1
2
3
4
5
6
7
8
9
10
0,072
0,207
0,412
0,676
0,989
1,344
1,735
2,156
0,115
0,297
0,554
0,872
1,239
1,646
2,088
2,558
0,001
0,051
0,216
0,484
0,831
1,237
1,690
2,180
2,700
3,247
11
12
13
14
15
16
17
18
19
20
2,603
3,074
3,565
4,075
4,601
5,142
5,697
6,265
6,844
7,434
3,053
3,571
4,107
4,660
5,229
5,812
6,408
7,015
7,633
8,260
3,816
4,404
5,009
5,629
6,262
6,908
7,564
8,231
8,907
9,591
4,575
5,226
5,892
6,571
7,261
7,962
8,672
9,390
10,117
10,851
5,578
6,304
7,042
7,790
8,547
9,312
10,085
10,865
11,651
12,443
7,584
8,438
9,299
10,165
11,037
11,912
12,792
13,675
14,562
15,452
13,701
14,845
15,984
17,117
18,245
19,369
20,489
21,605
22,718
23,828
17,275
18,549
19,812
21,064
22,307
23,542
24,769
25,989
27,204
28,412
19,675
21,026
22,362
23,685
24,996
26,296
27,587
28,869
30,144
31,410
21,920
23,337
24,736
26,119
27,488
28,845
30,191
31,526
32,852
34,170
24,725
26,217
27,688
29,141
30,578
32,000
33,409
34,805
36,191
37,566
21
22
8,034
8,643
8,897
9,542
10,283
10,982
11,591
12,338
13,240
14,041
16,344
17,240
24,935
26,039
29,615
30,813
32,671
33,924
35,479
36,781
38,932
40,289
34
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
I test non parametrici
•  Il test chi-quadrato sull’indipendenza fra mutabili
Conteggio
VOTO Meno di 96
VOTO
96-105
106-110
110 e lode
Totale
OCCUPAZIONEATTUALE
ATTUALE
OCCUPAZIONE
Non occupato
Precario
Occ. stabile
22
19
29
61
57
51
25
23
25
22
20
28
130
119
133
α = 0,05
2
χ0,05;6
VOTO
Meno di 96
96-105
= 12,59
106-110
110 e lode
1-α
α
12,59
Totale
(n
∑∑
ij
i
Zona di
accettazione
Totale
70
169
73
70
382
j
− n ij
n ij
χ2 = ∑ ∑
i
Conteggio
%
Conteggio
%
Conteggio
%
Conteggio
%
Conteggio
%
j
(
nij − n ij
n ij
)
2
=3,84
OCCUPAZIONE ATTUALE
Non occupato
Precario
Occ. stabile
22
19
29
31,4%
27,1%
41,4%
61
57
51
36,1%
33,7%
30,2%
25
23
25
34,2%
31,5%
34,2%
22
20
28
31,4%
28,6%
40,0%
130
119
133
34,0%
31,2%
34,8%
Totale
70
100,0%
169
100,0%
73
100,0%
70
100,0%
382
100,0%
)
2
Zona di rifiuto
35
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
I test non parametrici
•  Il test chi-quadrato sull’indipendenza fra mutabili
Conteggio
VOTO Meno di 96
VOTO
96-105
106-110
110 e lode
Totale
OCCUPAZIONEATTUALE
ATTUALE
OCCUPAZIONE
Non occupato
Precario
Occ. stabile
22
19
29
61
57
51
25
23
25
22
20
28
130
119
133
α = 0,05
2
χ0,05;6
VOTO
= 12,59
106-110
110 e lode
α
12,59
Totale
(n
∑∑
ij
i
Zona di
accettazione
Meno di 96
96-105
1-α
3,84
Totale
70
169
73
70
382
Zona di rifiuto
j
− n ij
n ij
χ2 = ∑ ∑
i
Conteggio
%
Conteggio
%
Conteggio
%
Conteggio
%
Conteggio
%
j
(
nij − n ij
n ij
)
2
=3,84
OCCUPAZIONE ATTUALE
Non occupato
Precario
Occ. stabile
22
19
29
31,4%
27,1%
41,4%
61
57
51
36,1%
33,7%
30,2%
25
23
25
34,2%
31,5%
34,2%
22
20
28
31,4%
28,6%
40,0%
130
119
133
34,0%
31,2%
34,8%
Totale
70
100,0%
169
100,0%
73
100,0%
70
100,0%
382
100,0%
)
2
Non rifiuto l’ipotesi H0 di
indipendenza fra le mutabili
36
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
I test non parametrici
•  Il test chi-quadrato sull’indipendenza fra mutabili
Conteggio
VOTO Meno di 96
VOTO
96-105
106-110
110 e lode
Totale
OCCUPAZIONEATTUALE
ATTUALE
OCCUPAZIONE
Non occupato
Precario
Occ. stabile
22
19
29
61
57
51
25
23
25
22
20
28
130
119
133
α = 0,05
2
χ0,05;6
VOTO
= 12,59
106-110
110 e lode
α
12,59
Totale
(n
∑∑
ij
i
Zona di
accettazione
Meno di 96
96-105
1-α
3,84
Totale
70
169
73
70
382
Zona di rifiuto
j
− n ij
n ij
χ2 = ∑ ∑
i
Conteggio
%
Conteggio
%
Conteggio
%
Conteggio
%
Conteggio
%
j
(
nij − n ij
n ij
)
2
=3,84
OCCUPAZIONE ATTUALE
Non occupato
Precario
Occ. stabile
22
19
29
31,4%
27,1%
41,4%
61
57
51
36,1%
33,7%
30,2%
25
23
25
34,2%
31,5%
34,2%
22
20
28
31,4%
28,6%
40,0%
130
119
133
34,0%
31,2%
34,8%
Totale
70
100,0%
169
100,0%
73
100,0%
70
100,0%
382
100,0%
)
2
Supponiamo che, sulla base di questo risultato
campionario, io decida comunque di rifiutare l’ipotesi di
indipendenza e concluda per l’associazione tra le mutabili
considerate. Qual è la probabilità che stia commettendo
37 un
errore?
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
I test non parametrici
•  Il test chi-quadrato sull’indipendenza fra mutabili
Conteggio
VOTO Meno di 96
VOTO
96-105
106-110
110 e lode
Totale
OCCUPAZIONEATTUALE
ATTUALE
OCCUPAZIONE
Non occupato
Precario
Occ. stabile
22
19
29
61
57
51
25
23
25
22
20
28
130
119
133
Totale
70
169
73
70
382
VOTO
Meno di 96
96-105
p-value
106-110
110 e lode
Totale
3,84
(n
∑∑
ij
i
j
− n ij
n ij
χ2 = ∑ ∑
i
Conteggio
%
Conteggio
%
Conteggio
%
Conteggio
%
Conteggio
%
j
(
nij − n ij
n ij
)
2
=3,84
OCCUPAZIONE ATTUALE
Non occupato
Precario
Occ. stabile
22
19
29
31,4%
27,1%
41,4%
61
57
51
36,1%
33,7%
30,2%
25
23
25
34,2%
31,5%
34,2%
22
20
28
31,4%
28,6%
40,0%
130
119
133
34,0%
31,2%
34,8%
Totale
70
100,0%
169
100,0%
73
100,0%
70
100,0%
382
100,0%
)
2
Il p-value è la probabilità di commettere un errore nel
rifiutare l’ipotesi H0 sulla base del valore campionario
osservato. Quanto più è piccolo, tanto più tenderemo a
rifiutare H0.
38
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
I test non parametrici
Tavola della distribuzione
Gradi
di
libertà
χ2
Area nella coda destra
0,995
0,990
0,975
0,950
0,900
0,750
0,250
0,100
0,050
0,025
0,010
0,004
0,103
0,352
0,711
1,145
1,635
2,167
2,733
3,325
3,940
0,016
0,211
0,584
1,064
1,610
2,204
2,833
3,490
4,168
4,865
0,102
0,575
1,213
1,923
2,675
3,455
4,255
5,071
5,899
6,737
1,323
2,773
4,108
5,385
6,626
7,841
9,037
10,219
11,389
12,549
2,706
4,605
6,251
7,779
9,236
10,645
12,017
13,362
14,684
15,987
3,841
5,991
7,815
9,488
11,070
12,592
14,067
15,507
16,919
18,307
5,024
7,378
9,348
11,143
12,833
14,449
16,013
17,535
19,023
20,483
6,635
9,210
11,345
13,277
15,086
16,812
18,475
20,090
21,666
23,209
1
2
3
4
5
6
7
8
9
10
0,072
0,207
0,412
0,676
0,989
1,344
1,735
2,156
0,115
0,297
0,554
0,872
1,239
1,646
2,088
2,558
0,001
0,051
0,216
0,484
0,831
1,237
1,690
2,180
2,700
3,247
11
12
13
14
15
16
17
18
19
20
2,603
3,074
3,565
4,075
4,601
5,142
5,697
6,265
6,844
7,434
3,053
3,571
4,107
4,660
5,229
5,812
6,408
7,015
7,633
8,260
3,816
4,404
5,009
5,629
6,262
6,908
7,564
8,231
8,907
9,591
4,575
5,226
5,892
6,571
7,261
7,962
8,672
9,390
10,117
10,851
5,578
6,304
7,042
7,790
8,547
9,312
10,085
10,865
11,651
12,443
7,584
8,438
9,299
10,165
11,037
11,912
12,792
13,675
14,562
15,452
13,701
14,845
15,984
17,117
18,245
19,369
20,489
21,605
22,718
23,828
17,275
18,549
19,812
21,064
22,307
23,542
24,769
25,989
27,204
28,412
19,675
21,026
22,362
23,685
24,996
26,296
27,587
28,869
30,144
31,410
21,920
23,337
24,736
26,119
27,488
28,845
30,191
31,526
32,852
34,170
24,725
26,217
27,688
29,141
30,578
32,000
33,409
34,805
36,191
37,566
21
22
8,034
8,643
8,897
9,542
10,283
10,982
11,591
12,338
13,240
14,041
16,344
17,240
24,935
26,039
29,615
30,813
32,671
33,924
35,479
36,781
38,932
40,289
39
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
I test non parametrici
•  Il test chi-quadrato sull’indipendenza fra mutabili
Conteggio
VOTO Meno di 96
VOTO
96-105
106-110
110 e lode
Totale
OCCUPAZIONEATTUALE
ATTUALE
OCCUPAZIONE
Non occupato
Precario
Occ. stabile
22
19
29
61
57
51
25
23
25
22
20
28
130
119
133
Totale
70
169
73
70
382
VOTO
Meno di 96
96-105
p-value
106-110
110 e lode
Totale
3,84
∑∑
i
j
(n
ij
χ2 = ∑ ∑
i
Conteggio
%
Conteggio
%
Conteggio
%
Conteggio
%
Conteggio
%
j
(
nij − n ij
n ij
)
2
=3,84
OCCUPAZIONE ATTUALE
Non occupato
Precario
Occ. stabile
22
19
29
31,4%
27,1%
41,4%
61
57
51
36,1%
33,7%
30,2%
25
23
25
34,2%
31,5%
34,2%
22
20
28
31,4%
28,6%
40,0%
130
119
133
34,0%
31,2%
34,8%
− n%
ij )
n%
ij
Totale
70
100,0%
169
100,0%
73
100,0%
70
100,0%
382
100,0%
2
Il p-value è la probabilità di commettere un errore nel
rifiutare l’ipotesi H0 sulla base del valore campionario
osservato. Quanto più è piccolo, tanto più tenderemo a
rifiutare H0.
Chi-quadrato
Chi-quadrato di Pearson
Valore
3,835
df
6
Sig.
,699
40
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
I test non parametrici
•  Il test chi-quadrato sull’indipendenza fra mutabili
Si riporta, di seguito, la tabella che incrocia il Voto di laurea con la Frequenza alle
lezioni di 382 laureati della Facoltà di Economia.
E’ possibile affermare che esiste relazione tra i due caratteri osservati?
VOTO
VOTO
FREQ.
FREQ.
<30% delle lez.
%
30-50% delle lez.
%
Meno di 96
43
25,7%
27
17,0%
>50% delle lez.
%
Totale
%
70
18,3%
96-105
82
49,1%
68
42,8%
19
33,9%
169
44,2%
106-110
29
17,4%
31
19,5%
13
23,2%
73
19,1%
110 e lode
13
7,8%
33
20,8%
24
42,9%
70
18,3%
Totale
167
100,0%
159
100,0%
56
100,0%
382
100,0%
41
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
I test non parametrici
•  Il test chi-quadrato sull’indipendenza fra mutabili
FREQ.
FREQ.
<30% delle lez.
%
30-50% delle lez.
%
Meno di 96
43
25,7%
27
17,0%
>50% delle lez.
%
Totale
%
70
18,3%
VOTO
VOTO
96-105
106-110
82
29
49,1%
17,4%
68
31
42,8%
19,5%
19
13
33,9%
23,2%
169
73
44,2%
19,1%
110 e lode
13
7,8%
33
20,8%
24
42,9%
70
18,3%
Totale
167
100,0%
159
100,0%
56
100,0%
382
100,0%
χ2 = ∑ ∑
i
(
nij − n ij
j
n ij
)
2
= 47,56
Chi-quadrato
Chi-quadrato di Pearson
Valore
47,559
df
Sig.
,000
6
La probabilità di errore nel rifiutare l’ipotesi
di indipendenza è quasi nulla (p<0,001).
L’ipotesi di indipendenza viene dunque
senz’altro rifiutata.
47,56
(n
∑∑
ij
i
j
− n ij
n ij
)
2
42
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
I test non parametrici
•  Il test chi-quadrato sull’adattamento ad una distribuzione nota
In 600 lanci di un dado si sono ottenuti i risultati riportati in tabella.
Determinare, con significatività α=0,05, se il dado può considerarsi truccato.
Risultato
Freq. Osservate
1
2
3
4
5
6
94
123
88
102
115
78
Dado non truccato
Distribuzione uniforme dei risultati
Risultato
1
2
3
4
5
6
Freq. Osservate
94
123
88
102
115
78
Freq. Teoriche
100
100
100
100
100
100
χ2
(n
= ∑∑
ij
i
j
− n ij
n ij
)
2
(94 − 100 )
=
2
100
(123 − 100 )
+
2
100
(88 − 100 )
+
2
100
= 0,36 + 5,29 + 1, 44 + 0,04 + 2,25 + 4,84
(102 − 100 )
+
2
100
(115 − 100 )
+
2
100
(78 − 100 )
+
2
100
= 14,22
43
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
I test non parametrici
Tavola della distribuzione
Gradi
di
libertà
χ2
Area nella coda destra
0,995
0,990
0,975
0,950
0,900
0,750
0,250
0,100
0,050
0,025
0,010
0,004
0,103
0,352
0,711
1,145
1,635
2,167
2,733
3,325
3,940
0,016
0,211
0,584
1,064
1,610
2,204
2,833
3,490
4,168
4,865
0,102
0,575
1,213
1,923
2,675
3,455
4,255
5,071
5,899
6,737
1,323
2,773
4,108
5,385
6,626
7,841
9,037
10,219
11,389
12,549
2,706
4,605
6,251
7,779
9,236
10,645
12,017
13,362
14,684
15,987
3,841
5,991
7,815
9,488
11,070
12,592
14,067
15,507
16,919
18,307
5,024
7,378
9,348
11,143
12,833
14,449
16,013
17,535
19,023
20,483
6,635
9,210
11,345
13,277
15,086
16,812
18,475
20,090
21,666
23,209
1
2
3
4
5
6
7
8
9
10
0,072
0,207
0,412
0,676
0,989
1,344
1,735
2,156
0,115
0,297
0,554
0,872
1,239
1,646
2,088
2,558
0,001
0,051
0,216
0,484
0,831
1,237
1,690
2,180
2,700
3,247
11
12
13
14
15
16
17
18
19
20
2,603
3,074
3,565
4,075
4,601
5,142
5,697
6,265
6,844
7,434
3,053
3,571
4,107
4,660
5,229
5,812
6,408
7,015
7,633
8,260
3,816
4,404
5,009
5,629
6,262
6,908
7,564
8,231
8,907
9,591
4,575
5,226
5,892
6,571
7,261
7,962
8,672
9,390
10,117
10,851
5,578
6,304
7,042
7,790
8,547
9,312
10,085
10,865
11,651
12,443
7,584
8,438
9,299
10,165
11,037
11,912
12,792
13,675
14,562
15,452
13,701
14,845
15,984
17,117
18,245
19,369
20,489
21,605
22,718
23,828
17,275
18,549
19,812
21,064
22,307
23,542
24,769
25,989
27,204
28,412
19,675
21,026
22,362
23,685
24,996
26,296
27,587
28,869
30,144
31,410
21,920
23,337
24,736
26,119
27,488
28,845
30,191
31,526
32,852
34,170
24,725
26,217
27,688
29,141
30,578
32,000
33,409
34,805
36,191
37,566
21
22
8,034
8,643
8,897
9,542
10,283
10,982
11,591
12,338
13,240
14,041
16,344
17,240
24,935
26,039
29,615
30,813
32,671
33,924
35,479
36,781
38,932
40,289
44
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
I test non parametrici
•  Il test chi-quadrato sull’adattamento ad una distribuzione nota
In 600 lanci di un dado si sono ottenuti i risultati riportati in tabella.
Determinare, con significatività α=0,05, se il dado può considerarsi truccato.
Risultato
Freq. Osservate
1
2
3
4
5
6
94
123
88
102
115
78
Dado non truccato
Risultato
Distribuzione uniforme dei risultati
1
2
3
4
5
6
Freq. Osservate
94
123
88
102
115
78
Freq. Teoriche
100
100
100
100
100
100
χ2 = ∑ ∑
i
j
(n
ij
2
2
2
2
2
2
− n%
94 − 100 )
123 − 100 )
88 − 100 )
102 − 100 )
115 − 100 )
78 − 100 )
ij )
(
(
(
(
(
(
=
+
+
+
+
+
100
100
100
100
100
100
n%
ij
2
= 0,36 + 5,29 + 1, 44 + 0,04 + 2,25 + 4,84
2
χ0,05;5
= 11,07
14,22>11,07
= 14,22
Rifiuto l’ipotesi di distribuzione uniforme
(quindi concludo che il dado è truccato)
45
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
I test non parametrici
•  Il test chi-quadrato sull’adattamento ad una distribuzione nota
In 600 lanci di un dado si sono ottenuti i risultati riportati in tabella.
Determinare, con significatività α=0,05, se il dado può considerarsi truccato.
Risultato
Freq. Osservate
1
2
3
4
5
6
94
123
88
102
115
78
Dado non truccato
Risultato
Distribuzione uniforme dei risultati
1
2
3
4
5
6
Freq. Osservate
94
123
88
102
115
78
Freq. Teoriche
100
100
100
100
100
100
χ2 = ∑ ∑
i
j
(n
ij
2
2
2
2
2
2
− n%
94 − 100 )
123 − 100 )
88 − 100 )
102 − 100 )
115 − 100 )
78 − 100 )
ij )
(
(
(
(
(
(
=
+
+
+
+
+
100
100
100
100
100
100
n%
ij
2
= 0,36 + 5,29 + 1, 44 + 0,04 + 2,25 + 4,84
p-value?
= 14,22
46
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
I test non parametrici
Tavola della distribuzione
Gradi
di
libertà
χ2
Area nella coda destra
0,995
0,990
0,975
0,950
0,900
0,750
0,250
0,100
0,050
0,025
0,010
0,004
0,103
0,352
0,711
1,145
1,635
2,167
2,733
3,325
3,940
0,016
0,211
0,584
1,064
1,610
2,204
2,833
3,490
4,168
4,865
0,102
0,575
1,213
1,923
2,675
3,455
4,255
5,071
5,899
6,737
1,323
2,773
4,108
5,385
6,626
7,841
9,037
10,219
11,389
12,549
2,706
4,605
6,251
7,779
9,236
10,645
12,017
13,362
14,684
15,987
3,841
5,991
7,815
9,488
11,070
12,592
14,067
15,507
16,919
18,307
5,024
7,378
9,348
11,143
12,833
14,449
16,013
17,535
19,023
20,483
6,635
9,210
11,345
13,277
15,086
16,812
18,475
20,090
21,666
23,209
1
2
3
4
5
6
7
8
9
10
0,072
0,207
0,412
0,676
0,989
1,344
1,735
2,156
0,115
0,297
0,554
0,872
1,239
1,646
2,088
2,558
0,001
0,051
0,216
0,484
0,831
1,237
1,690
2,180
2,700
3,247
11
12
13
14
15
16
17
18
19
20
2,603
3,074
3,565
4,075
4,601
5,142
5,697
6,265
6,844
7,434
3,053
3,571
4,107
4,660
5,229
5,812
6,408
7,015
7,633
8,260
3,816
4,404
5,009
5,629
6,262
6,908
7,564
8,231
8,907
9,591
4,575
5,226
5,892
6,571
7,261
7,962
8,672
9,390
10,117
10,851
5,578
6,304
7,042
7,790
8,547
9,312
10,085
10,865
11,651
12,443
7,584
8,438
9,299
10,165
11,037
11,912
12,792
13,675
14,562
15,452
13,701
14,845
15,984
17,117
18,245
19,369
20,489
21,605
22,718
23,828
17,275
18,549
19,812
21,064
22,307
23,542
24,769
25,989
27,204
28,412
19,675
21,026
22,362
23,685
24,996
26,296
27,587
28,869
30,144
31,410
21,920
23,337
24,736
26,119
27,488
28,845
30,191
31,526
32,852
34,170
24,725
26,217
27,688
29,141
30,578
32,000
33,409
34,805
36,191
37,566
21
22
8,034
8,643
8,897
9,542
10,283
10,982
11,591
12,338
13,240
14,041
16,344
17,240
24,935
26,039
29,615
30,813
32,671
33,924
35,479
36,781
38,932
40,289
47
Universitàdi
Università
diNapoli
NapoliFederico
Federico
II,II,
Facoltà
Facoltà
di Economia,
di Economia,
AnnoAnno
accademico
accademico
2011-’12,
2005-’06,
Corso diCorso
STATISTICA
di Statistica
(A-D) di base (A-D)
m.
m. gherghi
gherghi
Lezione 22 – La verifica delle ipotesi
I test non parametrici
•  Il test chi-quadrato sull’adattamento ad una distribuzione nota
In 600 lanci di un dado si sono ottenuti i risultati riportati in tabella.
Determinare, con significatività α=0,05, se il dado può considerarsi truccato.
Risultato
Freq. Osservate
1
2
3
4
5
6
94
123
88
102
115
78
χ2
2,5%
12,8
15,1
1,0%
∑∑
i
14,2
j
(n
ij
− n%
ij )
n%
ij
= 14,22
p-value?
La probabilità di errore nel rifiutare
l’ipotesi di indipendenza, sulla base
del valore campionario osservato
(14,22), è dunque pari a circa 0,015.
2
48