Verifica delle ipotesi

La verifica delle ipotesi statistiche
Problema pratico:
Quale, tra diverse situazioni possibili, riferite alla popolazione, è
quella meglio sostenuta dalle evidenze empiriche?
Coerenza del
popolazione:
risultato
campionario
con
un’ipotesi
specificata
per
la
se il risultato campionario si verrà a trovare talmente lontano dal valore
teorizzato per  da cadere in un insieme di valori ritenuti non “coerenti” (in
quanto troppo poco probabili) con l’ipotesi su , tale risultato avvalorerà la
possibilità di ipotesi alternative a quella specificata.
Test statistico
=
regola di decisione
che ad ogni valore campionario associa una decisione sul parametro
.
La logica della verifica delle ipotesi
Punto di partenza:
Informazione su un parametro
Campione
Ipotesi sul parametro:  = 0
• Conferma l’ipotesi
• Non conferma l’ipotesi
Punto di arrivo:
Decisione sul valore del parametro ipotizzato
H0: l’ipotesi sul parametro è vera
La vera distribuzione è centrata su 0
0
H1: l’ipotesi sul parametro è falsa
La vera distribuzione non è centrata su 0
1
TEST
Richiamando gli intervalli di confidenza:
Dati:
un campione X1, …, Xn,
un parametro  ed
una statistica Tn, il cui valore calcolato sul campione è tn
La probabilità:
P      tn       1  
ha un senso solo se il valore di  è noto (nel qual caso non ha utilità)
A meno che…
Se  è noto:
Prima di estrarre il campione tn non è fisso bensì una v.c. campionaria (Tn),
quindi si può ragionare sulla probabilità che Tn assuma valore compreso
(ossia che tn cada) in un certo intervallo intorno a .
A che scopo?
Per stabilire se la nostra conoscenza su  è avvalorata dall’evidenza empirica
(cioè dal campione)
Esempio: tn = media campionaria
x
 2 
N  ,

n



 

P    z 
 Xn    z 
 1
2
2
n
n


x
  z 2

n
L’intervallo è fisso, perché è centrato su 
x varia al variare del campione tra tutti i possibili campioni,
 è fisso

  z 2

n
X
Le ipotesi statistiche
Ipotesi statistica:
affermazione che specifica completamente o parzialmente
la distribuzione di probabilità di una v.c. X.
Ipotesi nulla H0:
Informazione sulla popolazione riconosciuta come valida fino a prima all’esperimento
campionario (valida fino a prova contraria):
H0 :  =  0
Ipotesi alternativa H1:
Complemento all’ipotesi nulla. È costituita da un singolo valore o da un insieme di valori
possibili per  e considerati alternativi a 0:
H1 :  =  1
Ipotesi
semplice
H1 :  <  0
H1 :  >  0
Ipotesi unidirezionale
Le ipotesi H0 e H1 sono esaustive e disgiunte: o vale l’una o vale l’altra.
In ogni caso la decisione è presa rispetto ad H0
H1 :    0
Ipotesi
bidirezionale
Test e regole di decisione
Il test permette di stabilire se le osservazioni campionarie
debbano ritenersi coerenti con l’ipotesi nulla oppure no
Da un punto di vista operativo, effettuare il test significa definire una
statistica, detta statistica-test Tn, la cui distribuzione campionaria sia
nota, così che:
campione casuale
(X1, …, Xn)
un valore numerico
Spazio campionario: insieme dei valori che la
statistica-test può assumere
Distribuzione campionaria: Distribuzione di probabilità
della statistica-test
coerente con H0
non coerente con H0
Errori di I e II specie
Indipendentemente dalla regola adottata, il test porta sempre a dover
scegliere tra due possibili decisioni, H0 e H1 e a poter commettere due
possibili errori:
• rifiutare un’ipotesi vera
• accettare un’ipotesi falsa
H0
Vera
Falsa
Accetto
Ok
Errore di II specie
Rifiuto
Errore di I specie
Ok
Esempio:
H0: piove
Piove
Non piove
Ombrello
SI
Ok
Danno meno grave
Ombrello
NO
Danno più grave
Ok
N.B.: non esiste la decisione “giusta”!!!
c’è sempre il rischio di sbagliare, ma è possibile gestirlo e controllarlo
QUANTIFICANDOLO
Rischio di errori di I e II specie
H0
Vera
Falsa
Accetto
Ok
Errore di II
specie
Rifiuto
Errore di I
specie
Ok
Vera
Falsa
1-

H0
Accetto
H0 :  = 0
H1 :  = 1
H0 vera

0
H0 falsa

Rifiuto

1-
1
Definizioni:
 = probabilità di errore di I specie = livello di significatività del test
1 -  = probabilità di accettare correttamente (affidabilità del test)
 = probabilità di errore di II specie
1 -  = potenza del test = probabilità di rifiutare correttamente (varia al
variare di 1, quindi può essere determinato solo se H1 è un’ipotesi
“semplice”)
Approccio “conservativo” del test
L’ipotesi nulla è quella che, se vera, lascia invariate le cose
L’errore di I specie è considerato più grave di quello di II specie
Mai lasciare la via vecchia (H0) per la nuova (H1)…
… fino ad EVIDENTE prova contraria
Esempi:
H0: vecchio farmaco migliore del nuovo
H0: Tizio è innocente
H1: nuovo farmaco migliore del vecchio
H1: Tizio è colpevole
H0
Vecchio
Nuovo
Il vecchio
è migliore
Il nuovo è
migliore
Ok
Danno meno
grave
Danno più
grave
ok
H0
Assolvo
Condanno
Innocente
Colpevole
Ok
Danno meno
grave
Danno più
grave
ok
È per questo che:
L’ipotesi nulla e l’ipotesi alternativa non sono equivalenti ai fini della decisione, nel senso
che il test non è mai conclusivo circa H1, ma concerne solo la possibilità che dal campione si
possa pervenire al rifiuto o al non rifiuto di H0.
Come prendere la decisione
Una volta calcolato il valore campionario tn della statistica-test, detto valoretest, si può seguire una delle due seguenti procedure alternative:
Livello di significatività osservato
(approccio di Fisher):
si cerca (sulle tavole) il p-value, ossia la
probabilità di ottenere un valore di Tn
maggiore del valore osservato tn (P[Tn > tn])
p-value
p-value = grado di coerenza di H0

tn
Regione critica (approccio di NeymannPearson):
si fissa “a priori” il livello di significatività del
test 1 - , che identifica sulla distribuzione
della statistica-test due regioni:
?
Tn
tn
1-
Regione di accettazione:
insieme dei valori di Tn coerenti con H0
Regione di rifiuto (o regione critica):
insieme di valori di Tn non coerenti con H0


t
Tn
Accettazione
Rifiuto
Regione critica per un test statistico con
ipotesi alternativa unidirezionale:
?
tn
1-
H0 :  = 0
H1 :  > 0

0
t
Tn
Accettazione
Rifiuto
Regione critica per un test statistico con
ipotesi alternativa bidirezionale:
tn
H0 :  = 0
H1 :   0
1-
/2
/2
-t/2
0
t/2
Tn
Accettazione
Rifiuto
Rifiuto
Verifica di ipotesi sulla media 
X ~ N(, 2)
2 nota
La decisione si basa sui valori critici
Con essi va confrontato il valore-test (valore della statistica-test calcolata sul
campione)
I valori critici sono ottenuti dalla distribuzione della statistica-test, fissato il
livello di significatività desiderato per il test
Per la media:


X




P  z  n
 z   1  

2
2


n


Valori critici
Statistica-test
Esempio
La frequenza cardiaca dei maschi giovani sani segue una distribuzione Normale con media
 = 72 battiti al minuto (bpm) e varianza 2 = 64.
Si misura la frequenza cardiaca su un campione di 25 atleti maschi e si ottiene una media
pari a 68,7 bpm.
Si verifichi, ad un livello di significatività del 5%, che la frequenza cardiaca degli atleti non
sia diversa da quella della popolazione di tutti i maschi sani.
Soluzione
test sulla media, bilaterale
distribuzione normale, varianza nota
Ipotesi
Statistica test
Valori critici
Regola di decisione
=8
x  68,7
 = 0,05
/2 = 0,025
n = 25
H0:  = 72
H1:  ≠ 72
X test 
x

n
z 2  1,96
- 1,96 ≤ vtest ≤ 1,96
vtest < -1,96 oppure vtest > 1,96
Valore test (vtest)
vtest 
Decisione
2 = 64
68,7  72
8 25
-2,06 < -1,96
 2,06
 si rifiuta H0
 si accetta H0
 si rifiuta H0
Esempio
La quantità di merci in transito negli aeroporti italiani si distribuisce normalmente con una
media pari a 18,7 (migliaia di tonnellate) e uno scarto quadratico medio pari a 8.
In un campione di 20 aeroporti viene registrato un valore medio pari a 15.
Utilizzando un livello di significatività dell’1%:
a) Verificare l’ipotesi che il transito medio di merci sia rimasto invariato;
b) Verificare l’ipotesi che il transito medio di merci non sia diminuito
Soluzione
a)
test sulla media, bidirezionale
distribuzione normale, varianza nota
Ipotesi
Statistica test
Valori critici
Regola di decisione
Valore test (vtest)
Decisione
=8
x  15
 = 0,01
/2 = 0,005
n = 20
H0:  = 18,7
H1:   18,7
X test 
x

n
z 2  z0,005  2,58
- 2,58 ≤ vtest ≤ 2,58
vtest < - 2,58 oppure vtest > 2,58
vtest 
15  18,7
8
20
 si accetta H0
 si rifiuta H0
 2,07
- 2,58 ≤ -2,07 ≤ 2,58
 si accetta H0
b)
test sulla media, unidirezionale
distribuzione normale, varianza nota
Ipotesi
Statistica test
H0:  = 18,7
H1:  < 18,7
X test 
x

n
Valore critico
z  z0,01  2,33
Regola di decisione
vtest ≥ - 2,33
vtest < - 2,33
Valore test (vtest)
Decisione
vtest 
15  18,7
8
20
- 2,07 ≥ - 2,33
 si accetta H0
 si rifiuta H0
 2,07
 si accetta H0
Verifica di ipotesi sulla media 
X ~ N(, 2)
2 non nota


X 


P  t  n1  n
 t  n1   1  
s
2
2


n


Valori critici
Statistica-test
Come scegliere la statistica-test per
la media?
X~N
no
n > 30
no
???
si
si
 noto
si
X 

n
~ N 0,1
no
X 
~ tn 1
s
n
Esempio
La frequenza cardiaca dei maschi giovani sani segue una distribuzione Normale con media
 = 72 battiti al minuto (bpm).
Si misura la frequenza cardiaca su un campione di 12 atleti maschi e si ottiene una media
pari a 68,7 bpm ed una varianza corretta pari a 75,12.
Si verifichi, ad un livello di significatività del 5%, che la frequenza cardiaca degli atleti non
sia diversa da quella della popolazione di tutti i maschi sani.
Soluzione
test sulla media, bidirezionale
distribuzione normale,
varianza non nota
Ipotesi
H0:  = 72
H1:  ≠ 72
Statistica test
xtest 
Valori critici
Regola di decisione
Valore test (vtest)
Decisione
2
s  75,12
 = 0,05
s = 8,67
x  68,7
/2 = 0,025
n = 12
x  0
s
n
t0,025;11  2,201
- 2,201 ≤ vtest ≤ 2,201
vtest ≤ -2,201 oppure vtest ≥ 2,201
vtest 
68,7  72
8,67
12

 si accetta H0
 si rifiuta H0
3,3
 1,32
2,5
- 2,201 ≤ -1,32 ≤ 2,201
 si accetta H0
Verifica di ipotesi sulla proporzione 


P  z 

2




p
 z   1  
2
 1   

n

Valori critici
Statistica-test
Esempio
In una scommessa con un amico, lanciando 100 volte una moneta si sono ottenute 54 teste.
Abbiamo il sospetto che l’amico ci abbia ingannati utilizzando una moneta truccata.
Si verifichi questa ipotesi ad un livello di significatività del 10%.
Soluzione
test sulla proporzione, bidirezionale
(unidirezionale)
Ipotesi
H0:  = 0,5
H1:  ≠ 0,5
p  0
 = 0,10
x test 
Valori critici
z0,05  1,645
Regola di decisione
- 1,645 ≤ vtest ≤ 1,645
vtest ≤ -1,645 oppure vtest ≥ 1,645
0  1  0 
n
z
0,1
 1,28
( vv
test
test
0,54  0,50
0,50  1  0,50 
 si accetta H0
 si rifiuta H0
≤ 1,28
> 1,28
 0, 80
-1,645 ≤ -0,8 ≤ 1,645
(0,80 < 1,28
)
 si accetta H0
 si rifiuta H0
100
Decisione
n=100
(H1:  > 0,5)
Statistica test
Valore test (vtest)
p =0,54
 si accetta H0
 si accetta H0)
Verifica di ipotesi sulla differenza tra 2 medie
XeY~N
no
no
nx e ny
> 30
???
si
si
X e 
note
Y
no
X = 
 X  Y   
no
Y
x
2
s2x sy

nx ny
 y

~ t n  n  2 
x
y
si
 X  Y   
X = 
no
Y
si
x
 y
1
1


nx ny
 y

1
1
s

nx ny
si
 X  Y   
x

~ N  0,1
 X  Y   
x
 y
2
2x y

nx ny

~ t n  n  2 
x
y
~ N  0,1
s
s2X  nX  1  s2Y  nY  1
nx  ny  2
Stimatore corretto dello sqm comune
A cosa serve il test sulla differenza tra 2 medie?
Se su due campioni X ed Y su cui si osserva lo stesso fenomeno si
calcolano le rispettive medie (campionarie) esse presenteranno
quasi certamente due valori numericamente diversi.
Il problema è: tale differenza è “significativa”, cioè dovuta ad una
differenza strutturale tra i due campioni, oppure è dovuta ad una
naturale oscillazione della media, data la variabilità del fenomeno?
Esempio
Gli pneumatici di due diverse marche, X e Y, di uguale prezzo, sono garantiti dalle case
costruttrici per la stessa durata media di 35.000 km e una deviazione standard di 2.000
km, uguale per le due marche.
Da un campione di 14 utilizzatori della marca X risulta una durata media di 33.500 Km,
mentre da uno di 9 utilizzatori della marca Y risulta una durata media di 36.000 Km.
Supponendo che la durata degli pneumatici si distribuisca secondo una legge Normale, si
verifichi se esiste tra le due marche una differenza significativa al 5%.
Soluzione
test sulla differenza tra medie, bidirezionale
distribuzione Normale, varianze note uguali
Ipotesi
H0: x = Y
H1: X ≠ Y
Statistica test
x test 
 X  Y   

x
 y
y  36.000
nX=14
X = Y = 2.000
1
1

nx ny
Regola di decisione
- 1,96 ≤ vtest ≤ 1,96
vtest ≤ -1,96 oppure vtest ≥ 1,96
Decisione
x  33.500

z0,025  1,96
v test 
X, Y ~ N
nY=9
Valori critici
Valore test (vtest)
 = 0,05
33500  36000
1
1
2000 

14 9
- 2,93 < -1,96
 2, 93
 si rifiuta H0
 si accetta H0
 si rifiuta H0
Esempio
Gli pneumatici di due diverse marche, X e Y, di uguale prezzo, sono garantiti dalle case
costruttrici per la stessa durata media di 35.000 km e la stessa varianza incognita.
Da un campione di 14 utilizzatori della marca X risulta una durata media di 33.500 Km ed
una varianza pari a 4.326.400, mentre da uno di 9 utilizzatori della marca Y risulta una
durata media di 36.000 Km ed una varianza pari a 3.880.900.
Supponendo che la durata degli pneumatici si distribuisca secondo una legge Normale, si
verifichi se esiste tra le due marche una differenza significativa al 5%.
Soluzione
test sulla differenza tra medie, bidirezionale
distribuzione Normale,
varianze non note uguali
 = 0,05
X~N
x  33.500
y  36.000
nY=9
s2X  4.326.400
nX=14
s2Y  3.880.900
Ipotesi
Statistica test
H0: x = Y
H1: X ≠ Y
x test 
 X  Y   
x
 y

con: s 
1
1
s

nx ny
Valori critici
t0,025;21  2,08
Regola di decisione
- 2,08 ≤ vtest ≤ 2,08
vtest ≤ - 2,08 oppure vtest ≥ 2,08
s
Valore test (vtest)
Decisione
s2X  nX  1  s2Y  nY  1
nx  ny  2
 si accetta H0
 si rifiuta H0
13  4.326.400  8  3.880.900
 2038,8
14  9  2
v test 
33.500  36.000
1
1
2038, 8 

14 9
- 2,87 < -2,08

2500
1
1
2038, 8 

14 9
 si rifiuta H0
 2, 87
Esempio
Gli pneumatici di due diverse marche, X e Y, di uguale prezzo, sono garantiti dalle case
costruttrici per la stessa durata media di 35.000 km ma con varianze diverse e
incognite.
Da un campione di 14 utilizzatori della marca X risulta una durata media di 33.500 Km ed
una varianza pari a 4.326.400, mentre da uno di 9 utilizzatori della marca Y risulta una
durata media di 36.000 Km ed una varianza pari a 3.880.900.
Supponendo che la durata degli pneumatici si distribuisca secondo una legge Normale, si
verifichi se esiste tra le due marche una differenza significativa al 5%.
Soluzione
test sulla differenza tra medie, bidirezionale
distribuzione Normale,
varianze non note diverse
 = 0,05
X~N
x  33.500
y  36.000
nY=9
s2X  4.326.400
nX=14
s2Y  3.880.900
Ipotesi
H0: x = Y
H1: X ≠ Y
Statistica test
xtest 
 X  Y   
x
 y

2
s2x sy

nx ny
Valori critici
t0,025;21  2,08
Regola di decisione
- 2,08 ≤ vtest ≤ 2,08
vtest ≤ - 2,08 oppure vtest ≥ 2,08
Valore test (vtest)
Decisione
v test 
33.500  36.000
4.326.400 3.880.900

14
9
- 2,91 < -2,08
 si accetta H0
 si rifiuta H0
 2, 91
 si rifiuta H0
Esempio
Nelle 22 regioni italiane si misura il livello di inquinamento ambientale con il numero di
denunce emesse dalla popolazione residente.
Nelle 10 regioni del Nord risultano in media 29.21 denunce con s.q.m. 6, mentre nelle
12 del Centro-Sud la media è 33.06 con s.q.m. 6.
Ipotizzando che il numero di denunce segua una distribuzione Normale, verificare
l’ipotesi che le due aree geografiche siano caratterizzate dallo stesso livello di
inquinamento al livello di significatività del 5%
xy
3.85
Valore test
1.499
Valore critico
1.725
g.d.l.
a
Decisione:
20
0.05
Si accetta H0
H0: |x - Y|= 0
H1: |X - Y|> 0
IC95%(|mx-my|) = [ -1.4 ; 9.1 ]
Contiene lo 0
La spezzata delle medie
Y
X
AREA
Geografica
Classi di REDDITO
Totale
20-30
Medie
30-40
NORD
2
6
8
32.5
CENTRO
2
4
6
31.7
SUD
6
0
6
25
10
10
20
30
Totale
Decomposizione della varianza
La varianza di X è data dalla somma di due componenti:
• varianza esterna = varianza delle medie di gruppo
• varianza interna = media delle varianze di gruppo
Quanto differiscono
le medie tra loro e
rispetto alla media
generale?
Se:
G = numero di gruppi;
j = media dell’j-esimo gruppo;
nj = numerosità dell’j-esimo gruppo (j = 1,….,G);
allora:
2

1 G 2
1 G

 j nj 
j  


n j 1
n j 1

VARIANZA
INTERNA
ossia:
2
2TOT  2INT  EX
T
VARIANZA
ESTERNA

2
nj
A cosa serve scomporre la varianza?
n. bot
Media e varianza costanti
• Varianza delle medie 2ext = 0
• Media delle varianze 2int = 2
Stesso comportamento tra le
due distribuzioni:
CH
MM
scelta
il numero di bottiglie acquistate è
lo stesso per chi sceglie le due
marche
Medie diverse, varianza costante
n. bot
• Varianza delle medie 2ext ≠ 0
• Media delle varianze 2int < 2
Diverso comportamento tra le
due distribuzioni:
CH
MM
scelta
il numero di bottiglie acquistate è
diverso a seconda della marca
scelta
Rapporto di correlazione di Pearson
X

x0 – x1
x1 – x2
…
Classe jma
…
xh-1 - xh
tot
y1
n11
n12
…
…
…
n1h
n1.
y2
.
.
.
yi
.
.
.
n21
n22
…
…
n2h
.
.
.
.
.
.
.
.
.
…
.
.
.
nij
.
.
.
.
.
.
.
.
.
n2.
.
.
.
ni.
.
.
.
yk
nk1
nk2
…
…
…
nkh
nk.
tot
n.1
n.2
…
n.j
…
n.h
n
Y
Quando X è quantitativo:
r
X|Y 
2
EXT
X
2X

 
i
i 1
j 1
2
j

  X n j
2
c
  x  ni
2
c
  x̂
Quando Y è quantitativo:
Y|X 
2
EXT
Y
2Y

 
j 1
j
r
 y
i 1
i

  Y n j
2
  Y  ni
N.B.:
Su una tabella mista è possibile misurare anche l’indipendenza assoluta con
l’indice del 2
Proprietà e interpretazione
0  X|Y  1
X|Y  0
Perfetta indipendenza in media:
le medie delle distribuzioni condizionate di X sono tutte
uguali tra loro ed uguali alla media generale (μX)
X|Y  1
Perfetta dipendenza in media:
le varianze delle distribuzioni condizionate di X sono nulle. Ad
ogni modalità di Y corrisponde una sola intensità di X che
presenta frequenza non nulla
Y|X  X|Y
L’indice non è simmetrico (salvo eccezioni)
Esempio
Fatturato (Y)
Settore
Merceologico (X)
≤ 200
Alimentari
200-|300
300-|400
400-|500
>500
Totale
11
1
5
1
3
21
Bevande
1
1
0
1
0
3
Healt Care
6
1
1
2
2
12
Ice Packaging
7
2
1
1
3
14
25
5
7
5
8
50
Totale
X 4 modalità
r
Y 5 classi (2 aperte)
Y|X 
2
EXT
Y
2Y

 
i
i 1
j 1
  Y  ni
2
c
  ŷ
2
j

  Y n j
1. Media generale di Y:
1
Y 
n
h
 ŷ n
j 1
j j

150  25  250  5  350  7  450  5  1256  8
50
 394,96
Nota:
Il valore centrale della prima classe (aperta) è stato ottenuto considerando che, nella successione di
valori del carattere fatturato, i valori più bassi sono di poco superiori a 100 (che si assume, quindi,
come estremo inferiore della classe); quello dell’ultima classe è ottenuto considerando come estremo
superiore della classe il valore massimo effettivamente osservato:
(2012 + 500)/2 = 1256
2. Medie di Y condizionate alle modalità di X
1
1 
n1
c
 ŷ jn1j 
1
4 
n4
21
j 1
1
2 
n2
1
3 
n3
150  11  250  1  350  5  450  1  1256  3
c
 ˆy jn2j 
j 1
c
 ŷ jn3j 
 ŷ jn4j 
j 1
3
 266,67
150  6  250  1  350  1  450  2  1256  2
j 1
c
150  1  250  1  450  1
12
 384,33
150  7  250  2  350  1  450  1  1256  3
14
 348, 48
 412
3. Confronto tra le medie condizionate
1  348, 48
2  266,67
3  384,33
4  412
Commento: si può vedere che le medie delle distribuzioni condizionate differiscono
dalla media generale di Y, quindi i due caratteri non sono indipendenti in media.
Ma quanto è forte il legame di dipendenza in media?
4. Calcolo del numeratore dell’indice
r
 
i 1
i
2
  Y  ni  348, 48  394,96  21  266,67  394,96  3 
2
2
 384,33  394,96  12   412  394, 96  14  99.464,14
2
2
5. Calcolo del denominatore dell’indice
c

j 1
2

ŷ j   Y n j  150  394,96  25  250  394,96  5 
2
2
 350  394,96  7   450  394,96  5  1.256  394,96  8  7.565.618
2
2
2
6. Calcolo dell’indice
r
Y|X 
2
EXT
Y
2Y

 
i 1
i
j 1
  Y  ni
2
c
  ŷ
2
j


  Y n j
99.464,14
 0, 013
7.565.618
La dipendenza in media del carattere FATTURATO dal carattere SETTORE MERCEOLOGICO
è praticamente nulla
ossia:
il fatturato in media non dipende dal settore merceologico
Il test F
Ipotesi:
H0: mi = mj
 i,j = 1, …, G
le medie sono uguali in tutti i gruppi
H1: mi  mj
H0
H1
almeno una media differisce
dalle altre
Se le medie sono uguali, la varianza tra i gruppi è nulla:
Più le medie differiscono, più:
DevEXT  Dev TOT
DevEXT  0
DevINT  Dev TOT
DevINT  0
Statistica test:
 DevEXT /  G  1

P
 FG 1;n  G;   1  
 DevINT / n  G



Statistica-test
Valore critico
Più basso è il rapporto, più realistica è l'ipotesi nulla
Più elevato è il rapporto, meno realistica è l'ipotesi nulla
Il test F
Ipotesi:
H0: mi = mj
 i,j = 1, …, G
H1: mi  mj
H0:
H1:
DevEXT /  G  1
DevINT / n  G
DevEXT /  G  1
DevINT / n  G
le medie sono uguali in tutti i gruppi
almeno una media differisce
dalle altre
0
H0:  = 0
H1:  > 0
0
Fatturato e settore merceologico
H0: mi = mj
 i,j = 1, …, G
le vendite medie sono uguali in tutti i settori
H1: mi  mj
almeno una media differisce dalle altre
ANOVA
Source
Fra gruppi
DF
Sum of squares
Mean squares
3
99464.14
33154.71
Entro gruppi
46
162307.7
Totale
49
7466153.86
7565618.00
F
0.204271
F
Decisione:
Il p-value è molto alto:
0,89
0,204
2
EXT
2INT
Basso valore di F = bassa 2EXT = medie vicine
Si accetta l’ipotesi di vendite medie
uguali tra i settori, confermata dal
campione osservato.
Pr > F
0.892917
Y
X
AREA
Geografica
Classi di REDDITO
Totale
20-30
Medie
30-40
NORD
2
6
8
32.5
CENTRO
2
4
6
31.7
SUD
6
0
6
25
10
10
20
30
Totale
Source
Fra gruppi
Il p-value è basso:
Si rifiuta l’ipotesi
reddito medio uguale
nelle tre le aree
geografiche.
ANOVA
Sum of
squares
DF
Mean
squares
2
217.34
108.67
Entro gruppi
17
282.66
16.63
Totale
19
500
F
6.5357
Pr > F
0.0078
Verifica dell’ipotesi di indipendenza
H0: X ed Y sono indipendenti
H1: X ed Y non sono indipendenti
Ipotesi di indipendenza in media
ANOVA: test F H0:  = 0
H1:  > 0
Ipotesi di indipendenza assoluta
Test del 2 H0: 2 = 0
H1: 2 > 0
Ipotesi di indipendenza lineare
Test su 
H0:  = 0
H1:  > 0
Test su
R2
H0: R2 = 0
H1: R2 > 0
Verifica di ipotesi sull’indipendenza assoluta tra due caratteri
nij  nij 

2

i
j

nij  nij

P 
 i j
nij

2
r 1  c 1

nij

2
Statistica-test

2
;r 1  c 1

 1


Valore critico
0.5
La variabile 2 è continua, non può
essere negativa e varia tra zero e
0.4
infinito. La sua forma e il suo centro
dipendono dal numero di gradi di libertà.
La sua forma funzionale è:
f(x;g) 
1
 x
exp
 2 x
g
g




22   
2
0.3
0.2
g
1
2
g=2
g=4
0.1
g=8
0.0
5
10
15
20
Verifica di ipotesi sull’indipendenza tra due caratteri
Conteggio
VOTO
VOTO Meno di 96
96-105
106-110
110 e lode
Totale
OCCUPAZIONEATTUALE
ATTUALE
OCCUPAZIONE
Non occupato
Precario
Occ. stabile
22
19
29
61
57
51
25
23
25
22
20
28
130
119
133
Totale
70
169
73
70
382

2


i
n
ij
 nij

2
 3,84
nij
j
 = 0,05
H0: X ed Y indipendenti
H1: X ed Y non indipendenti
Ipotesi
Distribuzione del chi-quadro

2
0,05;6
 12,59
1-
3,84
Zona di
accettazione

12,59

i
Zona di rifiuto
j
n
ij
 nij
nij

2
H0: 2 = 0
H1: 2 > 0
n
Statistica
test
x test 
Valore
critico
20,05; 6
Regola di
decisione
vtest  12,59
vtest > 12,59

i
ij
 nij 
2
nij
j
 12,59
n
Valore test
(vtest)
vtest 
Decisione
3,84 < 12,59

i
 si accetta H0
 si rifiuta H0
j
ij
 nij 
2
nij
 3, 84
 si accetta H0
Verifica dell’ipotesi di indipendenza lineare
Modello di regressione lineare semplice
Fasi del modello:
Specificazione del modello:
 scelta del tipo di funzione da utilizzare per descrivere un fenomeno;
 definizione delle ipotesi di base
Stima dei parametri:
uso di stimatori dei parametri caratteristici della funzione scelta
Verifica:
 della significatività delle stime
 del rispetto delle ipotesi di base (rimozione delle ipotesi,
analisi dei residui)
Uso del modello:
ai fini per i quali è stato specificato (descrittivi, previsivi, ecc.)
45
IPOTESI DI BASE DEL MODELLO DI REGRESSIONE
Ipotesi deboli:
1.
2.
3.
4.
5.
Necessarie perché le stime godano di proprietà ottimali, ossia siano
non distorte e a varianza minima (BLUE, Teorema di Gauss-Markow)
yi =  + xi + i
E(i) = 0
var(i) = var(yi) = 2
cov(i, j) = 0 (i  j)
X nota e senza errore
Ipotesi forte:
Varianza costante, omoschedasticità
Assenza di autocorrelazione
X non stocastica
Necessaria per verificare la significatività delle stime
6.   N(0, 2)
La varianza di  (o di y) 2 rientra tra i parametri da stimare
Se ci fosse correlazione tra gli errori significherebbe che esistono altri fattori oltre a X ad
influenzare Y, esclusi dal modello. Inoltre implicherebbe un legame anche tra le yi
L’ipotesi distribuzionale (6) è fondamentale nella fase inferenziale
46
RAPPRESENTAZIONE GRAFICA DEL MODELLO
Y
f()
E(Y|X) = a + bx
x1
x2
x3
x4
X
Distribuzioni degli errori (intorno alla stima di Y):
 media 0,
 varianza costante,
 indipendenti,
 distribuiti Normalmente
yi i.i.d. con media e varianza costanti
47
VERIFICA DEL MODELLO
Significatività dell’R2
H0: R2  0
H1: R2 > 0
xtest 
a
dev reg
dev  e  n  2

R 2 n  2 
1  R2
F1;n 2
Fa,1,n-2
Significatività di a e di b
H0 :   0
H1 : b  0
xtest 
b
sb
tn2
a/2
H0 :   0
H1 : a  0
xtest 
a
sa
tn 2
a/2
-ta/2,n-2
ta/2,n-2
48
Varianze della regressione
1 n 2
s 
ei

n  2 i 1
2
Varianza dei residui:
cod  X, Y 
2
R2 
dev  X  dev  Y 
1
Varianza di b:
standard della
regressione
dev  e 
dev  y 
Devianza dei residui:
Varianza di a:
s  errore
dev  e   1 

2 
s
1 
s2a 
n 

sb2  s2
cod  X, Y 
dev  X 


x2

n
2
x

x
 i  

i 1

1
n
 x
i 1
2
i
 x
2
sa  errore
standard
della stima
di 
sb  errore
standard
della stima
di 
49
Da un campione di 7 aziende risultano i seguenti valori del numero totale di dipendenti (X) e del numero di dipendenti laureati (Y):
Dip. totali (X)
5
8
10
11
7
9
6
Dip. Laureati (Y)
3
5
7
6
4
3
2
a)Disegnare la retta di regressione di Y su X;
b)misurare la bontà dell’adattamento;
c)sapendo che
s2 
1 n 2
 ei  3,89
n  2 i 1
verificare la significatività del modello al livello dell’1%
xi
yi
5
x  x y  y x  x
2
y  y
2
i
x  x  y  y
i
i
3
-3
-1,29
9
1,65
3,86
8
5
0
0,71
0
0,51
0
10
7
2
2,71
4
7,37
5,43
11
6
3
1,71
9
2,94
5,14
7
4
-1
-0,29
1
0,08
0,29
9
3
1
-1,29
1
1,65
-1,29
6
2
-2
-2,29
4
5,22
4,57
56
30
0
0
28
19,43
18
i
i
i
b
cov  x, y 
2
x


cod  x, y 
dev  x 

18
 0, 64
28
a  y  bx  4,29  0,64  8  -0, 86
Equazione della retta:
x
y
y  0,86  0,64x
0
-0,86
8
4,29
 cov  x, y   cod  x, y   2
devREG
devRES
R 
1

dev  y 
dev  y 
dev  x   dev  y 
2x  2y
2
2
R2 
182
 0, 6
28  19, 43
2
Test su R2, unilaterale
Ipotesi
Statistica test
Valore critico
H0: R2 = 0
H1: R2 > 0
X test
R 2 n  2 
devREG


devRES n  2
1  R2
F0,01;1;5 = 16,258
Regola di decisione vtest ≤ 16,258
vtest ≥ 16,258
Valore test
Decisione
F1;n 2
vtest 
 si accetta H0
 si rifiuta H0
0,6  5
 7,36
1  0,6
7,36 ≤ 16,258
 si accetta H0
La relazione lineare tra y ed x non è significativa
Si rifiuta il modello lineare
F0,05;1;5 = 6,608
ANOVA
Source
DF
Sum of
squares
Mean
squares
Model
1
11.571
11.571
Error
5
7.857
1.571
Corrected Total
6
19.429
F
Pr > F
7.364
0.042
Significatività dei coefficienti
Source
Intercept
x
Value
Standar
d error
t
Pr > |t|
Lower
bound
(95%)
Upper
bound
(95%)
-0.857
1.954
-0.439
0.679
-5.879
4.165
0.643
0.237
2.714
0.042
0.034
1.252
Test su b, bilaterale
Ipotesi
Statistica test
H0 : b = 0
H1 : b ≠ 0
Xtest 
b
s
tn2
in cui:
s  s2
1

n
i 1
xi  x

2
Valori critici
 t0,005;5 =  4,032
Regola di
decisione
- 4,032 ≤ vtest ≤ 4,032
 si accetta H0
vtest ≤ - 4,032 oppure vtest ≥ 4,032 si rifiuta H0
Valore test
vtest 
Decisione
0,64
 1,72
0,37
- 4,032 ≤ 1,72 ≤ 4,032
s  1,57
1
 0,37
28
 si accetta H0
La relazione lineare tra y ed x non è significativa
Si rifiuta il modello lineare
Test su a, bilaterale
Ipotesi
Statistica test
Valori critici
H0 : a = 0
H1 : a ≠ 0
Xtest 
a
s
tn2
s 

s 
1 
n 



x

2
xi  x 

2
2

n
i 1

 t0,005;5 =  4,032
 si accetta H0
Regola di decisione - 4,032 ≤ vtest ≤ 4,032
vtest ≤ - 4,032 oppure vtest ≥ 4,032 si rifiuta H0
Valore test
Decisione
s 
3,89 
82 
1


  1,35
7 
28 
- 4,032 ≤ -0,63 ≤ 4,032
vtest 
0, 86
 0, 63
1,35
 si accetta H0
Verifica di ipotesi sul confronto tra due varianze