Elementi di statistica inferenziale classica Lucio Barabesi

Elementi di statistica inferenziale classica
Lucio Barabesi
Indice
1
Il campionamento
1.1 Il modello statistico
1.2 Le statistiche
1.3 La verosimiglianza statistica
1
1
4
9
2
La stima per punti
2.1 Introduzione
2.2 Gli stimatori corretti
2.3 Gli stimatori coerenti
2.4 Gli stimatori efficienti
2.5. Gli stimatori sufficienti
19
19
21
22
23
33
3
Le stime di massima verosimiglianza
3.1 Il metodo della massima verosimiglianza
3.2 Le proprietà degli stimatori di massima verosimiglianza
3.3 Le proprietà degli stimatori di massima verosimiglianza per grandi campioni
3.4 Alcune esemplificazioni del metodo della massima verosimiglianza
41
41
51
53
60
4
La verifica di ipotesi
4.1 Il test statistico
4.2 Il test del rapporto delle verosimiglianze
4.3 Alcune applicazioni del test del rapporto delle verosimiglianze
67
67
71
77
5
La stima per intervalli
5.1 Gli intervalli di confidenza
5.2 La stima per intervalli con grandi campioni
5.3 Le regioni di confidenza
5.4 Alcuni esempi di intervalli di confidenza
99
99
104
107
109
6
L'inferenza multivariata
6.1 Il campionamento con osservazioni multivariate
6.2 La stima per punti con osservazioni multivariate
6.3 La verifica di ipotesi con osservazioni multivariate
6.4 Le regioni di confidenza con osservazioni multivariate
112
112
116
121
146
Appendice
A.1 Alcune distribuzioni continue
A.2 Alcune distribuzioni discrete
A.3 Le distribuzioni Chi-quadrato, > ed J
A.4 Alcune distribuzioni multivariate
149
149
155
158
160
Bibliografia
165
Capitolo 1
Il campionamento
1.1. Il modello statistico
1.1.1. Il campione. Si supponga che un esperimento casuale abbia prodotto un vettore di
osservazioni ÐB" ß á ß B8 Ñ. Questo vettore è detto campione, mentre la quantità 8 è detta
numerosità campionaria. Ogni campione, una volta osservato, costituisce un risultato acquisito.
Tuttavia, prima del rilevamento, il campione è un vettore di variabili casuali Ð\" ß á ß \8 Ñ con
una funzione di ripartizione congiunta J8 ÐB" ß á ß B8 Ñ.
Se ogni osservazione viene ottenuta nelle medesime condizioni sperimentali e se il
campionamento è effettuato in modo da assicurare anche l'indipendenza delle osservazioni, il
campione è la realizzazione di un vettore di variabili casuali indipendenti e ugualmente
distribuite. In questo caso, il campione è detto casuale e questa è la situazione campionaria a cui
verrà fatto riferimento più spesso nel seguito. Se il campionamento è casuale, la funzione di
ripartizione congiunta di Ð\" ß á ß \8 Ñ risulta
J8 ÐB" ß á ß B8 Ñ œ $ J ÐB3 Ñ ,
8
3œ"
dove J ÐBÑ è la funzione di ripartizione marginale comune alle \3 . Dunque, la funzione di
ripartizione congiunta di Ð\" ß á ß \8 Ñ dipende solamente da J ÐBÑ. Di conseguenza, un
campione casuale può essere pensato convenientemente come un insieme di 8 realizzazioni
indipendenti di una variabile casuale \ con funzione di ripartizione J ÐBÑ.
1.1.2. Il modello statistico classico. L'informazione relativa all'esperimento casuale è
interamente contenuta nella funzione di ripartizione congiunta J8 ÐB" ß á ß B8 Ñ. L'insieme delle
funzioni di ripartizione ammissibili per l'esperimento casuale delimita una classe Y detta
modello statistico. Obiettivo dell'inferenza statistica è quello di fare affermazioni sulla
distribuzione di Y che ha effettivamente generato il campione ÐB" ß á ß B8 Ñ sulla base del
campione stesso. L'inferenza sarà maggiormente accurata quanto più è possibile delimitare la
classe Y , compatibilmente con la condizione che Y contenga effettivamente la distribuzione che
ha generato il campione.
Nella statistica inferenziale classica si assume nota la morfologia funzionale delle funzioni di
ripartizione congiunte del modello statistico e si assume che queste siano dello stesso tipo a
meno di un insieme di parametri. Se ) è un vettore di 5 parametri in uno spazio parametrico
@ © ‘5 , tale che J8 ÐB" ß á ß B8 à )Ñ è una funzione di ripartizione congiunta per ogni ) − @,
allora il modello statistico classico dipende solamente da ), ovvero
Y) œ ÖJ8 À J8 ÐB" ß á ß B8 à )Ñ − c) × ,
dove c) è una famiglia parametrica di funzioni di ripartizione congiunte. L'obiettivo
dell'inferenza si riduce a fare affermazioni su )! − @ il “vero valore” del parametro della
distribuzione in Y) che ha generato il campione ÐB" ß á ß B8 Ñ.
Quando si adotta un campionamento casuale, il modello statistico dipende solo dalla struttura
delle funzioni di ripartizione marginali. Se J ÐBà )Ñ è una funzione di ripartizione per ogni
) − @, nel caso di un campionamento casuale il modello statistico classico risulta
2
Il campionamento
J8 À J8 ÐB" ß á ß B8 à )Ñ œ $ J ÐB3 à )ÑŸ .
8
Y) œ
3œ"
Esempio 1.1.1. Dato un campione casuale da \ µ R Ð.ß 5# Ñ, il modello statistico dipende dal
vettore di parametri ) œ Ð.ß 5ÑT con @ œ ‘ ‚ ‘ , ovvero
J8 À J8 ÐB" ß á ß B8 à .ß 5Ñ œ $ FŠ
8
Y.ß5 œ
3œ"
B3  .
‹Ÿ .
5
…
Esempio 1.1.2. Dato un campione casuale da \ µ IÐ!ß 5Ñ, il modello statistico dipende dal
parametro ) œ 5 con @ œ ‘ , ovvero
J8 À J8 ÐB" ß á ß B8 à 5Ñ œ $ ’"  expŠ 
8
Y5 œ
3œ"
B3
‹“ IÐ!ß∞Ñ ÐB3 ÑŸ .
5
…
A meno di casi patologici, si può usualmente supporre che ad ogni funzione di ripartizione
J8 ÐB" ß á ß B8 à )Ñ corrisponda una funzione di densità o funzione di probabilità congiunta
08 ÐB" ß á ß B8 à )Ñ. Dunque, per semplicità il modello statistico classico può essere specificato in
termini di 08 ÐB" ß á ß B8 à )Ñ, ovvero
Y) œ Ö08 À 08 ÐB" ß á ß B8 à )Ñ − c) × ,
dove c) è una famiglia parametrica di funzioni di densità o funzioni di probabilità congiunte.
Nel caso di un campionamento casuale, il modello statistico classico può essere espresso in
termini della funzione di densità o della funzione di probabilità 0 ÐBà )Ñ relativa a J ÐBà )Ñ,
ovvero
08 À 08 ÐB" ß á ß B8 à )Ñ œ $ 0 ÐB3 à )ÑŸ .
8
Y) œ
3œ"
Esempio 1.1.3. Dato un campione casuale da \ µ R Ð.ß 5# Ñ, il modello statistico dell'Esempio
1.1.1 può essere scritto in maniera equivalente come
08 À 08 ÐB" ß á ß B8 à .ß 5Ñ œ $
8
Y.ß5 œ
3œ"
"
B3  .
9Š
‹Ÿ .
5
5
…
Esempio 1.1.4. Dato un campione casuale da \ µ IÐ!ß 5Ñ, il modello statistico dell'Esempio
1.1.2 può essere scritto in maniera equivalente come
08 À 08 ÐB" ß á ß B8 à 5Ñ œ $
8
Y5 œ
3œ"
"
B3
expŠ  ‹ IÐ!ß∞Ñ ÐB3 ÑŸ .
5
5
…
1.1.3. Lo spazio campionario. Connesso al concetto di modello statistico vi è quello di spazio
campionario, ovvero l'insieme V8 di tutte le possibili realizzazioni del campione compatibili con
il modello statistico stesso. Se f8ß) è il supporto di 08 ÐB" ß á ß B8 à )Ñ, allora lo spazio
campionario è dato da
Capitolo 1
3
V8 œ . f8ß) .
) −@
Nel caso di un campionamento casuale si ha f8ß) œ f) ‚ á ‚ f) , dove f) è il supporto di
0 ÐBà )Ñ.
Esempio 1.1.5. Dato un campione casuale da \ µ R Ð.ß "Ñ, il modello statistico dipende dal
parametro ) œ . con @ œ ‘, ovvero
08 À 08 ÐB" ß á ß B8 à .Ñ œ $ 9ÐB3  .ÑŸ .
8
Y. œ
3œ"
Dal momento che f. œ ‘, allora si ha f8ß. œ ‘ ‚ á ‚ ‘ œ ‘8 . Di conseguenza, lo spazio
campionario risulta
V8 œ . f8ß. œ ‘8 .
…
.−‘
Esempio 1.1.6. Dato un campione casuale da \ µ IÐ-ß "Ñ, il modello statistico dipende dal
parametro ) œ - con @ œ ‘, ovvero
08 À 08 ÐB" ß á ß B8 à -Ñ œ $ expÒ  ÐB3  -ÑÓ IÐ!ß∞Ñ ÐB3  -ÑŸ .
8
Y- œ
3œ"
Dal momento che f- œ Ð-ß ∞Ñ, allora si ha f8ß- œ Ð-ß ∞Ñ ‚ á ‚ Ð-ß ∞Ñ. Di conseguenza lo
spazio campionario risulta
V8 œ . f8ß- œ ‘8 .
…
-−‘
1.1.4. La parametrizzazione. Un modello statistico può avere varie formulazioni equivalenti,
ovvero si possono avere diverse parametrizzazioni. Sia gÀ @ Ä I con I © ‘5 una funzione
vettoriale biunivoca. Se # œ gÐ)Ñ con # − I , il modello statistico Y) può essere espresso come
Y) œ Ö08 À 08 ÐB" ß á ß B8 à )Ñ − c) × œ Ö08 À 08 ÐB" ß á ß B8 à g" Ð#ÑÑ − cg" Ð# Ñ× œ Z# ,
ovvero Z# e Y) sono modelli statistici equivalenti.
La preferenza per una certa parametrizzazione è legata all'interpretazione statistica del
parametro scelto. In ogni caso sussiste una certa arbitarietà nella parametrizzazione, che può
dipendere anche dalla facilità di trattazione matematica del modello statistico selezionato.
Esempio 1.1.7. Dato un campione casuale da \ µ R Ð!ß 5# Ñ, il modello statistico dipende dal
parametro ) œ 5 con @ − ‘ , ovvero
08 À 08 ÐB" ß á ß B8 à 5Ñ œ $
8
Y5 œ
3œ"
"
B3
9Š ‹Ÿ .
5
5
La trasformazione 8 œ 1Ð5Ñ œ 5# per 5  ! è biunivoca. Quindi, il modello statistico può
esserre riparametrizzato in termini della varianza piuttosto che dello scarto quadratico medio,
ovvero
4
Il campionamento
08 À 08 ÐB" ß á ß B8 à 8Ñ œ $
8
Z8 œ
3œ"
"
B3
9
.
È8
È8 Ÿ
Generalizzando questo esempio, quando si dispone di un campione casuale da \ µ R Ð.ß 5# Ñ,
anche il modello statistico dell'Esempio 1.1.3 può essere scritto in termini della media e della
varianza, ovvero
08 À 08 ÐB" ß á ß B8 à .ß 8Ñ œ $
8
Z.ß8 œ
3œ"
"
B3  .
9
.
È8
È8 Ÿ
Per questo modello statistico è conveniente considerare la precedente parametrizzazione, in
quanto permette di semplificare la trattazione matematica.
…
Esempio 1.1.8. Si supponga che il campione ÐC" ß á ß C8 Ñ sia la determinazione di un vettore di
variabili casuali Ð]" ß á ß ]8 Ñ con componenti indipendenti e tali che ]3 µ R Ðα  " A3 ß 5# Ñ. Si
assuma inoltre che le componenti del vettore ÐA" ß á ß A8 Ñ siano quantità note e fisse. Il
campione non è casuale, in quanto le ]3 non sono ugualmente distribuite. Il modello statistico
risultante dipende dal vettore di parametri ) œ Ðαß " ß 5ÑT con @ œ ‘# ‚ ‘ ed è dato da
08 À 08 ÐC" ß á ß C8 à αß " ß 5Ñ œ $
8
Y α ß" ß 5 œ
3œ"
"
C3  α  " A3
9Œ
Ÿ.
5
5
Si può porre
–  " ÐA3  AÑ
– œ +  ,D3 ,
EÐ]3 Ñ œ α  " A3 œ α  " A
– , , œ " e D3 œ A3  A
–, mentre A
– œ 8" 8 A3 . Questa riformulazione di
dove + œ α  " A
3œ"
EÐ]3 Ñ è conveniente, dal momento che le nuove quantità fisse ÐD" ß á ß D8 Ñ sono tali che
–D œ 8" 8 D3 œ !. Inoltre, la trasformazione Ð+ß ,ß 8Ñ œ Ðα  " Aß
– " ß 5 # Ñ è biunivoca, e
3œ"
quindi il modello può essere riparametrizzato come segue
08 À 08 ÐC" ß á ß C8 à +ß ,ß 8Ñ œ $
8
Z+ß,ß8 œ
3œ"
"
C3  +  ,D3
9
Ÿ,
È8
È8
dove Ð+ß ,ß 8Ñ − ‘# ‚ ‘ . Questo modello statistico è fondamentale e costituisce il cosiddetto
modello di regressione lineare (vedi Seber, 1977).
…
1.2. Le statistiche
1.2.1. La definizione di statistica. Piuttosto che considerare il campione originale nella sua
interezza può essere conveniente talvolta sintetizzarlo in qualche maniera. Dato un modello
statistico Y) , si dice statistica una trasformazione misurabile
X À V8 Ä ‘
che non dipende da ) . Un valore > œ X ÐB" ß á ß B8 Ñ è detto realizzazione campionaria di X
relativa al campione ÐB" ß á ß B8 Ñ. Prima del rilevamento la statistica X œ X Ð\" ß á ß \8 Ñ è una
variabile casuale, la cui distribuzione dipende dal modello statistico considerato.
La statistica induce una partizione dello spazio campionario in insiemi del tipo
EÐ>Ñ œ ÖÐB" ß á ß B8 ÑÀ ÐB" ß á ß B8 Ñ − V8 ß X ÐB" ß á ß B8 Ñ œ >× ,
ovvero in insiemi di campioni per cui il relativo valore della statistica risulta costante.
Capitolo 1
5
La definizione di statistica può essere estesa ad un vettore di statistiche T, dove
TÀ V8 Ä ‘5
è un vettore di trasformazioni misurabili a 5 componenti che non dipende da ) .
Esempio 1.2.1. Dato un campione casuale da \ µ R Ð.ß 8Ñ, si consideri la statistica
8
X œ
\3 .
3œ"
Dal momento che \3 µ R Ð.ß 8Ñ, tenendo presente che X è una somma di variabili casuali
indipendenti, in base alla proprietà ii) della §A.1.2 si ottiene che X µ R Ð8.ß 88Ñ.
…
Esempio 1.2.2. Dato un campione casuale \ µ IÐ!ß 5Ñ, si consideri di nuovo la statistica X
dell'Esempio 1.2.1. Dal momento che \3 µ IÐ!ß 5Ñ, tenendo presente che X è una somma di
variabili casuali indipendenti, in base alla proprietà ii) della §A.1.4 si ha X µ KÐ!ß 5à 8Ñ.
…
1.2.2. La media campionaria. Dato un modello statistico Y) relativo ad un campionamento
casuale da una variabile casuale \ tale che VarÐ\Ñ œ 8  ∞, si consideri la statistica media
campionaria, la cui realizzazione campionaria è data da
–œ "
B
8
8
B3 .
3œ"
Da un punto di vista probabilistico, la media campionaria è data dalla variabile casuale
"
–
\œ
8
8
\3 .
3œ"
Dal momento che . e 8 sono finiti, si ha
"
–
EÐ\Ñ œ
8
8
EÐ\3 Ñ œ . ,
3œ"
e, tenendo presente l'indipendenza delle variabili casuali Ð\" ß á ß \8 Ñ,
"
–
VarÐ\Ñ œ #
8
8
VarÐ\3 Ñ œ
3œ"
8
.
8
Esempio 1.2.3. Dato un campione casuale da \ µ R Ð.ß 8Ñ, si consideri la media campionaria
–
–
\ . Dal momento che \3 µ R Ð.ß 8Ñ, tenendo presente che \ è una combinazione lineare di
–
variabili casuali indipendenti, in base alle proprietà ii) della §A.1.2 si ha \ µ R Ð.ß 8Î8Ñ.
–
–
Risultano quindi verificati i risultati di questa sezione, in quanto EÐ\Ñ œ . e VarÐ\Ñ œ 8Î8. …
Esempio 1.2.4. Dato un campione casuale da \ µ IÐ!ß 5Ñ, si consideri la media campionaria
–
–
\ . Dal momento che \3 µ IÐ!ß 5Ñ, tenendo presente che \ è una combinazione lineare di
–
variabili casuali indipendenti, in base alle proprietà ii) della §A.1.4 si ha \ µ KÐ!ß 5Î8à 8Ñ.
–
–
Inoltre, per la proprietà i) della §A.1.4, si ha EÐ\Ñ œ 5 e VarÐ\Ñ œ 5# Î8. Dunque, risultano
verificati i risultati di questa sezione, in quanto per la IÐ!ß 5Ñ si ha EÐ\Ñ œ 5 e VarÐ\Ñ œ 5# .…
1.2.3. La varianza campionaria. Dato un modello statistico Y) relativo ad un campionamento
casuale da una variabile casuale \ tale che VarÐ\Ñ œ 8  ∞, si consideri la statistica varianza
campionaria, la cui realizzazione campionaria è data da
6
Il campionamento
=# œ
"
8
8
– #.
ÐB3  BÑ
3œ"
Da un punto di vista probabilistico, la varianza campionaria è data dalla variabile casuale
"
W œ
8
8
#
–
Ð\3  \Ñ# .
3œ"
Al fine di derivare le proprietà della varianza campionaria, risulta conveniente esprimere =#
nel modo seguente
"
= œ
8
8
#
œ
œ
"
8
"
8
–  .ÑÓ#
ÒÐB3  .Ñ  ÐB
3œ"
8
ÐB3  .Ñ# 
3œ"
8
8
# –
ÐB  .Ñ
8
–  .Ñ#
ÐB3  .Ñ  ÐB
3œ"
–  .Ñ# .
ÐB3  .Ñ#  ÐB
3œ"
Di conseguenza, la varianza campionaria può essere espressa come
"
W œ
8
8
#
–
Ð\3  .Ñ#  Ð\  .Ñ# .
3œ"
Sulla base della precedente relazione, si ottiene che
EÐW # Ñ œ
"
8
8
3œ"
"
–
EÒÐ\3  .Ñ# Ó  EÒÐ\  .Ñ# Ó œ
8
8
3œ"
8"
–
VarÐ\3 Ñ  VarÐ\Ñ œ
8.
8
Piuttosto che la varianza campionaria W # si adotta spesso la cosiddetta varianza campionaria
corretta data da
W-# œ
8
"
W# œ
8"
8"
8
–
Ð\3  \Ñ# .
3œ"
La varianza campionaria corretta W-# viene spesso preferita a W # , dal momento che gode della
proprietà EÐW-# Ñ œ 8.
Esempio 1.2.5. Dato un campione casuale da \ µ R Ð.ß 8Ñ, si vuole determinare la
distribuzione della varianza campionaria corretta W-# . Si consideri le cosiddette statistiche scarto
–
H3 œ \ 3  \ œ
8
-34 \4 ,
4œ"
dove
-34 œ
 8"
"  8"
4Á3
4œ3.
Le statistiche scarto sono variabili casuali Normali, essendo combinazioni lineari di variabili
casuali Normali indipendenti in base alla proprietà ii) della §A.1.2. Inoltre, dal momento che
Capitolo 1
7
8
–
\œ
.4 \ 4 ,
4œ"
dove
.4 œ
"
,
8
–
anche \ è una combinazione lineare delle medesime variabili casuali Normali indipendenti.
Infine, si ha
8
-34 .4 œ 
4œ"
8"
"
"
 Œ" 
#
8
8
8
œ!
–
e dunque H3 e \ sono indipendenti per la proprietà iii) della §A.1.2. Di conseguenza, essendo
W-# œ
"
8"
8
H3#
3œ"
–
una trasformata delle statistiche scarto, anche W-# e \ sono indipendenti. Si può dimostrare che
questo risultato è valido solo per questo particolare modello statistico (vedi Wilks, 1962).
Dividendo ora ambo i membri dell'espressione della varianza corretta per 8 e tenendo presente
la relazione ottenuta per W # , si ottiene la seguente relazione
–
8
Ð\3  .Ñ#
W-#
Ð\  .Ñ#
œ Ð8  "Ñ

.
8
8
8Î8
3œ"
Le variabili casuali \3 µ R Ð.ß 8Ñ sono indipendenti e dunque risulta
8
3œ"
Ð\3  .Ñ#
µ ;#8
8
–
(vedi §A.3.2). Inoltre nell'Esempio 1.2.3 è stato verificato che \ µ R Ð.ß 8Î8Ñ, da cui
–
Ð\  .Ñ#
µ ;#" .
8Î8
–
Dal momento che W-# e \ sono indipendenti, per la proprietà i) della §A.3.2, in base alle
relazioni precedenti si deve concludere che
Ð8  "Ñ
W-#
µ ;#8" .
8
Dunque, si ha
E”Ð8  "Ñ
W-#
W-#
œ
8

"
,
Ð8

"Ñ
Var
•
”
• œ #Ð8  "Ñ
8
8
(vedi §A.3.2), da cui
EÐW-# Ñ œ 8 , Var”Ð8  "Ñ
–
Inoltre, anche W # è indipendente da \ , mentre
W-#
• œ #Ð8  "Ñ .
8
8
Il campionamento
8W #
µ ;#8" ,
8
da cui
EÐW # Ñ œ
8"
#Ð8  "Ñ #
8 , VarÐW # Ñ œ
8 .
8
8#
…
1.2.4. La statistica ordinata. Dato un modello statistico Y) relativo ad un campionamento
casuale da una variabile casuale \ , si consideri il vettore ÐBÐ"Ñ ß á ß BÐ8Ñ Ñ i cui elementi sono gli
elementi ordinati del campione ÐB" ß á ß B8 Ñ. Da un punto di vista probabilistico il vettore
ÐBÐ"Ñ ß á ß BÐ8Ñ Ñ è la realizzazione campionaria del vettore di statistiche Ð\Ð"Ñ ß á ß \Ð8Ñ Ñ, detto
statistica ordinata. Inoltre, la statistica \Ð3Ñ è detta i-esima statistica ordinata.
La mediana campionaria è funzione della statistica ordinata. In effetti, se 8 è dispari, ovvero
~
8 œ #6  " dove 6 è un intero, la mediana campionaria è definita come \ œ \Ð6"Ñ .
~
Alternativamente, se 8 è pari, ovvero 8 œ #6, allora la mediana campionaria \ viene
~
usualmente definita come \ œ Ð\Ð6Ñ  \Ð6"Ñ ÑÎ#. Una realizzazione della mediana campionaria
~.
viene indicata con B
Se la variabile casuale \ da cui si sta campionando è continua, allora la distribuzione della
statistica ordinata può essere ottenuta in una forma semplice. La funzione di densità congiunta di
Ð\Ð"Ñ ß á ß \Ð8Ñ Ñ risulta (vedi Wilks, 1962)
0Ð\Ð"Ñ ßáß\Ð8Ñ Ñ ÐBÐ"Ñ ß á ß BÐ8Ñ Ñ œ 8x IH ÐBÐ"Ñ ß á ß BÐ8Ñ Ñ $ 0 ÐBÐ3Ñ à )Ñ ,
8
3œ"
dove H œ ÖÐBÐ"Ñ ß á ß BÐ8Ñ ÑÀ  ∞  BÐ"Ñ  á  BÐ8Ñ  ∞×, mentre la funzione di densità
marginale di \Ð3Ñ è data da
0\Ð3Ñ ÐBÐ3Ñ Ñ œ 8 Œ
8"
3"
J ÐBÐ3Ñ à )Ñ3" Ò"  J ÐBÐ3Ñ à )ÑÓ83 0 ÐBÐ3Ñ à )Ñ .
Esempio 1.2.6. Dato un campione casuale da \ µ Y Ð!ß $ Ñ, il modello statistico dipende dal
parametro ) œ $ con @ œ ‘ , ovvero
08 À 08 ÐB" ß á ß B8 à $ Ñ œ $
8
Y$ œ
3œ"
"
B3
IÐ!ß"Ñ Š ‹Ÿ .
$
$
Si consideri la massima statistica ordinata, ovvero \Ð8Ñ . Dal momento che il campione è casuale
e la variabile casuale da cui si sta campionando è continua, la funzione di densità di \Ð8Ñ risulta
0\Ð8Ñ ÐBÐ8Ñ Ñ œ 8 Š
BÐ8Ñ 8" "
BÐ8Ñ
IÐ!ß"Ñ Š
‹
‹,
$
$
$
ovvero \Ð8Ñ µ F/Ð!ß $ à 8ß "Ñ. Analogamente, \Ð"Ñ µ F/Ð!ß $ à "ß 8Ñ.
…
Esempio 1.2.7. Dato un campione casuale da \ µ Y Ð!ß $ Ñ, supponendo la numerosità
campionaria dispari con 8 œ #6  ", si vuole determinare la distribuzione della mediana
~
campionaria \ . Dal momento che il campione è casuale e la variabile casuale da cui si sta
~
campionando è continua, la funzione di densità di \ œ \Ð6"Ñ risulta
Capitolo 1
9
~
0\~ ÐBÑ
~
#6
B
œ Ð#6  "Ñ Œ
Œ
6
$
6
~
B
Œ" 
$
6
~
"
B
IÐ!ß"Ñ Œ
$
$
,
~
ovvero \ µ F/Ð!ß $ à 6  "ß 6  "Ñ.
…
1.3. La verosimiglianza statistica
1.3.1. La funzione di verosimiglianza. Dato un modello statistico Y) , una volta che il
campione ÐB" ß á ß B8 Ñ è stato osservato, la quantità 08 ÐB" ß á ß B8 à )Ñ è funzione solo di ) .
Questa funzione rappresenta la (densità di) probabilità di osservare a priori esattamente il
campione ÐB" ß á ß B8 Ñ che è stato estratto e contiene tutta l'informazione relativa al campione
stesso.
Anche una generica funzione del tipo -08 ÐB" ß á ß B8 à )Ñ, con - œ -ÐB" ß á ß B8 Ñ costante
positiva che non dipende da ), offre una informazione equivalente a quella fornita da
08 ÐB" ß á ß B8 à )Ñ. Infatti, se si deve scegliere fra due valori ) w e ) ww in @, il criterio fondamentale
su cui si basa la preferenza è dato dal rapporto
<œ
08 ÐB" ß á ß B8 à ) w Ñ
,
08 ÐB" ß á ß B8 à ) ww Ñ
che risulta inalterato moltiplicando numeratore e denominatore per una stessa quantità.
Si dice funzione di verosimiglianza (o verosimiglianza) la funzione PÀ @ Ä ‘ ∪ Ö!× data
da
PÐ)Ñ œ PÐ)à B" ß á ß B8 Ñ œ -08 ÐB" ß á ß B8 à )Ñ , ) − @ .
La notazione PÐ)à B" ß á ß B8 Ñ viene adottata perchè in alcuni casi si vuole enfatizzare che la
verosimiglianza è riferita proprio al campione ÐB" ß á ß B8 Ñ. Molto spesso viene considerata
anche la funzione di log-verosimiglianza, data da
6Ð)Ñ œ 6Ð)à B" ß á ß B8 Ñ œ ln PÐ)Ñ œ ln -  ln 08 ÐB" ß á ß B8 à )Ñ , ) − @ ,
con la convenzione che 6Ð)Ñ œ  ∞ se PÐ)Ñ œ !.
Nel caso di un campionamento casuale la funzione di verosimiglianza risulta
PÐ)Ñ œ PÐ)à B" ß á ß B8 Ñ œ - $ 0 ÐB3 à )Ñ , ) − @ ,
8
3œ"
mentre la funzione di log-verosimiglianza si riduce a
8
6Ð)Ñ œ 6Ð)à B" ß á ß B8 Ñ œ ln - 
ln 0 ÐB3 à )Ñ , ) − @ .
3œ"
È sempre opportuno rappresentare graficamente la verosimiglianza o la log-verosimiglianza,
almeno quando 5 œ " o 5 œ #. Se 5  #, è possibile ottenere una rappresentazione grafica
parziale della verosimiglianza attraverso il concetto di verosimiglianza profilo. Questo
argomento verrà analizzato nella §3.1.1. Dal momento che la scelta di - è arbitraria, per la
rappresentazione grafica è conveniente standardizzare la verosimiglianza rispetto al suo
massimo (se questo è finito), ovvero scegliere - œ "Îmax)−@ PÐ)Ñ, in modo tale da ottenere una
verosimiglianza normata in Ò!ß "Ó.
Di seguito viene data una serie di esempi che considerano una gamma di funzioni di
verosimiglianza al variare del modello statistico.
10
Il campionamento
Esempio 1.3.1. Dato un campione casuale da \ µ R Ð.ß "Ñ, la verosimiglianza risulta
PÐ.Ñ œ - $ 9ÐB3  .Ñ œ - $ Ð#1Ñ"Î# exp” 
8
8
3œ"
3œ"
œ - exp– 
"
ÐB3  .Ñ# •
#
"
ÐB3  .Ñ# —
# 3œ"
8
–  .Ñ# Ó› , . − ‘ ,
œ - expš  Ò=#  ÐB
#
8
dove nell'ultimo passaggio si è adoperato la relazione ottenuta nella §1.2.3. Il grafico della
– œ " e =# œ # è riportato in Figura 1.3.1.
verosimiglianza standardizzata per 8 œ &, B
Nella precedente espressione è stato effettuato un abuso di notazione, nel senso che la
costante - non è la stessa fra i vari passaggi algebrici. Si adopera questa convenzione per
indicare che la costante - contiene una quantità che non dipende dai parametri e nel seguito
verrà adottata senza ulteriore commento.
Inoltre, la verosimiglianza è stata espressa in funzione delle realizzazioni campionarie delle
–
statistiche \ e W # , al fine di ottenere un'espressione più compatta. Questo fatto ha importanti
risvolti teorici, come sarà visto nei successivi capitoli. Infine, la log-verosimiglianza risulta
8
–  .Ñ# Ó , . − ‘ .
6Ð.Ñ œ ln -  Ò=#  ÐB
…
#
1
0.8
0.6
0.4
0.2
0
− 0.5
0
0.5
1
1.5
2
2.5
– œ " e =# œ # .
Figura 1.3.1. Verosimiglianza standardizzata per 8 œ &, B
Esempio 1.3.2. Generalizzando l'esempio precedente, dato un campione casuale da
\ µ R Ð.ß 8Ñ, tenendo presente i risultati della §1.2.3, si ottiene la seguente verosimiglianza
PÐ.ß 8Ñ œ - $
8
3œ"
"
B3  .
9
È8
È8
œ - $ Ð#18Ñ"Î# exp” 
8
3œ"
"
ÐB3  .Ñ# •
#8
œ - 88Î# exp– 
" 8
ÐB3  .Ñ# —
#8 3œ"
8 #
–  .Ñ# Ó› ,
œ - 88Î# expš 
Ò=  ÐB
#8
–œ" e
dove Ð.ß 8Ñ − ‘ ‚ ‘ . Il grafico della verosimiglianza standardizzata per 8 œ &, B
#
= œ # è riportato in Figura 1.3.2. Infine, la log-verosimiglianza risulta
8
8 #
–  .Ñ# Ó , Ð.ß 8Ñ − ‘ ‚ ‘ .
6Ð.ß 8Ñ œ ln -  ln 8 
Ò=  ÐB
…
#
#8
Capitolo 1
11
1
0.75
8
0.5
6
0.25
4
0
3
2
2
1
0
−1
– œ " e =# œ # .
Figura 1.3.2. Verosimiglianza standardizzata per 8 œ &, B
Esempio 1.3.3. Dato un campione casuale da \ µ IÐ!ß 5Ñ, si ha la seguente verosimiglianza
PÐ5Ñ œ - $
8
3œ"
–
"
B3
8B
expŠ  ‹ IÐ!ß∞Ñ ÐB3 Ñ œ - 58 expŠ 
‹ , 5 − ‘ .
5
5
5
–
La verosimiglianza è stata espressa in funzione della realizzazione della statistica \ . Il grafico
– œ " è riportato in Figura 1.3.3. Infine, la logdella verosimiglianza standardizzata per 8 œ & e B
verosimiglianza risulta
–
8B
6Ð5Ñ œ ln -  8 ln 5 
, 5 − ‘ .
…
5
1
0.8
0.6
0.4
0.2
0
0
0.5
1
1.5
2
2.5
– œ ".
Figura 1.3.3. Verosimiglianza standardizzata per 8 œ & e B
Esempio 1.3.4. Dato un campione casuale da \ µ Y Ð!ß $ Ñ, la verosimiglianza risulta
PÐ$ Ñ œ - $
8
3œ"
BÐ8Ñ
"
B3
IÐ!ß"Ñ Š ‹ œ - $ 8 IÐ!ß"Ñ Š
‹ œ - $ 8 IÐBÐ8Ñ ß∞Ñ Ð$ Ñ , $ − ‘ ,
$
$
$
dal momento che #83œ" IÐ!ß"Ñ ÐB3 Î$ Ñ œ " quando $  B3 per ogni 3, ovvero quando si ha $  BÐ8Ñ .
La verosimiglianza è stata espressa in funzione della realizzazione della statistica \Ð8Ñ , ovvero
12
Il campionamento
la massima statistica ordinata. Il grafico della verosimiglianza standardizzata per 8 œ & e
BÐ&Ñ œ " è riportato in Figura 1.3.4. Infine, la log-verosimiglianza risulta
6Ð$ Ñ œ ln -  8 ln $  ln IÐBÐ8Ñ ß∞Ñ Ð$ Ñ , $ − ‘ .
…
1
0.8
0.6
0.4
0.2
0
0
0.5
1
1.5
2
2.5
3
Figura 1.3.4. Verosimiglianza standardizzata per 8 œ & e BÐ&Ñ œ ".
Esempio 1.3.5. Dato un campione casuale da \ µ F3Ð"ß :Ñ, il modello statistico dipende dal
parametro ) œ : con @ œ Ð!ß "Ñ, ovvero
08 À 08 ÐB" ß á ß B8 à :Ñ œ $ :B3 Ð"  :Ñ"B3 IÖ!ß"× ÐB3 ÑŸ ,
8
Y: œ
3œ"
da cui si ottiene la seguente verosimiglianza
PÐ:Ñ œ - $ :B3 Ð"  :Ñ"B3 IÖ!ß"× ÐB3 Ñ œ -:8B Ð"  :Ñ88B , : − Ð!ß "Ñ .
8
–
–
3œ"
–
La verosimiglianza è stata espressa in funzione della realizzazione della media campionaria \ .
– œ !.# è riportato in Figura 1.3.5.
Il grafico della verosimiglianza standardizzata per 8 œ & e B
Infine, la log-verosimiglianza risulta
– ln :  Ð8  8BÑ
– lnÐ"  :Ñ , : − Ð!ß "Ñ .
6Ð:Ñ œ ln -  8B
…
1
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
1
– œ !.#.
Figura 1.3.5. Verosimiglianza standardizzata per 8 œ & e B
Capitolo 1
13
Esempio 1.3.6. Dato il modello di regressione lineare dell'Esempio 1.1.8, la verosimiglianza
risulta
"
C3  +  ,D3
PÐ+ß ,ß 8Ñ œ - $
9
È8
È8
3œ"
œ - $ Ð#18Ñ"Î# expŒ 
8
œ - 88Î# exp– 
"
#8
8
3œ"
8
3œ"
C3  +  ,D3
#8
ÐC3  +  ,D3 Ñ# — , Ð+ß ,ß 8Ñ − ‘# ‚ ‘ .
Siano dunque –C e =#C la media e la varianza di ÐC" ß á ß C8 Ñ, mentre sia
=#D
8
"
œ
8
D3#
3œ"
la varianza di ÐD" ß á ß D8 Ñ e
=DC
8
"
œ
8
D3 C3
3œ"
la relativa covarianza (tenendo presente dall'Esempio 1.1.8 che –D œ !). Dunque, si ha
8
8
ÐC3  +  ,D3 Ñ# œ
3œ"
3œ"
8
œ
–  +ÑÓ#
ÒÐC3  –CÑ  ,D3  ÐC
8
ÐC3  –CÑ#  , #
3œ"
–  +Ñ#  #,
D3#  8ÐC
3œ"
8
ÐC3  –CÑD3
3œ"
–  +Ñ#  #8,=DC
œ 8=#C  8, # =D#  8ÐC
œ8
dove è stato tenuto presente che
PÐ+ß ,ß 8Ñ œ - 88Î# exp
=DC
 8Œ,=D 
=D
=#DC
 #
=D
=C#
8
3œ" D3

8
3œ" ÐC3
œ!e
#
–  +Ñ# ,
 8ÐC
 –CÑ œ !. Di conseguenza,
=#DC
=DC
8
#
=

 Œ,=D 
C
–
#
#8
=D
=D
#
–  +Ñ#
 ÐC
—Ÿ ,
con Ð+ß ,ß 8Ñ − ‘# ‚ ‘ . La verosimiglianza è stata espressa in funzione delle realizzazioni
delle statistiche
"
–
] œ
8
8
]3 ,
3œ"
e
WC# œ
"
8
8
–
Ð]3  ] Ñ#
3œ"
e della statistica
WDC
Infine, la log-verosimiglianza risulta
"
œ
8
8
D 3 ]3 .
3œ"
14
Il campionamento
=#DC
=DC
8
8
#
6Ð+ß ,ß 8Ñ œ ln -  ln 8 
=C  #  Œ,=D 
–
#
#8
=D
=D
#
–  +Ñ# ,
 ÐC
—
…
con Ð+ß ,ß 8Ñ − ‘# ‚ ‘ .
Esempio 1.3.7. Dato un campione casuale da \ µ IÐ-ß 5Ñ, il modello statistico dipende dal
vettore di parametri ) œ Ð-ß 5ÑT con @ œ ‘ ‚ ‘ , ovvero
08 À 08 ÐB" ß á ß B8 à -ß 5Ñ œ $
8
Y - ß5 œ
3œ"
"
B3  expŒ 
IÐ!ß∞Ñ ÐB3  -ÑŸ .
5
5
La verosimiglianza risulta
PÐ-ß 5Ñ œ - $
"
B3  expŒ 
IÐ!ß∞Ñ ÐB3  -Ñ
5
5
3œ"
–B
œ - 58 expŒ  8
IÐ!ß∞Ñ ÐBÐ"Ñ  -Ñ
5
–B
œ - 58 expŒ  8
IÐ∞ßBÐ"Ñ Ñ Ð-Ñ , Ð-ß 5Ñ − ‘ ‚ ‘ ,
5
8
dove si è tenuto conto che #83œ" IÐ!ß∞Ñ ÐB3  -Ñ œ " quando -  B3 per ogni 3, ovvero quando si
ha -  BÐ"Ñ . La verosimiglianza è stata espressa in funzione delle realizzazioni delle statistiche
–
– œ # e BÐ"Ñ œ " è riportato
\ e \Ð"Ñ . Il grafico della verosimiglianza standardizzata per 8 œ &, B
in Figura 1.3.6. Infine, la log-verosimiglianza risulta
–B
6Ð-ß 5Ñ œ ln -  8 ln 5  8
 ln IÐ∞ßBÐ"Ñ Ñ Ð-Ñ , Ð-ß 5Ñ − ‘ ‚ ‘ .
…
5
1
0.75
4
0.5
3
0.25
2
0
1
0.25
0
25
0.5
0.75
1
0
– œ # e BÐ"Ñ œ ".
Figura 1.3.6. Verosimiglianza standardizzata per 8 œ &, B
Esempio 1.3.8. Dato un campione casuale \ µ Y Ð-ß -  $ Ñ, il modello statistico dipende dal
vettore di parametri ) œ Ð-ß $ ÑT con @ œ ‘ ‚ ‘ , ovvero
Capitolo 1
15
08 À 08 ÐB" ß á ß B8 à -ß $ Ñ œ $
8
Y - ß$ œ
3œ"
"
B3  IÐ!ß"Ñ Œ
Ÿ,
$
$
da cui
PÐ-ß $ Ñ œ - $
8
3œ"
"
B3  IÐ!ß"Ñ Œ
$
$
œ - $ 8 IÐ!ß"Ñ Œ
BÐ"Ñ  BÐ8Ñ  IÐ!ß"Ñ Œ
$
$
œ - $ 8 IÐ∞ßBÐ"Ñ Ñ Ð-ÑIÐBÐ8Ñ ß∞Ñ Ð-  $ Ñ , Ð-ß $ Ñ − ‘ ‚ ‘ ,
dal momento che #83œ" IÐ!ß"Ñ ÒÐB3  -ÑÎ$ Ó œ " quando -  B3  -  $ per ogni 3, ovvero quando
si ha -  BÐ"Ñ e -  $  BÐ8Ñ . La verosimiglianza è stata espressa in funzione delle realizzazioni
delle statistiche \Ð"Ñ e \Ð8Ñ . Il grafico della verosimiglianza standardizzata per 8 œ &, BÐ"Ñ œ "
e BÐ&Ñ œ # è riportato in Figura 1.3.7. Infine, la log-verosimiglianza risulta
6Ð-ß $ Ñ œ ln -  8 ln $  ln IÐ∞ßBÐ"Ñ Ñ Ð-Ñ  ln IÐBÐ8Ñ ß∞Ñ Ð-  $ Ñ , Ð-ß $ Ñ − ‘ ‚ ‘ .
…
1
0.75
0.5
2
0.25
1.5
0
1
0.25
0
25
0.5
0.75
1
0
Figura 1.3.7. Verosimiglianza standardizzata per 8 œ &, BÐ"Ñ œ " e BÐ&Ñ œ #.
Esempio 1.3.9. Dato un campione casuale da \ µ T 9Ð.Ñ, il modello statistico dipende dal
parametro ) œ . con @ œ ‘ , ovvero
08 À 08 ÐB" ß á ß B8 à .Ñ œ $ expÐ  .Ñ
8
Y. œ
3œ"
.B3
IÖ!ß"ßá× ÐB3 ÑŸ .
B3 x
Di conseguenza, la funzione di verosimiglianza risulta
PÐ.Ñ œ - $ expÐ  .Ñ
8
3œ"
.B3
–
IÖ!ß"ßá× ÐB3 Ñ œ - expÐ  8.Ñ.8B , . − ‘ .
B3 x
–
La verosimiglianza è stata espressa in funzione della realizzazione della media campionaria \ .
– œ " è riportato in Figura 1.3.8.
Il grafico della verosimiglianza standardizzata per 8 œ & e B
Infine, la log-verosimiglianza risulta
– ln . , . − ‘ .
6Ð.Ñ œ ln -  8.  8B
…
16
Il campionamento
1
0.8
0.6
0.4
0.2
0
0
0.5
1
1.5
2
2.5
3
– œ ".
Figura 1.3.8. Verosimiglianza standardizzata per 8 œ & e B
Esempio 1.3.10. Dato un campione casuale da \ µ PÐ.ß "Ñ, il modello statistico dipende dal
parametro ) œ . con @ œ ‘, ovvero
08 À 08 ÐB" ß á ß B8 à .Ñ œ $
8
Y. œ
3œ"
"
expÐ  ± B3  . ± ÑŸ .
#
In questo caso si ha la seguente verosimiglianza
8
PÐ.Ñ œ - exp
8

± B3  . ±
œ - exp

3œ"
± BÐ3Ñ  . ±
,.−‘.
3œ"
La verosimiglianza è stata espressa in funzione della realizzazione della statistica ordinata
Ð\Ð"Ñ ß á ß \Ð8Ñ Ñ. Nelle Figure 1.3.9 e 1.3.10 è riportato il grafico della verosimiglianza
standardizzata per una numerosità pari ed una dispari. Infine, la log-verosimiglianza risulta
8
6Ð.Ñ œ ln - 
8
± B3  . ± œ ln - 
3œ"
± BÐ3Ñ  . ± , . − ‘ .
3œ"
1
0.8
0.6
0.4
0.2
0
0
2
4
6
Figura 1.3.9. Verosimiglianza standardizzata per 8 œ %
e ÐBÐ"Ñ ß BÐ#Ñ ß BÐ$Ñ ß BÐ%Ñ Ñ œ Ð  "ß #ß %ß *Ñ.
…
Capitolo 1
17
1
0.8
0.6
0.4
0.2
0
0
2
4
6
8
Figura 1.3.10. Verosimiglianza standardizzata per 8 œ &
e ÐBÐ"Ñ ß BÐ#Ñ ß BÐ$Ñ ß BÐ%Ñ ß BÐ&Ñ Ñ œ Ð  "ß #ß %ß &ß *Ñ.
Esempio 1.3.11. Si consideri la variabile casuale discreta \ con funzione di probabilità
0\ ÐBÑ œ
"
IÖ"ßáßR × ÐBÑ ,
R
dove R −  . Questa variabile casuale è la versione discreta di una Uniforme. Dato un
campione casuale, il modello statistico dipende dal parametro ) œ R con @ œ  , ovvero
08 À 08 ÐB" ß á ß B8 à R Ñ œ $
8
YR œ
3œ"
"
IÖ"ßáßR × ÐB3 ÑŸ .
R
Di conseguenza, la funzione di verosimiglianza risulta
PÐR Ñ œ - $
8
3œ"
"
IÖ"ßáßR × ÐB3 Ñ œ -R 8 IÖ"ßáßR × ÐBÐ8Ñ Ñ œ -R 8 IÖBÐ8ÑßBÐ8Ñ"ßá× ÐR Ñ ,
R
con R −  , e dove si è tenuto conto che #83œ" IÖ"ßáßR × ÐB3 Ñ œ " quando R B3 per ogni 3,
ovvero quando si ha R BÐ8Ñ . La verosimiglianza è definita solo sugli interi positivi, ovvero lo
spazio parametrico. Inoltre, la verosimiglianza è stata espressa in funzione della realizzazione
della statistica \Ð8Ñ . Il grafico della verosimiglianza standardizzata per 8 œ % e BÐ%Ñ œ # è
riportato in Figura 1.3.11. Infine, la log-verosimiglianza risulta
6ÐR Ñ œ ln -  8 ln R  ln IÖBÐ8Ñ ßBÐ8Ñ "ßá× ÐR Ñ , R −  .
1
0.8
0.6
0.4
0.2
0
2
3
4
5
6
Figura 1.3.11. Verosimiglianza standardizzata per 8 œ % e BÐ%Ñ œ #.
…
18
Il campionamento
Esempio 1.3.12. Si consideri la variabile casuale continua \ con funzione di densità
0\ ÐBÑ œ
#B
#Ð"  BÑ
IÐ!ß:Ó ÐBÑ 
IÐ:ß"Ñ ÐBÑ ,
:
":
dove : − Ð!ß "Ñ. Questa variabile casuale è detta anche Triangolare. In questo caso, dato un
campione casuale, il modello statistico dipende dal parametro ) œ : con @ œ Ð!ß "Ñ, ovvero
08 À 08 ÐB" ß á ß B8 à :Ñ œ $ ”
8
Y: œ
3œ"
#B
#Ð"  BÑ
IÐ!ß:Ó ÐB3 Ñ 
IÐ:ß"Ñ ÐB3 Ñ•Ÿ .
:
":
Di conseguenza, la verosimiglianza risulta
PÐ:Ñ œ - $ ”
8
3œ"
8
œ -$”
3œ"
#B3
#Ð"  B3 Ñ
IÐ!ß:Ó ÐB3 Ñ 
IÐ:ß"Ñ ÐB3 Ñ•
:
":
#BÐ3Ñ
#Ð"  BÐ3Ñ Ñ
IÐ!ß:Ó ÐBÐ3Ñ Ñ 
IÐ:ß"Ñ ÐBÐ3Ñ Ñ• .
:
":
La verosimiglianza è stata espressa in funzione della realizzazione della statistica ordinata
Ð\Ð"Ñ ß á ß \Ð8Ñ Ñ. Dalla Figura 1.3.12, si può notare la struttura complessa che può assumere la
verosimiglianza per questo modello.
…
1
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
1
Figura 1.3.12. Verosimiglianza standardizzata per 8 œ $ e ÐBÐ"Ñ ß BÐ#Ñ ß BÐ$Ñ Ñ œ Ð!.#ß !.%ß !.)Ñ.
Capitolo 2
La stima per punti
2.1. Introduzione
2.1.1. La definizione di stimatore. Una volta scelto il modello statistico Y) , un primo obiettivo
dell'inferenza è quello di selezionare un valore di ) sulla base del campione osservato. Il
procedimento di stima fa corrispondere ad ogni campione ÐB" ß á ß B8 Ñ − V8 un valore ) − @,
~
ovvero considera un vettore di funzioni K a 5 componenti, detto stimatore, tale che
~
K À V8 Ä @ .
Uno stimatore è per definizione un vettore di statistiche. La realizzazione campionaria dello
~
~
stimatore ) œ KÐB" ß á ß B8 Ñ è detta stima. Questo tipo di procedimento di stima è detto per
punti perchè ad ogni campione fa corrispondere un punto dello spazio parametrico.
~
In questo capitolo vengono discusse una serie di proprietà desiderabili per uno stimatore K.
Tuttavia, anche se lo stimatore gode di proprietà ottimali, si deve sottolineare fin da ora che la
~
stima ) può essere molto differente dal “vero valore” del parametro )! a causa della variabilità
~
campionaria. Dunque, in un procedimento di stima per punti, la stima ) deve sempre essere
~
accompagnata da un indice di “precisione” dello stimatore K nello stimare il vero parametro )! .
Questo argomento verrà trattato in maggiore dettaglio nel prossimo capitolo.
2.1.2. I problemi regolari di stima. Al fine di ottenere un procedimento di stima con proprietà
desiderabili, è opportuno definire alcune condizioni a cui il modello statistico deve
preferibilmente sottostare. Dato un modello statistico Y) , si dice che il problema di stima è
regolare se:
a) il modello statistico è identificabile, ovvero le distribuzioni 08 ÐB" ß á ß B8 à )Ñ specificate dal
modello statistico Y) sono distinte per valori distinti di ) − @;
b) lo spazio parametrico @ è un aperto di ‘5 ;
c) le derivate
`
08 ÐB" ß á ß B8 à )Ñ
`)
e
`#
08 ÐB" ß á ß B8 à )Ñ
` )` )T
esistono per ogni ) − @ e per ogni ÐB" ß á ß B8 Ñ − V8 (a meno di insiemi di probabilità nulla);
d) risulta
(
`
`
08 ÐB" ß á ß B8 à )Ñ . / œ
( 08 ÐB" ß á ß B8 à )Ñ . /
` ) V8
V8 ` )
e
`#
`#
)
/
0
ÐB
ß
á
ß
B
à
Ñ
.
œ
(
( 08 ÐB" ß á ß B8 à )Ñ . / ,
8
T 8 "
` ) ` ) T V8
V8 ` ) ` )
20
La stima per punti
dove l'integrazione è da intendersi opportunamente estesa alle componenti del vettore o della
matrice e dove una scrittura del tipo
( 18 ÐB" ß á ß B8 Ñ . /
V8
va interpretata come integrale di Riemann o come somma su V8 a secondo che il vettore di
variabili casuali Ð\" ß á ß \8 Ñ sia continuo o discreto.
Nel caso di un campionamento casuale, la condizione a) si riduce a richiedere che le
distribuzioni 0 ÐBà )Ñ specificate dal modello statistico siano distinte per valori distinti di ) − @.
La condizione c) si riduce all'esistenza delle derivate
`
0 ÐBà )Ñ
`)
e
`#
0 ÐBà )Ñ
` )` )T
per ogni ) − @ e per ogni B − f) (a meno di insiemi di probabilità nulla), mentre la condizione
d) risulta
(
`
`
0 ÐBà )Ñ . / œ
( 0 ÐBà )Ñ . /
` ) f)
f) ` )
e
`#
`#
)
0
ÐBà
Ñ
.
/
œ
(
( 0 ÐBà )Ñ . / .
T
` ) ` ) T f)
f) ` ) ` )
La condizione a) permette di individuare in maniera univoca una specifica distribuzione a
partire dal valore del parametro e quindi di ottenere procedimenti di stima coerenti. La
condizione b) serve a imporre che il vero valore del parametro )! non sia sulla frontiera di @.
Infine, le condizioni c) e d) sono condizioni di regolarità matematica, che vengono adoperate nel
seguito per ottenere alcune proprietà degli stimatori. Le condizioni a)-d) sono soddisfatte nella
gran parte dei modelli statistici di uso comune.
Esempio 2.1.1. Dato un campione casuale da \ µ R Ð.ß "Ñ, la condizione a) è verificata in
quanto
9ÐB  ." Ñ œ 9ÐB  .# Ñ
per ogni B solo se ." œ .# . La condizione b) è verificata dal momento che @ œ ‘. È immediato
verificare la condizione c), dal momento che
`
9ÐB  .Ñ œ  9w ÐB  .Ñ
`.
e
`#
9ÐB  .Ñ œ 9ww ÐB  .Ñ
` .#
esistono per ogni . − ‘ e B − ‘. Inoltre, risulta
∞
∞
`
`#
( 9ÐB  .Ñ .B œ
( 9ÐB  .Ñ .B œ ! ,
` . ∞
` .# ∞
Capitolo 2
21
essendo
(
∞
9ÐB  .Ñ .B œ " ,
∞
mentre
∞
`
w
∞
9
ÐB

.
Ñ
.B
œ

(
( 9 ÐB  .Ñ .B œ  Ò9ÐB  .ÑÓ∞ œ !
∞ ` .
∞
∞
e
(
∞
`#
9
ÐB

.
Ñ
.B
œ
9ww ÐB  .Ñ .B œ  Ò9w ÐB  .ÑÓ∞
(
∞ œ ! ,
#
`
.
∞
∞
∞
e di conseguenza anche la condizione d) è verificata. Si deve dunque concludere il problema di
stima è regolare.
…
2.2. Gli stimatori corretti
2.2.1. La definizione di stimatore corretto. Dato un modello statistico Y) , se si suppone che il
vero valore del parametro è )! − @, allora si richiede usualmente che la distribuzione dello
stimatore sia concentrata intorno a questo valore, ovvero si richiede la proprietà della
correttezza. A priori dal campionamento, questa proprietà assicura che la determinazione
campionaria dello stimatore sia tendenzialmente prossima a )! .
~
Lo stimatore K è detto corretto per ) se
~
EÐKÑ œ ) ,
per ogni ) − @, dove il valore medio esiste ed è calcolato rispetto alla distribuzione specificata
dal modello con il valore del parametro pari a ) . Nel seguito si assumerà sempre questa ultima
convenzione per quanto riguarda il calcolo dei valori medi senza ulteriore specificazione.
Uno stimatore non corretto è detto distorto e la quantità
~
~
BÐKÑ œ EÐKÑ  )
è detta distorsione.
Una proprietà più blanda della correttezza è la cosiddetta correttezza asintotica. Lo stimatore
~
K è detto asintoticamente corretto per ) se per ogni ) − @
~
lim EÐKÑ œ ) .
8Ä∞
Esempio 2.2.1. Dato un campione casuale da \ µ R Ð.ß 8Ñ, tenendo presente l'Esempio 1.2.5, si
ha
–
EÒÐ\ß W-# ÑÓ œ Ð.ß 8Ñ ,
–
e quindi Ð\ß W-# Ñ è corretto per Ð.ß 8Ñ.
…
Esempio 2.2.2. Dato un campione casuale da \ µ R Ð!ß 8Ñ, tenendo presente i risultati
dell'Esempio 1.2.5, dal momento che
EÐW # Ñ œ
8"
8,
8
22
La stima per punti
allora la varianza campionaria W # è uno stimatore distorto per 8. La distorsione è pari a
8
BÐW # Ñ œ EÐW # Ñ  8 œ  .
8
Lo stimatore W # è asintoticamente corretto per 8, dal momento che
lim EÐW # Ñ œ 8 .
…
8Ä∞
Esempio 2.2.3. Dato un campione casuale da \ µ Y Ð!ß $ Ñ, tenendo presente i risultati
dell'Esempio 1.2.6 e le proprietà della Beta (vedi §A.1.5), risulta
EÐ\Ð8Ñ Ñ œ
8$
.
8"
Quindi, \Ð8Ñ è uno stimatore distorto per $ , con distorsione pari a
BÐ\Ð8Ñ Ñ œ EÐ\Ð8Ñ Ñ  $ œ 
$
.
8"
Lo stimatore \Ð8Ñ è asintoticamente corretto per $ , dal momento che
lim EÐ\Ð8Ñ Ñ œ $ .
8Ä∞
…
2.3. Gli stimatori coerenti
2.3.1. La definizione di stimatore coerente. Se si suppone che il vero valore del parametro è
dato da )! − @, si richiede usualmente che la distribuzione dello stimatore si concentri sempre
di più intorno a )! all'aumentare della numerosità campionaria, ovvero si richiede la cosiddetta
proprietà della coerenza.
~
Se Y8ß) è un modello statistico per ogni 8, uno stimatore K8 si dice coerente (in senso
~
debole) per ) , se la successione di stimatori ÖK8 × converge in probabilità a )! , ovvero
~ :
K 8 Ä )!
per 8 Ä ∞. Di conseguenza, condizione sufficiente affinchè lo stimatore sia coerente per ) è
che sia asintoticamente corretto per ) e che
~
lim VarÐK8 Ñ œ ! .
8Ä∞
Inoltre, se si ha
~ ;K 8 Ä )!
per 8 Ä ∞, allora lo stimatore è detto coerente in senso forte per ) . Ovviamente, la coerenza in
senso forte implica la coerenza in senso debole.
Esempio 2.3.1. Dato un campione casuale da \ µ R Ð.ß "Ñ, tenendo presente i risultati
–
dell'Esempio 1.2.3, dal momento che \ 8 è uno stimatore corretto per . e che
"
–
lim VarÐ\ 8 Ñ œ lim
œ!,
8Ä∞
8Ä∞ 8
Capitolo 2
23
– :
–
allora \ 8 Ä .! , ovvero \ 8 è uno stimatore coerente per .. Dal momento che per la Legge
– ;–
Forte dei Grandi Numeri di Khintchine si ha \ 8 Ä .! (vedi Fattorini, 1994), \ 8 è uno
stimatore coerente in senso forte per ..
…
Esempio 2.3.2. Dato un campione casuale da \ µ R Ð.ß 8Ñ, tenendo presente i risultati
dell'Esempio 1.2.5, risulta
–
lim VarÒÐ\ 8 ß W-# 8 ÑÓ œ lim
8Ä∞
8Ä∞
8
8
!
!
#8#
8"
œ!.
:
–
–
Dal momento che Ð\ 8 ß W-# 8 Ñ è corretto per Ð.ß 8Ñ, allora risulta Ð\ 8 ß W-# 8 Ñ Ä Ð.! ß 8! Ñ, ovvero
–
…
Ð\ 8 ß W-# 8 Ñ è uno stimatore coerente per Ð.ß 8Ñ.
2.4. Gli stimatori efficienti
2.4.1. L'informazione di Fisher. Dato un modello statistico Y) , in questa sezione vengono
introdotte alcune quantità fondamentali nell'inferenza statistica classica. Data l'importanza degli
argomenti trattati, è preferibile lavorare inizialmente con un solo parametro, ovvero si assume
5 œ ".
Se per il modello statistico considerato è valida la condizione c) della §2.1.2, allora si dice
funzione punteggio la quantità
`
`
6Ð)à B" ß á ß B8 Ñ œ
ln 08 ÐB" ß á ß B8 à )Ñ
`)
`)
"
`
œ
08 ÐB" ß á ß B8 à )Ñ .
08 ÐB" ß á ß B8 à )Ñ ` )
=8 Ð)à B" ß á ß B8 Ñ œ =8 Ð)Ñ œ
La funzione punteggio =8 Ð)à B" ß á ß B8 Ñ è la realizzazione campionaria della variabile casuale
=8 Ð)à \" ß á ß \8 Ñ, per cui adoperando l'assunzione d) della §2.1.2 si ha
EÒ=8 Ð)à \" ß á ß \8 ÑÓ œ ( =8 Ð)à B" ß á ß B8 Ñ08 ÐB" ß á ß B8 à )Ñ . /
V8
œ(
`
08 ÐB" ß á ß B8 à )Ñ . /
V8 ` )
`
`
œ
"œ!.
( 08 ÐB" ß á ß B8 à )Ñ . / œ
` ) V8
`)
Inoltre, tenendo presente la relazione
`#
"
`#
ln 08 ÐB" ß á ß B8 à )Ñ œ
08 ÐB" ß á ß B8 à )Ñ 
` )#
08 ÐB" ß á ß B8 à )Ñ ` )#
”
"
`
08 ÐB" ß á ß B8 à )Ñ• ,
08 ÐB" ß á ß B8 à )Ñ ` )
e adoperando di nuovo l'assunzione d) della §2.1.2 risulta
#
24
La stima per punti
VarÒ=8 Ð)à \" ß á ß \8 ÑÓ œ EÒ=8 Ð)à \" ß á ß \8 Ñ# Ó
"
`
œ( ”
08 ÐB" ß á ß B8 à )Ñ• 08 ÐB" ß á ß B8 à )Ñ . /
V8 08 ÐB" ß á ß B8 à )Ñ ` )
`#
`#
œ(
0
ÐB
ß
á
ß
B
à
)
Ñ
.
/

ln08 ÐB" ß á ß B8 à )Ñ08 ÐB" ß á ß B8 à )Ñ . /
(
8
# 8 "
#
V8 ` )
V8 ` )
`#
`
œ # ( 08 ÐB" ß á ß B8 à )Ñ . /  (
=8 Ð)à B" ß á ß B8 Ñ08 ÐB" ß á ß B8 à )Ñ . /
` ) V8
V8 ` )
`
œ  E”
=8 Ð ) à \ " ß á ß \ 8 Ñ • .
`)
#
La precedente varianza è detta informazione di Fisher ed è indicata come
M8 Ð)Ñ œ VarÒ=8 Ð)à \" ß á ß \8 ÑÓ œ  E”
`
=8 Ð)à \" ß á ß \ 8 Ñ • .
`)
Nel caso di un campionamento casuale la funzione punteggio può essere espressa come
=8 Ð)à B" ß á ß B8 Ñ œ
`
`)
8
œ
3œ"
8
8
ln 0 ÐB3 à )Ñ œ
3œ"
3œ"
`
ln 0 ÐB3 à )Ñ
`)
"
`
0 ÐB3 à )Ñ œ
0 ÐB3 à )Ñ ` )
8
=Ð)à B3 Ñ ,
3œ"
dove
=Ð)à B3 Ñ œ =Ð)Ñ œ
`
"
`
ln0 ÐB3 à )Ñ œ
0 ÐB3 à )Ñ ,
`)
0 ÐB3 à )Ñ ` )
è la funzione punteggio relativa all'i-esima osservazione campionaria. Le variabili casuali
=Ð)à \3 Ñ sono indipendenti in quanto trasformate di variabili casuali indipendenti ed ugualmente
distribuite. Dunque, si ha
8
VarÒ=8 Ð)à \" ß á ß \8 ÑÓ œ
3œ"
VarÒ=Ð)à \3 ÑÓ œ 8VarÒ=Ð)à \ÑÓ œ  8E”
`
=Ð)à \Ñ• .
`)
Di conseguenza, l'informazione di Fisher può essere espressa come
M8 Ð)Ñ œ 8VarÒ=Ð)à \ÑÓ œ  8E”
`
=Ð)à \Ñ• œ 8MÐ)Ñ ,
`)
dove MÐ)Ñ œ VarÒ=Ð)à \ÑÓ è l'informazione di Fisher relativa ad una sola osservazione
campionaria.
Esempio 2.4.1. Dato un campione casuale da \ µ R Ð.ß "Ñ, dall'Esempio 2.1.1 è noto che le
condizioni c) e d) della §2.1.2 sono verificate. Dunque, tenendo presente l'Esempio 1.3.1, si ha
la funzione punteggio
=8 Ð.à B" ß á ß B8 Ñ œ
`
8
–  .Ñ# Ó› œ 8ÐB
–  .Ñ ,
šln -  Ò=#  ÐB
`.
#
da cui si ottiene l'informazione di Fisher
M8 Ð.Ñ œ  E”
`
–
8Ð\  .Ñ• œ 8 .
`.
Capitolo 2
25
I risultati teorici di questa sezione risultano verificati, dal momento che per via diretta si ottiene
–
–
EÒ=8 Ð.à \" ß á ß \8 ÑÓ œ EÒ8Ð\  .ÑÓ œ 8EÐ\  .Ñ œ !
e
"
–
–
M8 Ð.Ñ œ VarÒ=8 Ð.à \" ß á ß \8 ÑÓ œ VarÒ8Ð\  .ÑÓ œ 8# VarÐ\Ñ œ 8# œ 8 .
8
Dal momento che si dispone di un campione casuale, i precedenti risultati possono essere
ottenuti più facilmente dalla funzione punteggio riferita ad una sola osservazione campionaria,
ovvero
=Ð.à B3 Ñ œ
`
"
#
”ln -  ÐB3  .Ñ • œ B3  . ,
`.
#
da cui l'informazione di Fisher relativa ad una sola osservazione campionaria risulta
MÐ.Ñ œ  E”
`
Ð\  .Ñ• œ " .
`.
Dalla precedente espressione si ha di nuovo
M8 Ð.Ñ œ 8MÐ.Ñ œ 8 .
…
Esempio 2.4.2. Dato un campione casuale da \ µ IÐ!ß 5Ñ, è facile verificare le condizioni c) e
d) della §2.1.2. Dunque, tenendo presente l'Esempio 1.3.3, si ha la seguente funzione punteggio
–
–
`
8B
8 8B
=8 Ð5à B" ß á ß B8 Ñ œ
Šln -  8 ln 5 
‹œ   # ,
`5
5
5
5
da cui, in base ai risultati dell'Esempio 1.2.4, si ottiene l'informazione di Fisher
–
–
`
8 8\
8
#8\
8
#8
8
–
M8 Ð5Ñ œ  E”


œ

E

œ


E
Ð\Ñ
œ
.
Œ
•
Œ
`5
5
5#
5#
5$
5#
5$
5#
Dal momento che si dispone di un campione casuale, i precedenti risultati possono essere
ottenuti più facilmente dalla funzione punteggio riferita ad una sola osservazione campionaria,
ovvero
=Ð5à B3 Ñ œ
`
B3
"
B3
Š  ln 5  ‹ œ   # ,
`5
5
5 5
da cui, tenendo presente le proprietà della Esponenziale (vedi §A.1.4), l'informazione di Fisher
relativa ad una sola osservazione campionaria risulta
MÐ5Ñ œ  E”
`
"
\
"
#
"
Œ   # • œ  #  $ EÐ\Ñ œ # .
`5
5 5
5
5
5
Dalla precedente espressione si ottiene di nuovo
M8 Ð5Ñ œ 8MÐ5Ñ œ
8
.
5#
…
Esempio 2.4.3. Dato un campione casuale da \ µ Y Ð!ß $ Ñ, la condizione d) della §2.1.2 non è
verificata. Infatti risulta
26
La stima per punti
` "
"
œ  #
`$ $
$
per ogni $ − ‘ e B − Ð!ß $ Ñ, da cui
(
$
!
` "
"
.B œ  .
`$ $
$
Tuttavia, si ha
$
`
"
"
.B œ ! Á  .
(
`$ ! $
$
Anche se la funzione punteggio esiste, non ha tuttavia le proprietà ottenute in questa sezione. …
I precedenti risultati possono essere generalizzati al caso di un vettore di parametri ). Se è
valida la condizione c) della §2.1.2, si dice vettore delle funzioni punteggio la quantità
s8 Ð) à B" ß á ß B8 Ñ data da
s8 Ð) à B" ß á ß B8 Ñ œ s8 Ð)Ñ œ
`
"
`
6Ð)à B" ß á ß B8 Ñ œ
08 ÐB" ß á ß B8 à )Ñ .
`)
08 ÐB" ß á ß B8 à )Ñ ` )
Il vettore s8 Ð) à B" ß á ß B8 Ñ è la determinazione campionaria del vettore di variabili casuali
s8 Ð) à \" ß á ß \8 Ñ e quindi generalizzando in modo ovvio le relazioni ottenute in precedenza, se
la condizione d) della §2.1.2 è verificata, si può ottenere che
EÒs8 Ð)à \" ß á ß \8 ÑÓ œ !
e
VarÒs8 Ð)à \" ß á ß \8 ÑÓ œ  E”
`
s8 Ð ) à \ " ß á ß \ 8 Ñ • .
`)
Questa matrice di varianza-covarianza è detta matrice di informazione di Fisher ed è denotata
con
I8 Ð) Ñ œ VarÒs8 Ð)à \" ß á ß \8 ÑÓ œ  E”
`
s8 Ð ) à \ " ß á ß \ 8 Ñ • .
`)
Nel caso di un campionamento casuale, il vettore delle funzioni punteggio risulta
8
s8 Ð) à B" ß á ß B8 Ñ œ
sÐ)à B3 Ñ ,
3œ"
dove
sÐ) à B3 Ñ œ sÐ)Ñ œ
`
"
`
ln 0 ÐB3 à )Ñ œ
0 ÐB3 à )Ñ ,
`)
0 ÐB3 à )Ñ ` )
è il vettore delle funzioni punteggio relative all'i-esima osservazione campionaria. Anche in
questo caso la matrice di informazione di Fisher può essere espressa come
I8 Ð) Ñ œ 8VarÒsÐ)à \ÑÓ œ  8E”
`
sÐ)à \Ñ• œ 8IÐ)Ñ ,
`)
dove IÐ) Ñ œ VarÒsÐ)à \ÑÓ è la matrice di informazione di Fisher relativa ad una sola
osservazione campionaria.
Capitolo 2
27
Esempio 2.4.4. Dato un campione casuale da \ µ R Ð.ß 8Ñ, non è difficile verificare (anche se
laborioso) le condizioni c) e d) della §2.1.2. Tenendo presente l'Esempio 1.3.2, si ha il seguente
vettore di funzioni punteggio
s 8 Ð . ß 8 à B" ß á ß B 8 Ñ œ
œŒ
˜ln - 
`
`.
`
`8
˜ln - 

8
#8

8
#
8
#
ln 8 
ln 8 
8
#8
8
#8
8 –
8 ÐB  .Ñ
8
#
–
#8# Ò=  ÐB
–  .Ñ# Ó™
Ò=#  ÐB
–  .Ñ# Ó™
Ò=#  ÐB
 .Ñ# Ó
,
da cui, considerando anche i risultati dell'Esempio 1.2.5, si ha la matrice d'informazione di
Fisher
`
8 –
`
8 –
‘
‘
` . 8 Ð\  .Ñ
` 8 8 Ð\  .Ñ
I8 Ð.ß 8Ñ œ  EŒ `
…
–
–  .Ñ# Ó™
˜  8  8 ÒW #  Ð\  .Ñ# Ó™ ` ˜  8  8 ÒW #  Ð\
œŒ
`.
8
8#
#8
#8#
8
8
–
EÐ\  .Ñ

8
#8 #
`8

8
8$
8
8#
–
EÐ\  .Ñ
#8
–
ÖEÐW # Ñ  EÒÐ\  .Ñ# Ó×
#8#
œŒ
8
8
!
!
8
#8#
.
´ Dato un modello statistico Y) , in questa sezione
2.4.2. Il limite inferiore di Rao-Cramer.
viene ottenuto un limite inferiore alla varianza di uno stimatore corretto per una data trasformata
di ) . Di nuovo, è opportuno lavorare inizialmente con un solo parametro. Si consideri lo
~
~
stimatore K tale che EÐKÑ œ 1Ð)Ñ. Si assuma che siano valide le condizioni c) e d) della §2.1.2 e
~
che sia valida per lo stimatore K la seguente condizione:
e) la funzione 1Ð)Ñ esiste ed è derivabile con derivata
`
`
~
1Ð)Ñ œ
( KÐB" ß á ß B8 Ñ08 ÐB" ß á ß B8 à )Ñ . /
`)
` ) V8
` ~
œ(
KÐB" ß á ß B8 Ñ08 ÐB" ß á ß B8 à )Ñ . / .
V8 ` )
In base alle assunzioni c) della §2.1.2 ed e), si ottiene
~
~
CovÒKß =8 Ð)à \" ß á ß \8 ÑÓ œ EÒK=8 Ð)à \" ß á ß \8 ÑÓ
~
œ ( KÐB" ß á ß B8 Ñ=8 Ð)à B" ß á ß B8 Ñ08 ÐB" ß á ß B8 à )Ñ . /
œ(
V8
` ~
`
KÐB" ß á ß B8 Ñ08 ÐB" ß á ß B8 à )Ñ . / œ
1Ð)Ñ .
`)
V8 ` )
Inoltre, per la disugualianza di Schwarz (vedi Fattorini, 1994), se è verificata la condizione d)
della §2.1.2, si ha
~
~
VarÐKÑVarÒ=8 Ð)à \" ß á ß \8 ÑÓ CovÒK=8 Ð)à \" ß á ß \8 ÑÓ# ,
da cui, supponendo !  M8 Ð)Ñ  ∞, con opportune sostituzioni, si ottiene infine la cosiddetta
´ ovvero
disugualianza di Rao-Cramer,
~
VarÐKÑ ~
Se K è uno stimatore corretto per ), allora
`
`)
1Ð)Ñ‘
.
M8 Ð ) Ñ
`
`)
#
1Ð)Ñ œ ", e la prececente espressione risulta
~
VarÐKÑ "
.
M8 Ð ) Ñ
28
La stima per punti
Dalla precedente espressione è chiaro il ruolo dell'informazione di Fisher, nel senso che essa
rappresenta un indice della precisione media ottenibile se si vuole stimare ) in modo non
distorto.
´ si riduce a
Nel caso di un campione casuale la disugualianza di Rao-Cramer
~
VarÐKÑ 1Ð)Ñ‘
,
8MÐ)Ñ
`
`)
#
e, nel caso di uno stimatore corretto per ), a
~
VarÐKÑ "
.
8MÐ)Ñ
Esempio 2.4.5. Dato un campione casuale da \ µ R Ð.ß "Ñ, dall'Esempio 2.1.1 è noto che le
condizioni c) e d) della §2.1.2 sono verificate. Tenendo presente l'Esempio 2.4.1, dato un
~
qualsiasi stimatore K corretto per . (e per cui è valida la condizione e) di questa sezione) si ha
dunque
"
~
VarÐKÑ .
8
…
Esempio 2.4.6. Dato un campione casuale da \ µ IÐ!ß 5Ñ, dall'Esempio 2.4.2 è noto che le
condizioni c) e d) della §2.1.2 sono verificate. Tenendo presente l'Esempio 2.4.2, dato un
~
qualsiasi stimatore K corretto per 5 (e per cui è valida la condizione e) di questa sezione) si ha
5#
~
VarÐKÑ .
8
~
Se invece K è uno stimatore corretto per 1Ð5Ñ œ 5# allora, dal momento che
`
1Ð5Ñ œ #5 ,
`)
´ si ottiene
dalla forma generale della disugualianza di Rao-Cramer
%5%
~
VarÐKÑ .
8
…
Esempio 2.4.7. Dato un campione casuale da \ µ Y Ð!ß $ Ñ, dall'Esempio 2.4.3 è noto che la
condizione d) della §2.1.2 non è verificata. In questo caso non è possibile ottenere un limite
~
inferiore alla varianza di uno stimatore $ corretto per $ .
…
I precedenti risultati possono essere generalizzati al caso di un vettore di parametri ). Si
~
~
consideri dunque lo stimatore K tale che EÐKÑ œ gÐ)Ñ. Si assuma che siano valide le condizioni
~
c) e d) della §2.1.2 e che sia valida per lo stimatore K la generalizzazione della condizione e),
ovvero:
eÑ il vettore di funzioni gÐ)Ñ esiste ed è derivabile con matrice delle derivate
`
`
~
gÐ)Ñ œ
( KÐB" ß á ß B8 Ñ08 ÐB" ß á ß B8 à )Ñ . /
`)
` ) V8
` ~
œ(
KÐB" ß á ß B8 Ñ08 ÐB" ß á ß B8 à )Ñ . / .
V8 ` )
DÐ) Ñ œ
Capitolo 2
29
Se I8 Ð) Ñ è una matrice definita positiva, si può dimostrare che la generalizzazione della
´ (vedi Wilks, 1962) è data da
disugualianza di Rao-Cramer
~
VarÐKÑ DÐ)ÑT I8 Ð)Ñ" DÐ)Ñ ,
dove la precedente disugualianza si deve intendere nel senso che la matrice differenza
~
VarÐKÑ  DÐ)ÑT I8 Ð)Ñ" DÐ)Ñ è semidefinita positiva. Nel caso di un campione casuale si ha
inoltre
"
~
VarÐKÑ DÐ)ÑT IÐ)Ñ" DÐ)Ñ .
8
~
Infine, se K è uno stimatore corretto per ) , allora DÐ) Ñ è la matrice identità di ordine 5 , da cui
~
VarÐKÑ I8 Ð)Ñ" ,
che, nel caso di un campione casuale, si riduce a
"
~
VarÐKÑ IÐ)Ñ" .
8
Esempio 2.4.8. Dato un campione casuale da \ µ R Ð.ß 8Ñ, dall'Esempio 2.4.4 è noto che le
condizioni c) e d) della §2.1.2 sono verificate. Dai risultati dell'Esempio 2.4.4, dato un qualsiasi
~
stimatore K corretto per Ð.ß 8Ñ (e per cui è valida la condizione e) di questa sezione) si ha
~
VarÐKÑ 8
8
!
!
#8#
8
.
~
Se invece K è un qualsiasi stimatore corretto per gÐ.ß 8Ñ œ Ð.ß È8ÑT , allora dal momento che
DÐ.ß 8Ñ œ
"
!
!
"
#È8
,
´ si ha
dalla forma più generale della disugualianza di Rao-Cramer
~
VarÐKÑ Œ 8
!
8
!
8
#8
.
…
2.4.3. La definizione di stimatore efficiente. Dato un modello statistico Y) , quando si dispone
di due stimatori corretti per ), la nostra preferenza va ovviamente a quello con varianza minore,
in quanto la sua distribuzione risulta più concentrata intorno al vero valore del parametro. Dal
momento che nella precedente sezione è stato stabilito un limite inferiore alla varianza di uno
stimatore corretto, è logico introdurre il seguente indice nel caso di un parametro per valutare la
~
bontà di uno stimatore K corretto per )
~
effÐKÑ œ
"
.
~
VarÐKÑM8 Ð)Ñ
~
~
La quantità effÐKÑ è detta efficienza ed evidentemente si ha ! Ÿ effÐKÑ Ÿ " quando sono valide
~
le condizioni c) e d) della §2.1.2 e la condizione e) della §2.4.2. In questo caso, uno stimatore K
~
~
corretto per ) è quindi detto efficiente se effÐKÑ è massima, ovvero se effÐKÑ œ ". Niente
assicura l'esistenza e l'unicità di uno stimatore efficiente per un dato modello statistico.
30
La stima per punti
Esempio 2.4.9. Dato un campione casuale da \ µ R Ð.ß "Ñ, tenendo presente i risultati
–
dell'Esempio 1.2.3 e dell'Esempio 2.4.5, \ è uno stimatore efficiente in quanto è corretto per . e
–
effÐ\Ñ œ
"
"
œ
œ".
–
Ð"Î8Ñ8
VarÐ\ÑM8 Ð.Ñ
…
Esempio 2.4.10. Dato un campione casuale da \ µ IÐ!ß 5Ñ, tenendo presente i risultati
–
dell'Esempio 1.2.4 e dell'Esempio 2.4.6, \ è uno stimatore efficiente in quanto è corretto per 5 e
–
effÐ\Ñ œ
"
"
œ #
œ".
–
Ð5 Î8ÑÐ8Î5# Ñ
VarÐ\ÑM8 Ð5Ñ
…
Nel caso di un vettore di parametri ), un indice per valutare il grado di efficienza di uno
~
stimatore K corretto per ) è data da
~
~
effÐKÑ œ detÒVarÐKÑI8 Ð)ÑÓ" .
~
Anche in questo caso si ha ! Ÿ effÐKÑ Ÿ " quando sono valide le condizioni c) e d) della §2.1.2
~
e la condizione e) della §2.4.2. In questo ultimo caso, uno stimatore K corretto per ) è quindi
~
detto efficiente se effÐKÑ œ ".
Esempio 2.4.11. Dato un campione casuale da \ µ R Ð.ß 8Ñ, tenendo presente i risultati
–
dell'Esempio 2.3.2 e dell'Esempio 2.4.8, se si considera lo stimatore Ð\ß W-# Ñ corretto per Ð.ß 8Ñ,
si ha
–
effÒÐ\ß W-# ÑÓ œ det–
8
8
!
!
#8#
8"
Œ!
8
8
!
8
#8#
—
"
œ
8"
,
8
–
ovvero lo stimatore Ð\ß W-# Ñ non è efficiente, anche se per 8 elevato è approssimativamente
efficiente.
…
Quando si deve confrontare due stimatori, uno dei quali corretto e l'altro distorto, non si può
adoperare l'efficienza come criterio di confronto. Nel caso di un parametro, dato uno stimatore
~
distorto K di ), un criterio che tiene conto anche della distorsione è il cosiddetto errore
quadratico medio, ovvero
~
~
~
EqmÐKÑ œ BÐKÑ#  VarÐKÑ .
Il precedente indice può essere generalizzato al caso di un vettore di parametri ), ovvero
~
~
~
~
EqmÐKÑ œ detÒBÐKÑBÐKÑT  VarÐKÑÓ .
Se ci si basa sui precedenti indici, uno stimatore leggermente distorto, ma con bassa varianza,
può essere preferibile ad uno stimatore efficiente.
Esempio 2.4.12. Dato un campione casuale da \ µ R Ð.ß 8Ñ, supponiamo che il parametro . sia
~
noto. Per un qualsiasi stimatore K corretto per 8 si ha
#8#
~
VarÐKÑ .
8
Se si considera lo stimatore
Capitolo 2
31
"
~
K" œ
8
8
Ð\3  .Ñ# ,
3œ"
allora tenendo presente i risultati dell'Esempio 1.2.5 e le proprietà della Chi-quadrato (vedi
§A.3.2), si ottiene
~
EÐK" Ñ œ 8
e
#8#
~
VarÐK" Ñ œ
,
8
~
ovvero K" è efficiente e inoltre
#8#
~
EqmÐK" Ñ œ
.
8
Alternativamente, se si considera ora lo stimatore
8 ~
~
K# œ
K" ,
8#
si ha
88
~
EÐK# Ñ œ
8#
e
~
VarÐK# Ñ œ
#88#
Ð8  #Ñ#
e quindi
#
88
#88#
#8#
~
EqmÐK# Ñ œ Œ
8 
œ
.
8#
Ð8  #Ñ#
8#
~
~
Dal momento che EqmÐK# Ñ  EqmÐK" Ñ, se ci si basa sul criterio dell'errore quadratico medio,
lo stimatore distorto è preferibile a quello corretto ed efficiente.
…
2.4.4. La famiglia esponenziale di distribuzioni. In questa sezione si vuole determinare la
famiglia di distribuzioni per cui è possibile ottenere stimatori efficienti, dato che le condizioni c)
~
e d) della §2.1.2 sono verificate. Nel caso di uno stimatore K corretto per ) (e per cui è valida la
condizione e) della §2.4.2), per le proprietà della disugualianza di Schwarz (vedi Fattorini,
´ quando
1994), si ottiene il limite inferiore di Rao-Cramer
~
=8 Ð)à \" ß á ß \8 Ñ œ ,ÐK  )Ñ ,
per , costante, ovvero quando =8 Ð)à \" ß á ß \8 Ñ è una variabile casuale linearmente dipendente
~
da K. Dunque, se una statistica efficiente esiste, deve soddisfare la precedente relazione. Inoltre,
si deve avere
~
VarÒ=8 Ð)à \" ß á ß \8 ÑÓ œ , # VarÐKÑ ,
ovvero, dal momento che
32
La stima per punti
~
VarÐKÑ œ
"
M8 Ð ) Ñ
~
(essendo K uno stimatore efficiente) e
VarÒ=8 Ð)à \" ß á ß \8 ÑÓ œ M8 Ð)Ñ ,
allora , œ M8 Ð)Ñ. Tenendo presente la definizione di funzione punteggio, si deve dunque avere
`
~
ln 08 ÐB" ß á ß B8 à )Ñ œ M8 Ð)ÑÒKÐB" ß á ß B8 Ñ  )Ó ,
`)
per ogni ÐB" ß á ß B8 Ñ − V8 (a meno di insiemi di probabilità nulla). La precedente relazione
costituisce un'equazione differenziale in ), per cui risolvendo si ha
~
ln 08 ÐB" ß á ß B8 à )Ñ œ KÐB" ß á ß B8 Ñ ( M8 Ð)Ñ . )  ( )M8 Ð)Ñ . )  -ÐB" ß á ß B8Ñ ,
ovvero si ha la seguente famiglia di distribuzioni
~
08 ÐB" ß á ß B8 à )Ñ œ ;ÐB" ß á ß B8 ÑexpÒKÐB" ß á ß B8 Ñ:Ð)Ñ  (Ð)ÑÓ ,
dove si è posto
: Ð) Ñ œ ( M 8 Ð ) Ñ . ) ,
e
( Ð) Ñ œ ( ) M 8 Ð ) Ñ . ) ,
mentre
;ÐB" ß á ß B8 Ñ œ expÒ-ÐB" ß á ß B8 ÑÓ .
Se esiste uno stimatore efficiente, la distribuzione specificata dal modello statistico deve essere
della precedente forma. Questa famiglia di distribuzioni è detta famiglia esponenziale. È
immediato verificare che tutti gli elementi di una stessa famiglia esponenziale devono avere
necessariamente lo stesso supporto per ogni ).
Esempio 2.4.13. Dato un campione casuale da \ µ R Ð.ß "Ñ, la classe di funzioni di densità
~
–,
definita in questo modello fa parte della famiglia esponenziale con KÐB" ß á ß B8 Ñ œ B
: Ð. Ñ œ 8.
e
( Ð.Ñ œ
8.#
,
#
mentre
;ÐB" ß á ß B8 Ñ œ Ð#1Ñ8Î# exp’ 
8 # –#
Ð=  B Ñ“ .
#
–
In effetti, in base ai risultati dell'Esempio 2.4.9, la media campionaria \ è uno stimatore
efficiente.
…
Capitolo 2
33
Esempio 2.4.14. Dato un campione casuale da \ µ IÐ-ß "Ñ, la classe di funzioni di densità
definita in questo modello non fa parte della famiglia esponenziale, dal momento che il relativo
supporto dipende dal parametro -.
…
In generale, se si considera un vettore di parametri ), la famiglia esponenziale è definita
come
~
08 ÐB" ß á ß B8 à )Ñ œ ;ÐB" ß á ß B8 ÑexpÒKÐB" ß á ß B8 ÑT :Ð)Ñ  (Ð)ÑÓ ,
dove senza perdita di generalità si può assumere che le funzioni definite dalle componenti del
vettore :Ð) Ñ siano linearmente indipendenti in @. Per questo motivo, questa famiglia
esponenziale è detta in forma ridotta. Per una trattazione generale delle famiglie esponenziali si
può consultare Brown (1986).
Esempio 2.4.15. Dato un campione casuale da \ µ R Ð.ß 8Ñ, la classe di funzioni di densità
specificata da questo modello fa parte della famiglia esponenziale dal momento che
~
– =#  B
– # ÑT ,
KÐB" ß á ß B8 Ñ œ ÐBß
:Ð.ß 8Ñ œ Š
8.
8 T
ß
‹
8
#8
e
( Ð.ß 8 Ñ œ
8.#
8
 ln 8 ,
#8
#
mentre
;ÐB" ß á ß B8 Ñ œ Ð#1Ñ8Î# .
…
2.5. Gli stimatori sufficienti
2.5.1. La definizione di stimatore sufficiente. Come è stato evidenziato negli esempi della
§1.3, la funzione di verosimiglianza può dipendere solo dalle realizzazioni di alcune statistiche e
quindi non è necessaria la conoscenza del campione originale per determinarla. L'informazione
contenuta nel campione originale viene mantenuta dalle statistiche, con il vantaggio di avere
l'informazione convenientemente sintetizzata.
~
Seguendo l'impostazione di Azzalini (1996), dato un modello statistico Y) , uno stimatore K
è detto sufficiente per ) se per ogni ÐB" ß á ß B8 Ñ − V8 e ÐC" ß á ß C8 Ñ − V8 si ha
~
~
KÐB" ß á ß B8 Ñ œ KÐC" ß á ß C8 Ñ Ê PÐ)à B" ß á ß B8 Ñ º PÐ)à C" ß á ß C8Ñ ,
~
per ogni ) − @. Dunque, K è sufficiente per ) quando assume lo stesso valore in due punti
dello spazio campionario solo se i due punti hanno verosimiglianze proporzionali, ovvero i due
punti forniscono la stessa informazione.
Anche se può risultare sorprendente che una trasformazione non biunivoca del campione
originale riesca ad estrarre tutta l'informazione relativa al campione stesso, si tenga presente che
la proprietà della sufficienza è legata alla scelta del modello statistico, ovvero uno stimatore
sufficiente per un modello può non esserlo per un altro.
2.5.2. Alcune proprietà degli stimatori sufficienti. Un primo risultato relativo agli stimatori
~
sufficienti è il cosiddetto criterio di fattorizzazione di Neyman. Se K è sufficiente per ) , allora
~
~
~
PÐ)Ñ dipende da ÐB" ß á ß B8 Ñ solo attraverso ) œ KÐB" ß á ß B8 Ñ, ovvero PÐ)Ñ º 1Ð)à )Ñ.
34
La stima per punti
Inoltre, dalla definizione di funzione di verosimiglianza, PÐ)Ñ º 08 ÐB" ß á ß B8 à )Ñ e si deve
concludere che la funzione
28 ÐB" ß á ß B8 Ñ œ
08 ÐB" ß á ß B8 à )Ñ
~
1Ð)à )Ñ
~
non dipende da ) . Dunque, se K è sufficiente per ) , si deve avere la relazione
~
08 ÐB" ß á ß B8 à )Ñ œ 28 ÐB" ß á ß B8 Ñ1Ð)à )Ñ .
~
~
Inversamente, se la precedente relazione è vera, allora PÐ)Ñ è funzione solo di ) e quindi K è
~
sufficiente per ) . Si è dimostrato di conseguenza che K è sufficiente per ) se e solo se
08 ÐB" ß á ß B8 à )Ñ può essere fattorizzata nella forma precedente per opportune funzioni 28 e 1.
Questo risultato è detto appunto criterio di fattorizzazione di Neyman.
Esempio 2.5.1. Dato un campione casuale da \ µ R Ð.ß "Ñ, tenendo presente l'Esempio 1.3.1, si
ha
08 ÐB" ß á ß B8 à .Ñ œ $ 9ÐB3  .Ñ œ $ Ð#1Ñ"Î# exp” 
8
8
3œ"
8 #
–  .Ñ# Ó›
Ò=  ÐB
#
8=#
8 –
œ Ð#1Ñ8Î# expŒ 
exp’  ÐB
 .Ñ# “ ,
#
#
œ Ð#1Ñ
8Î#
expš 
3œ"
"
ÐB3  .Ñ# •
#
da cui si ottiene che
28 ÐB" ß á ß B8 Ñ œ Ð#1Ñ8Î# expŒ 
8=#
#
e
– .Ñ œ exp’  8 ÐB
–  .Ñ# “ .
1ÐBà
#
–
Dunque la media campionaria \ è stimatore sufficiente per ..
…
Esempio 2.5.2. Dato un campione casuale da \ µ IÐ!ß 5Ñ, si ha
08 ÐB" ß á ß B8 à 5Ñ œ $
8
3œ"
8
–
"
B3
8B
expŠ  ‹IÐ!ß∞Ñ ÐB3 Ñ œ –$ IÐ!ß∞Ñ ÐB3 Ñ— 58 expŠ 
‹,
5
5
5
3œ"
da cui
28 ÐB" ß á ß B8 Ñ œ $ IÐ!ß∞Ñ ÐB3 Ñ
8
3œ"
e
–
– 5Ñ œ 58 expŠ  8B ‹ .
1ÐBà
5
–
Si deve dunque concludere che la media campionaria \ è stimatore sufficiente per 5 .
…
Esempio 2.5.3. Dato un campione casuale da \ µ R Ð.ß 8Ñ, tenendo presente anche l'Esempio
1.3.2, si ha
Capitolo 2
35
08 ÐB" ß á ß B8 à .ß 8Ñ œ $
8
3œ"
"
B3  .
9
È8
È8
œ Ð#1Ñ8Î# 88Î# expš 
8 #
–  .Ñ# Ó› ,
Ò=  ÐB
#8
da cui
28 ÐB" ß á ß B8 Ñ œ Ð#1Ñ8Î#
e
– =# à .ß 8Ñ œ 88Î# expš  8 Ò=#  ÐB
–  .Ñ# Ó› .
1ÐBß
#8
–
Dunque lo stimatore Ð\ß W # Ñ è sufficiente per Ð.ß 8Ñ.
…
Esempio 2.5.4. Dato il modello di regressione lineare dell'Esempio 1.1.8, tenendo presente
l'Esempio 1.3.6, si ha
08 ÐC" ß á ß C8 à +ß ,ß 8Ñ œ $
8
3œ"
"
C3  +  ,D3
9
È8
È8
œ Ð#1Ñ8Î# 88Î# exp
=#DC
=DC
8
#
=

 Œ,=D 
C
–
#
#8
=D
=D

#
–  +Ñ#
 ÐC
—Ÿ ,
#
–  +Ñ#
 ÐC
—Ÿ .
da cui si ottiene che
28 ÐC" ß á ß C8 Ñ œ Ð#1Ñ8Î#
e
– =# ß =DC à +ß ,ß 8Ñ œ 88Î# exp
1ÐCß
C
=#DC
=DC
8
#
=


,=

D
Œ
C
–
#8
=#D
=D

–
#
Dunque lo stimatore Ð] ß WC# ß WDC
Ñ è sufficiente per Ð+ß ,ß 8Ñ.
…
~
Dalla fattorizzazione di Neyman, si può ottenere la distribuzione di K integrando come segue
~
0K~ Ð)à )Ñ œ (
0 ÐB ß á ß B8 à )Ñ . /
~ 8 "
EÐ) Ñ
~
œ 1Ð)à )Ñ(
2 ÐB ß á ß B8 Ñ . /
~ 8 "
EÐ) Ñ
~ ~
œ 2 ‡ Ð)Ñ1Ð)à )Ñ ,
dove la funzione
~
2 ‡ Ð) Ñ œ (
2 ÐB ß á ß B8 Ñ . /
~ 8 "
EÐ) Ñ
~
non dipende da ) , mentre l'insieme EÐ) Ñ è stato definito nella §1.2.1. Di conseguenza, tenendo
presente la precedente relazione e la fattorizzazione di Neyman, risulta
08 ÐB" ß á ß B8 à )Ñ
28 ÐB" ß á ß B8 Ñ
~
08 ÐB" ß á ß B8 ± )Ñ œ
œ
,
~
~
0K~ Ð)à )Ñ
2 ‡ Ð) Ñ
~
ovvero se K è sufficiente per ) , la distribuzione del vettore di variabili casuali condizionato
~
~
Ð\" ß á ß \8 ± )Ñ non dipende ) . Inversamente, se 08 ÐB" ß á ß B8 ± )Ñ non dipende da ) , allora
36
La stima per punti
~
~
08 ÐB" ß á ß B8 à )Ñ œ 08 ÐB" ß á ß B8 ± )Ñ0K~ Ð)à )Ñ
~
~ ~
~
œ 08 ÐB" ß á ß B8 ± )Ñ2 ‡ Ð)Ñ1Ð)à )Ñ œ 28 ÐB" ß á ß B8 Ñ1Ð)à )Ñ ,
dove
~
~
28 ÐB" ß á ß B8 Ñ œ 08 ÐB" ß á ß B8 ± )Ñ2 ‡ Ð)Ñ
~
e quindi K risulta sufficiente per ) grazie al criterio di Neyman. Si deve quindi concludere che
~
K è sufficiente per ) se e solo se la distribuzione del vettore di variabili casuali condizionato
~
Ð\" ß á ß \8 ± )Ñ non dipende ) .
Questo fatto evidenzia come il campione ÐB" ß á ß B8 Ñ venga ottenuto in due fasi: in una
~
~
prima fase l'esperimento casuale genera il valore ) , ovvero seleziona l'insieme EÐ) Ñ della
partizione di V8 secondo una legge di probabilità che dipende da ) , e in una seconda fase sceglie
~
un elemento ÐB" ß á ß B8 Ñ di EÐ)Ñ secondo una legge di probabilità che non dipende da ) .
~
Dunque, si è ancora ottenuto che se K è sufficiente per ) la conoscenza del campione originale
~
non aggiunge niente rispetto all'informazione che si ha su ) basandosi sul solo stimatore K.
Esempio 2.5.5. Dato un campione casuale da \ µ R Ð.ß 8Ñ, tenendo presente l'Esempio 1.2.3 e
–
l'Esempio 1.2.5, si ha che \ µ R Ð.ß 8Î8Ñ e 8W # Î8 µ ;#8" sono stimatori indipendenti.
Dunque, tenendo presente anche l'Esempio 2.5.2, si ha
– =# Ñ œ 08 ÐB" ß á ß B8 à .ß 8Ñ
08 ÐB" ß á ß B8 ± Bß
– .ß 8Ñ0W # Ð=# à 8Ñ
0\– ÐBà
–  .Ñ# Ó™
Ð#1Ñ8Î# 88Î# exp˜  #88 Ò=#  ÐB
œ
–  .Ñ# ™ >ˆ 8" ‰" 8 ˆ 8=# ‰Ð8"ÑÎ#" expˆ 
"Î# exp˜  8 ÐB
Ð #18
8 Ñ
#8
#
#8 #8
œ 1Ð8"ÑÎ# 88Î# >Œ
8"
Ð=# ÑÐ8$ÑÎ# ,
#
8=# ‰
#8
– =# Ñ non
e quindi la distribuzione del vettore di variabili casuali condizionato Ð\" ß á ß \8 ± Bß
dipende da Ð.ß 8Ñ. La precedente è in effetti una funzione di densità congiunta, come si potrebbe
8
–
dimostrare integrando (in maniera laboriosa) per ÐB" ß á ß B8 Ñ con i vincoli
3œ" B3 œ 8B e
8
#
#
–
3œ" ÐB3  BÑ œ 8= . Dunque, si è di nuovo ottenuto il risultato dell'Esempio 2.5.3, ovvero lo
–
…
stimatore Ð\ß W # Ñ è sufficiente per Ð.ß 8Ñ.
Esempio 2.5.6. Dato un campione casuale da \ µ Y Ð!ß $ Ñ, tenendo presente i risultati ottenuti
nell'Esempio 1.3.4, si ha
08 ÐB" ß á ß B8 ± BÐ8Ñ Ñ œ
$ 8 IÐ!ß"Ñ ÐBÐ8Ñ Î$ Ñ
"
œ
,
8"
Ð8Î$ ÑÐBÐ8Ñ Î$ Ñ IÐ!ß"Ñ ÐBÐ8Ñ Î$ Ñ
8B8"
Ð8Ñ
e quindi la distribuzione del vettore condizionato di variabili casuali Ð\" ß á ß \8 ± BÐ8Ñ Ñ non
dipende dal parametro $ . Dunque, lo stimatore \Ð8Ñ è sufficiente per $ .
…
~
Se K è uno stimatore sufficiente per ) , allora dati due campioni ÐB" ß á ß B8 Ñ − V8 e
ÐC" ß á ß C8 Ñ − V8 si ha
~
~
ÐB" ß á ß B8 Ñ − EÐ)Ñß ÐC" ß á ß C8 Ñ − EÐ)Ñ Ê PÐ)à B" ß á ß B8 Ñ º PÐ)à C"ß á ß C8Ñ
~
ovvero elementi appartenenti ad un dato EÐ) Ñ hanno verosimiglianze proporzionali. Quindi, una
~
volta noto EÐ) Ñ, siamo in grado di specificare la funzione di verosimiglianza associata a un
qualunque ÐB" ß á ß B8 Ñ − V8 . Questo fatto implica che se si considera la trasformata biunivoca
Capitolo 2
37
~
~
UÐKÑ, dal momento che la funzione UÒKÐB" ß á ß B8 ÑÓ individua la medesima partizione dello
~
spazio campionario, allora UÐKÑ è ancora uno stimatore sufficiente per ) .
Esempio 2.5.7. Dato un campione casuale da \ µ R Ð.ß 8Ñ, nell'Esempio 2.5.4 è stato provato
–
che lo stimatore Ð\ß W # Ñ è sufficiente per Ð.ß 8Ñ. Di conseguenza, lo stimatore trasformato
–
–
ÐY" ß Y# Ñ œ Ð\ß ÈW # Ñ œ Ð\ß WÑ
è sufficiente per Ð.ß 8Ñ, dal momento che la trasformazione è biunivoca.
…
2.5.3. Stimatori sufficienti minimali. Al fine di ottenere la massima sintesi dell'informazione è
importante considerare stimatori sufficienti che sono in grado di ottenere il massimo grado di
~
aggregazione dei dati. Dato un modello statistico Y) , uno stimatore K è detto sufficiente
minimale per ) se è sufficiente per ) e se per ogni ÐB" ß á ß B8 Ñ − V8 e ÐC" ß á ß C8 Ñ − V8 si ha
~
~
KÐB" ß á ß B8 Ñ œ KÐC" ß á ß C8 Ñ Í PÐ)à B" ß á ß B8 Ñ º PÐ)à C" ß á ß C8Ñ ,
~
per ogni ) − @. Dunque, K è sufficiente minimale per ) se assume lo stesso valore per due
campioni se e solo se i due campioni hanno verosimiglianze proporzionali. Se uno stimatore è
sufficiente minimale per ) , il rapporto PÐ) à B" ß á ß B8 ÑÎPÐ)à C" ß á ß C8 Ñ deve essere una
~
~
funzione che non dipende da ) se e solo se KÐB" ß á ß B8 Ñ œ KÐC" ß á ß C8 Ñ.
~
Se si considera la trasformata biunivoca UÐKÑ, dal momento che la funzione
~
~
UÒKÐB" ß á ß B8 ÑÓ individua la medesima partizione dello spazio campionario, allora UÐKÑ è
ancora uno stimatore sufficiente minimale per ) .
Esempio 2.5.7. Dato un campione casuale da \ µ R Ð.ß 8Ñ, si ha
–"  .Ñ# Ó×
PÐ.ß 8à B" ß á ß B8 Ñ
- 88Î# expÖ  Ð8Î#8ÑÒ=#"  ÐB
œ 8Î#
–#  .Ñ# Ó×
PÐ.ß 8à C" ß á ß C8 Ñ
-8
expÖ  Ð8Î#8ÑÒ=##  ÐB
8 #
–"  .Ñ#  ÐB
– #  . Ñ# Ó › ,
œ - expš 
Ò=  =##  ÐB
#8 "
– " , =# e B
–# , =# sono rispettivamente la media e la varianza campionaria relative a
dove B
"
#
ÐB" ß á ß B8 Ñ e ÐC" ß á ß C8 Ñ. La precedente espressione non dipende da Ð.ß 8Ñ se e solo se
–" œ B
–# e =# œ =# . Si deve
l'argomento della funzione esponenziale si annulla, ovvero quando B
"
#
–
dunque concludere che lo stimatore Ð\ß W # Ñ è sufficiente minimale per Ð.ß 8Ñ.
…
Esempio 2.5.8. Dato un campione casuale da \ µ IÐ!ß 5Ñ, allora si ha
– " Î5 Ñ
PÐ5à B" ß á ß B8 Ñ
- 58 expÐ  8B
8 –
–
œ 8
œ - expš  ÐB
"  B# Ñ › ,
–
PÐ5à C" ß á ß C8 Ñ
- 5 expÐ  8B# Î5Ñ
5
–" e B
–# sono le medie campionarie relative a ÐB" ß á ß B8 Ñ e ÐC" ß á ß C8 Ñ. La precedente
dove B
espressione non dipende dal parametro 5 se e solo se l'argomento della funzione esponenziale si
–
–" œ B
–# . Si deve dunque concludere che lo stimatore \
annulla, ovvero quando B
è sufficiente
minimale per 5.
…
Se la distribuzione 08 ÐB" ß á ß B8 à )Ñ specificata dal modello statistico Y) appartiene alla
~
famiglia esponenziale in forma ridotta, allora K è ovviamente uno stimatore sufficiente per ) .
Inoltre, dati due campioni ÐB" ß á ß B8 Ñ − V8 e ÐC" ß á ß C8 Ñ − V8 , per questa famiglia si ha
38
La stima per punti
~
PÐ)à B" ß á ß B8 Ñ
- expÒKÐB" ß á ß B8 ÑT :Ð)Ñ  (Ð)ÑÓ
œ
~
PÐ)à C" ß á ß C8 Ñ
- expÒKÐC" ß á ß C8 ÑT :Ð)Ñ  (Ð)ÑÓ
~
~
œ - expÖÒKÐB" ß á ß B8 Ñ  KÐC" ß á ß C8 ÑÓT :Ð)Ñ× .
~
La precedente espressione non dipende dai parametri se e solo se KÐB" ß á ß B8 Ñ œ
~
~
KÐC" ß á ß C8 Ñ, ovvero K è sufficiente minimale per ) . Dunque, se la distribuzione specificata
dal modello statistico appartiene alla famiglia esponenziale in forma ridotta, si può ottenere
immediatamente lo stimatore sufficiente minimale per ) .
Esempio 2.5.9. Dato un campione casuale da \ µ R Ð.ß 8Ñ, tenendo presente i risultati
–
–#
dell'Esempio 2.4.13, lo stimatore sufficiente minimale per Ð.ß 8Ñ è dato da Ð\ß W #  \ Ñ.
– #
Questa è una trasformata biunivoca dello stimatore Ð\ß W Ñ, che dunque a sua volta risulta
sufficiente minimale per Ð.ß 8Ñ, ovvero si sono verificati i risultati dell'Esempio 2.5.7.
…
2.5.4. Il metodo di Blackwell-Rao. Avendo a disposizione uno stimatore corretto e uno
sufficiente, a partire da questi stimatori si può costruire un nuovo stimatore corretto e sufficiente
che ha varianza minore di quello corretto iniziale. Per semplicità si analizza inizialmente il caso
di un parametro.
~
~
–
Se K è sufficiente per ) e K è corretto per ) , allora si consideri lo stimatore Y ÐKÑ tale che
~
– ~
Y Ð)Ñ œ EÐK ± )Ñ .
~
Lo stimatore Y ÐKÑ è corretto per ) dal momento che
~
– ~
–
EÒY ÐKÑÓ œ E~) ÒEÐK ± )ÑÓ œ EÐKÑ œ ) .
Inoltre, risulta
~
~
–
– ~
– ~
– ~
VarÐKÑ œ Var~) ÒEÐK ± )ÑÓ  E~) ÒVarÐK ± )ÑÓ œ VarÒY ÐKÑÓ  E~) ÒVarÐK ± )ÑÓ VarÒY ÐKÑÓ ,
~
– ~
essendo E~) ÒVarÐK ± )ÑÓ !. Dunque, lo stimatore Y ÐKÑ è corretto per ) con varianza minore di
~
–
quella dello stimatore K. La procedura per la costruzione dello stimatore Y ÐKÑ è detto metodo
di Blackwell-Rao.
~
Si consideri una ulteriore caratteristica di uno stimatore. Uno stimatore K è detto completo se
~
~
per una qualsiasi trasformata Y si ha EÒY ÐKÑÓ œ ! se e solo se Y ÐKÑ œ ! con probabilità ".
~
Questa proprietà implica l'unicità di una trasformata di K corretta per ). Se quindi il metodo di
~
–
Blackwell-Rao è applicato ad uno stimatore K corretto per ) e a uno stimatore K sufficiente e
~
completo per ), allora lo stimatore risultante Y ÐKÑ è unico. Questa procedura assicura il
raggiungimento dello stimatore corretto per ) avente varianza minima.
Esempio 2.5.10. Dato un campione casuale da \ µ Y Ð!ß $ Ñ, dall'Esempio 2.4.7 è noto che il
problema di stima non è regolare e che quindi non è possibile ottenere un limite inferiore alla
varianza di uno stimatore corretto per $ . Tuttavia, si può costruire lo stimatore corretto per $ con
varianza minima attraverso il metodo di Blackwell-Rao. Tenendo presente i risultati ottenuti
nell'Esempio 2.5.6, \Ð8Ñ è stimatore sufficiente per $ . Se Y Ð\Ð8Ñ Ñ è una qualsiasi trasformata
positiva è facile dimostrare che \Ð8Ñ è anche stimatore completo. Inoltre lo stimatore #\" è
corretto per $ , essendo EÐ#\" Ñ œ $ come risulta dalle proprietà della Uniforme (vedi A.1.3). La
variabile casuale condizionata Ð\" ± BÐ8Ñ Ñ è una variabile casuale mista con distribuzione
0Ð\" ±BÐ8Ñ Ñ ÐB" Ñ œ
da cui
8" "
"
IÐ!ßBÐ8Ñ Ñ ÐB" Ñ  IÖBÐ8Ñ × ÐB" Ñ ,
8 BÐ8Ñ
8
Capitolo 2
39
EÐ#\" ± BÐ8Ñ Ñ œ (
!
BÐ8Ñ
#B"
8" "
"
8"
.B"  #BÐ8Ñ œ
BÐ8Ñ .
8 BÐ8Ñ
8
8
Si deve dunque concludere che lo stimatore Ð8  "Ñ\Ð8Ñ Î8 è lo stimatore corretto per $ con
varianza minima.
…
Il metodo di Blackwell-Rao può essere generalizzato al caso di un vettore di parametri ). Se
~
–
K è uno stimatore sufficiente per ) e K è uno stimatore corretto per ), allora si può dimostrare
che lo stimatore
~
– ~
UÐ) Ñ œ EÐK ± )Ñ ,
è corretto e sufficiente per ) con matrice di varianza-covarianza minore (nel senso spiegato nella
~
–
§2.4.2) di quella di K. Inoltre, uno stimatore K è completo se per un qualsiasi trasformata U si
~
~
ha EÒUÐKÑÓ œ ! se e solo se UÐKÑ œ ! con probabilità ". Anche in questo caso, se il metodo di
~
–
Blackwell-Rao è applicato allo stimatore K corretto per ) e allo stimatore K sufficiente e
~
completo per ) , allora lo stimatore risultante UÐKÑ è corretto per ) con matrice di varianzacovarianza minima. Questa affermazione è da intendersi nel senso che la matrice
~
–
–
VarÒUÐKÑÓ  VarÐKÑ è definita negativa per un qualsiasi stimatore corretto K per ) .
Esempio 2.5.11. Dato un campione casuale da \ µ Y Ð-ß -  $ Ñ, il problema di stima non è
regolare e quindi non è possibile ottenere un limite inferiore alla matrice di varianza-covarianza
di uno stimatore corretto per Ð-ß $ Ñ. Tuttavia, si può costruire lo stimatore corretto per Ð-ß $ Ñ con
matrice di varianza-covarianza minima con il metodo di Blackwell-Rao. Tenendo presente i
risultati ottenuti nell'Esempio 1.3.8, è facile verificare attraverso il criterio di fattorizzazione di
Neyman che Ð\Ð"Ñ ß \Ð8Ñ Ñ è uno stimatore sufficiente per Ð-ß $ Ñ. Se UÐ\Ð"Ñ ß \Ð8Ñ Ñ è una qualsiasi
trasformata si può dimostrare che Ð\Ð"Ñ ß \Ð8Ñ Ñ è anche uno stimatore completo. Inoltre, tenendo
presente l'Esempio 1.2.6 e le proprietà della Beta (vedi §A.1.5), allora si ha
EÐ\Ð"Ñ Ñ œ - 
$
8"
EÐ\Ð8Ñ Ñ œ - 
8$
,
8"
e
mentre per le proprietà della Uniforme si ha
EÐ\" Ñ œ - 
$
,
#
per cui risulta che
Œ
8"
#
8"
\Ð"Ñ 
\" ß
Ð\Ð8Ñ  \Ð"Ñ Ñ
8"
8"
8"
è uno stimatore corretto per Ð-ß $ Ñ. La variabile casuale condizionata Ð\" ± BÐ"Ñ ß BÐ8Ñ Ñ è una
variabile casuale mista con distribuzione
0Ð\" ±BÐ"Ñ ßBÐ8Ñ Ñ ÐB" Ñ œ
da cui
"
8#
"
"
IÖBÐ"Ñ × ÐB" Ñ 
IÐBÐ"Ñ ßBÐ8Ñ Ñ ÐB" Ñ  IÖBÐ8Ñ × ÐB" Ñ ,
8
8 BÐ8Ñ  BÐ"Ñ
8
40
La stima per punti
BÐ8Ñ
BÐ"Ñ  BÐ8Ñ
"
8#
"
"
EÐ\" ± BÐ"Ñ ß BÐ8Ñ Ñ œ BÐ"Ñ  (
B"
.B"  BÐ8Ñ œ
.
8
8 BÐ8Ñ  BÐ"Ñ
8
#
BÐ"Ñ
Dunque, dal momento che
E”
8"
#
8"
#
\Ð"Ñ 
\" ± BÐ"Ñ ß BÐ8Ñ • œ
BÐ"Ñ 
EÐ\" ± BÐ"Ñ ß BÐ8Ñ Ñ
8"
8"
8"
8"
"
œ
Ð8BÐ"Ñ  BÐ8Ñ Ñ
8"
e
E”
8"
8"
Ð\Ð8Ñ  \Ð"Ñ Ñ ± BÐ"Ñ ß BÐ8Ñ • œ
ÐBÐ8Ñ  BÐ"Ñ Ñ ,
8"
8"
allora si deve dunque concludere che lo stimatore
Œ
"
8"
Ð8\Ð"Ñ  \Ð8Ñ Ñß
Ð\Ð8Ñ  \Ð"Ñ Ñ
8"
8"
è corretto per Ð-ß $ Ñ con matrice di varianza-covarianza minima.
…
Capitolo 3
Le stime di massima verosimiglianza
3.1. Il metodo della massima verosimiglianza
3.1.1. La definizione di stima di massima verosimiglianza. Anche se esistono in letteratura
statistica vari metodi per ottenere stime per punti, nel seguito viene considerato solo il
cosiddetto metodo della massima verosimiglianza dal momento che è di facile utilizzo e gode di
proprietà ottime.
Questo metodo di stima consiste nello scegliere il valore del parametro che massimizza la
probabilità di ottenere proprio il campione che è stato estratto. Se si considera un modello
statistico Y) , dato il campione ÐB" ß á ß B8 Ñ si dice stima di massima verosimiglianza di ) quel
valore s
) − @ tale che
PÐs
)Ñ œ max PÐ)Ñ .
)−@
Dal momento che la funzione logaritmo è monotona crescente, la precedente condizione è
equivalente a
6Ðs
)Ñ œ max 6Ð)Ñ ,
)−@
che spesso risulta più conveniente dal punto di vista del calcolo. Tenendo presente la precedente
definizione, niente assicura l'esistenza e l'unicità della stima di verosimiglianza. Infine, la stima
sÐB" ß á ß B8 Ñ di uno stimatore
di massima verosimiglianza è la realizzazione campionaria s
)œK
s, detto appunto stimatore di massima verosimiglianza.
K
Talvolta si è interessati solo ad alcuni componenti del vettore di parametri ). In questo caso,
T T
) può essere ripartito in due componenti ) œ Ð)ET ß )F
Ñ , tali che )E − @E e )F − @F e dove
@ œ @E ‚ @F . La cosiddetta verosimiglianza profilo relativa a )E è definita come
P: Ð)E Ñ œ P: Ð)E à B" ß á ß B8 Ñ œ max PÐ)E ß )F Ñ .
)F −@F
La verosimiglianza profilo permette di analizzare la verosimiglianza rispetto a )E eliminando
l'effetto dovuto a )F . Il valore s
)F œ s
) F Ð)E Ñ, tale che P: Ð)E Ñ œ PÐ)E ß s
) F Ñ, è in effetti la stima
di massima verosimiglianza di )F noto )E . Infine, la log-verosimiglianza profilo relativa a )E è
data da
6: Ð)E Ñ œ 6: Ð)E à B" ß á ß B8 Ñ œ max 6Ð)E ß )F Ñ .
)F −@F
Esempio 3.1.1. Dato un campione casuale da \ µ R Ð.ß "Ñ, tenendo presente l'Esempio 1.3.1 si
ha
6Ð.Ñ œ ln - 
#
8 #
–  .Ñ# Ó Ÿ ln -  8= œ 6ÐBÑ
– œ max 6Ð.Ñ ,
Ò=  ÐB
.−‘
#
#
–  .Ñ# !. Dunque .
– è la stima di massima verosimiglianza di .. Lo
dal momento che ÐB
sœB
–
–
stimatore di massima verosimiglianza risulta \ . Dall'Esempio 1.2.3 si ha che \ µ R Ð.ß "Î8Ñ.
42
Le stime di massima verosimiglianza
Di conseguenza, lo stimatore di massima verosimiglianza risulta corretto, coerente e sufficiente
minimale per ., ed è inoltre efficiente.
Se si suppone che nel medesimo modello lo spazio parametrico sia dato da @ œ Ò!ß ∞Ñ,
allora
8
–  .Ñ# Ó  ln IÒ!ß∞Ñ Ð.Ñ
6Ð.Ñ œ ln -  Ò=#  ÐB
#
8=#
– ln -  8 Ð=#  B
–# Ñ
Ÿ maxœln - 
 ln IÒ!ß∞Ñ ÐBÑß
#
#
– 6Ð!Ñ× œ max 6Ð.Ñ ,
œ maxÖ6ÐBÑß
.−Ò!ß∞Ñ
e dunque la stima di massima verosimiglianza è data da
.
sœœ
– B
–!
B
–Ÿ!,
! B
–
– !Ñ. Lo stimatore di massima verosimiglianza risulta maxÐ\ß
ovvero .
!Ñ, che
s œ maxÐBß
ovviamente non possiede una distribuzione Normale. In questo caso è più complesso
determinare le proprietà dello stimatore di massima verosimiglianza.
Se infine si suppone che nel medesimo modello lo spazio parametrico sia dato da
– se B
–  !, mentre non
@ œ Ð!ß ∞Ñ, allora la stima di massima verosimiglianza risulta .
sœB
– Ÿ ! in quanto il valore . œ ! non fa parte dello spazio parametrico. In una situazione
esiste se B
di questo genere, dal momento che . œ ! è un valore per il quale la verosimiglianza ha senso
matematico, si usa porre .
s œ ! e nel seguito sarà sempre fatto uso di questa convenzione. Sulla
–
base di questa osservazione, lo stimatore di massima verosimiglianza risulta dunque maxÐ\ß !х
.
Esempio 3.1.2. Dato un campione casuale da \ µ R Ð.ß 8Ñ, tenendo presente l'Esempio 1.3.2 si
ha
6Ð.ß 8Ñ œ ln - 
#
8
8 #
–  .Ñ# Ó Ÿ ln -  8 ln 8  8= œ 6ÐBß
– 8Ñ œ max 6Ð.ß 8Ñ ,
ln 8 
Ò=  ÐB
.−‘
#
#8
#
#8
–  .Ñ# !. Inoltre, dal momento che in generale è valida la relazione ln B Ÿ B  "
essendo ÐB
essendo la funzione logaritmo concava, allora di conseguenza risulta
lnŒ
.
8
Ÿ
.
",
8
ovvero
 ln 8 
.
Ÿ  ln .  "
8
per . costante positiva. Adoperando quest'ultima disugualianza con . œ =# nella relazione
relativa alla log-verosimiglianza si ha
#
– 8Ñ œ ln -  8 ln 8  8= Ÿ ln -  8 ln =#  8 œ 6ÐBß
– =# Ñ œ max 6Ð.ß 8Ñ .
6ÐBß
.−‘ß8−‘
#
#8
#
#
– =# Ñ è la stima di massima verosimiglianza di Ð.ß 8Ñ. Di conseguenza, lo
Dunque, Ð.
8Ñ œ ÐBß
sß s
–
stimatore di massima verosimiglianza risulta Ð\ß W # Ñ. Tenendo presente i risultati dell'Esempio
–
1.2.5, si ha che \ µ R Ð.ß 8Î8Ñ e 8W # Î8 µ ;#8" e questi due stimatori sono indipendenti. Si
può verificare facilmente che lo stimatore di massima verosimiglianza è asintoticamente
corretto, coerente e sufficiente minimale per Ð.ß 8Ñ, ma non è efficiente non essendo corretto.
Tenendo presente i risultati precedenti la log-verosimiglianza profilo relativa a . è data da
Capitolo 3
43
6: Ð.Ñ œ ln - 
8
–  .Ñ# Ó  8 œ 6Ò.ß =#  ÐB
–  .Ñ# Ó , . − ‘ ,
lnÒ=#  ÐB
#
#
mentre la log-verosimiglianza profilo relativa a 8 è data da
8
8=#
– 8Ñ , 8 − ‘ .
ln 8 
œ 6ÐBß
#
#8
– œ " e =# œ # sono riportati
I grafici delle verosimiglianze profilo standardizzate per 8 œ &, B
nelle Figure 3.1.1 e 3.1.2.
…
6: Ð8Ñ œ ln - 
1
0.8
0.6
0.4
0.2
0
−1
0
1
2
3
– œ " e =# œ # .
Figura 3.1.1. Verosimiglianza profilo standardizzata relativa a . per 8 œ &, B
1
0.8
0.6
0.4
0.2
0
0
1
2
3
4
5
– œ " e =# œ # .
Figura 3.1.2. Verosimiglianza profilo standardizzata relativa a 8 per 8 œ &, B
Esempio 3.1.3. Dato un campione casuale da \ µ IÐ!ß 5Ñ, tenendo presente l'Esempio 1.3.3 e
–, si ha
la disugualianza dell'Esempio 3.1.2 con . œ B
–
8B
–  8 œ 6ÐBÑ
– œ max 6Ð5Ñ ,
6Ð5Ñ œ ln -  8 ln 5 
Ÿ ln -  8 ln B
5−‘
5
– è la stima di massima verosimiglianza di 5 . Lo stimatore di massima
ovvero 5
sœB
–
–
verosimiglianza risulta \ e sulla base dei risultati dell'Esempio 1.2.4 si ha \ µ KÐ!ß 5Î8à 8Ñ.
Lo stimatore di massima verosimiglianza risulta corretto, coerente e sufficiente minimale per 5 ,
ed inoltre è anche efficiente.
…
Esempio 3.1.4. Dato un campione casuale da \ µ Y Ð!ß $ Ñ, sulla base dei risultati ottenuti
nell'Esempio 1.3.4, si ha
6Ð$ Ñ œ ln -  8 ln $  ln IÒBÐ8Ñ ß∞Ñ Ð$ Ñ Ÿ ln -  8 ln BÐ8Ñ œ 6ÐBÐ8Ñ Ñ œ max 6Ð$ Ñ ,
$ −‘
44
Le stime di massima verosimiglianza
dove si è tenuto presente che la funzione logaritmo è crescente e che la log-verosimiglianza può
essere definita per $ BÐ8Ñ (vedi nota finale all'Esempio 3.1.1). Dunque, s$ œ BÐ8Ñ è la stima di
massima verosimiglianza di $ . Lo stimatore di massima verosimiglianza risulta \Ð8Ñ e, tenendo
presente i risultati dell'Esempio 1.2.6, si ha \Ð8Ñ µ F/Ð!ß $ à 8ß "Ñ. Lo stimatore di massima
verosimiglianza risulta asintoticamente corretto, coerente e sufficiente per $ . Dal momento che
non si è in un problema di stima regolare non ha senso considerare l'efficienza dello stimatore.
Lo stimatore di massima verosimiglianza è comunque una trasformata lineare dello stimatore
corretto con varianza minima e per 8 elevato è approssimativamente equivalente a quest'ultimo
stimatore.
…
Esempio 3.1.5. Dato il modello di regressione lineare dell'Esempio 1.1.8, tenendo presente
l'Esempio 1.3.6, si ha
6Ð+ß ,ß 8Ñ œ ln - 
Ÿ ln - 
=#DC
=DC
8
8
#
ln 8 
=


,=

D
Œ
C
–
#
#8
=#D
=D
8
8
ln 8 
#
#8
=#C 
=#DC
=#D
#
–  +Ñ#
 ÐC
—
œ 6Ð+ß
s s,ß 8Ñ œ max 6Ð+ß ,ß 8Ñ ,
+−‘ß,−‘
–  +Ñ# !, e dove s
dal momento che Ð,=D  =DC Î=D Ñ# ! e ÐC
+ œ –C e s, œ =DC Î=#D . Tenendo in
#
considerazione inoltre la disugualianza dell'Esempio 3.1.2 con . œ =#C  =DC
Î=D# , si ha
6Ð+ß
s s,ß 8Ñ œ ln - 
Ÿ ln - 
8
8
ln 8 
#
#8
=#C 
=#DC
8
ln =#C  #
#
=D

=#DC
=#D
8
œ 6Ð+ß
max
6Ð+ß ,ß 8Ñ ,
s s,ß =<# Ñ œ
+−‘ß,−‘ß8−‘
#
#
dove =#< œ =C#  =DC
Î=D# . Sulla base dei risultati dell'Esempio 1.3.6, si ottiene che
=#< œ
"
8
8
ÐC3  s
+  s,D3 Ñ# .
3œ"
Dunque, =#< è in effetti la media degli scarti al quadrato dei valori osservati C3 dai valori stimati
+  s,D3 . Si deve dunque concludere che Ð+ß
s
s s,ß =#< Ñ è la stima di massima verosimiglianza di
–
#
s Fß
s W<# Ñ œ Ð]
Ð+ß ,ß 8Ñ. Lo stimatore di massima verosimiglianza è ÐEß
ß WDC Î=D# ß WC#  WDC
Î=D# Ñ.
seF
s sono combinazioni lineari delle ]3 con i coefficienti delle combinazioni
Gli stimatori E
s
rispettivamente pari a -3 œ "Î8 e -3 œ D3 ÎÐ8=#D Ñ. Per le proprietà della Normale (vedi §A.1.2), E
s µ R Ð+ß 8Î8Ñ e F
s sono statistiche indipendenti distribuite come E
s µ R Ð,ß 8Î8=#D Ñ. Inoltre,
eF
s  FD
s 3 , che a loro volta sono combinazioni lineari delle
W<# dipende dalle variabili casuali ]3  E
]3 con i coefficienti della combinazione pari rispettivamente a
Ú
-34 œ Û
Ü" 

"
8
D3 D 4
8=#D
D3#
"
8  8=#D

4Á3
4œ3
.
Dunque, ancora per le proprietà della Normale (vedi §A.1.2), con una dimostrazione simile a
s, F
s e W<# sono statistiche indipendenti. Inoltre,
quella dell'Esempio 1.2.5, si può verificare che E
tenendo presente la relazione dell'Esempio 1.3.6, si ha
Capitolo 3
45
8
3œ"
Ð]3  +  ,D3 Ñ#
8
œ
8
8
#
WDC
 #
=D
8
–
s D Ñ#  8 Ð]
Ð,=D  F=
 +Ñ#
8
8
–
s  ,Ñ#
8W<#
ÐF
Ð]  +Ñ#
.
œ


8
8ÎÐ8=#D Ñ
8Î8
WC#

Dal momento che
8
3œ"
Ð]3  +  ,D3 Ñ#
µ ;#8
8
s, F
s e W<# sono indipendenti, allora per la proprietà i) della §A.3.1 deve essere
e che E
necessariamente
8W<#
µ ;#8# .
8
Lo stimatore di massima verosimiglianza risulta asintoticamente corretto, coerente e sufficiente
minimale per Ð+ß ,ß 8Ñ. Tenendo presente i risultati precedenti, la log-verosimiglianza profilo
relativa a Ð+ß ,Ñ è data da
8
8
s  ,Ñ#  Ð+
6: Ð+ß ,Ñ œ ln -  lnÒ=#<  =D# Ð,
s  +Ñ# Ó 
#
#
#
# s
#
#
œ 6Ò+ß ,ß =<  =D Ð,  ,Ñ  Ð+
s  +Ñ Ó , Ð+ß ,Ñ − ‘# ,
mentre la log-verosimiglianza profilo relativa a + è
8
8
6: Ð+Ñ œ ln -  lnÒ=#<  Ð+
s  +Ñ# Ó  œ 6Ò+ß s,ß =<#  Ð+
s  +Ñ#Ó , + − ‘ ,
#
#
e la log-verosimiglianza profilo relativa a , è
8
s  ,Ñ# Ó  8 œ 6Ò+ß
s  ,Ñ#Ó , , − ‘ .
6: Ð,Ñ œ ln -  lnÒ=#<  =D# Ð,
s ,ß =<#  =D# Ð,
#
#
I grafici delle verosimiglianze profilo standardizzate per 8 œ &, =#D œ #, s
+ œ !, s, œ # e =<# œ "
sono riportati nelle Figure 3.1.3, 3.1.4 e 3.1.5.
…
1
0.75
4
0.5
3
0.25
2
0
2
1
1
0
−1
0
−2
Figura 3.1.3. Verosimiglianza profilo standardizzata relativa a Ð+ß ,Ñ
per 8 œ &, =#D œ #, s
+ œ !, s, œ # e =<# œ ".
46
Le stime di massima verosimiglianza
1
0.8
0.6
0.4
0.2
0
−2
−1
0
1
2
Figura 3.1.4. Verosimiglianza profilo standardizzata relativa a +
per 8 œ &, =#D œ #, s
+ œ !, s, œ # e =<# œ ".
1
0.8
0.6
0.4
0.2
0
0
1
2
3
4
Figura 3.1.5. Verosimiglianza profilo standardizzata relativa a ,
per 8 œ &, =#D œ #, s
+ œ !, s, œ # e =<# œ ".
Esempio 3.1.6. Dato un campione casuale da \ µ IÐ-ß 5Ñ, sulla base dei risultati ottenuti
nell'Esempio 1.3.7, si ha
–B
6Ð-ß 5Ñ œ ln -  8 ln 5  8
 ln IÐ∞ßBÐ"Ñ Ó Ð-Ñ
5
–  BÐ"Ñ
B
Ÿ ln -  8 ln 5  8
œ 6ÐBÐ"Ñ ß 5Ñ œ max 6Ð-ß 5Ñ
-−‘
5
–  -Ñ è decrescente in - e la log-verosimiglianza
dove si è tenuto presente che la funzione ÐB
può essere definita per BÐ"Ñ Ÿ - (vedi nota finale all'Esempio 3.1.1). Adoperando la
–  BÐ"Ñ nella precedente relazione, si ha inoltre
disugualianza dell'Esempio 3.1.2 con . œ B
–  BÐ"Ñ
B
6ÐBÐ"Ñ ß 5Ñ œ ln -  8 ln 5  8
5
–  BÐ"Ñ Ñ  8
Ÿ ln -  8 lnÐB
–  BÐ"Ñ Ñ œ max 6Ð-ß 5Ñ ,
œ 6ÐBÐ"Ñ ß B
-−‘ß5−‘
–  BÐ"Ñ Ñ è la stima di massima verosimiglianza di Ð-ß 5Ñ. Lo stimatore
sß 5
Dunque, Ðs Ñ œ ÐBÐ"Ñ ß B
–
di massima verosimiglianza risulta Ð\Ð"Ñ ß \  \Ð"Ñ Ñ. Non è agevole determinare la funzione di
densità congiunta di questo stimatore e dunque non è immediato ottenere le relative proprietà.
Inoltre, la log-verosimiglianza profilo relativa a - risulta
Capitolo 3
47
–  -Ñ  8  ln IÐ∞ßB Ó Ð-Ñ œ 6Ð-ß B
–  -Ñ , - − ‘ ,
6: Ð-Ñ œ ln -  8 lnÐB
Ð"Ñ
mentre la log-verosimiglianza profilo relativa a 5 è data da
–  BÐ"Ñ
B
6: Ð5Ñ œ ln -  8 ln 5  8
œ 6ÐBÐ"Ñ ß 5Ñ , 5 − ‘ .
5
– œ # e BÐ"Ñ œ " sono riportati
I grafici delle verosimiglianze profilo standardizzate per 8 œ &, B
nelle Figure 3.1.6 e 3.1.7.
…
1
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
1
1.2
– œ # e BÐ"Ñ œ ".
Figura 3.1.6. Verosimiglianza profilo standardizzata relativa a - per 8 œ &, B
1
0.8
0.6
0.4
0.2
0
0
0.5
1
1.5
2
2.5
– œ # e BÐ"Ñ œ ".
Figura 3.1.7. Verosimiglianza profilo standardizzata relativa a 5 per 8 œ &, B
Esempio 3.1.7. Dato un campione casuale da \ µ PÐ.ß "Ñ, sulla base dei risultati dell'Esempio
1.3.10, 6Ð.Ñ raggiunge il massimo quando la funzione
8
2Ð.Ñ œ
± BÐ3Ñ  . ±
3œ"
raggiunge il minimo. Per 8 dispari, ovvero 8 œ #6  ", il minimo di 2Ð.Ñ è raggiunto per BÐ6"Ñ ,
mentre per 8 pari, ovvero 8 œ #6, il minimo di 2Ð.Ñ è raggiunto per qualsiasi valore compreso
fra BÐ6Ñ e BÐ6"Ñ . Dunque, in questo ultimo caso esistono infinite stime di verosimiglianza.
Tenendo presente la definizione data nella §1.2.4, si deve concludere che il minimo di 2Ð.Ñ è
~ se 8 è dispari e quindi .
~ è la stima di massima
raggiunto per la mediana campionaria B
sœB
~
verosimiglianza di .. Di conseguenza, lo stimatore di massima verosimiglianza risulta \ se 8 è
dispari, mentre non è univocamente definito se 8 è pari.
…
48
Le stime di massima verosimiglianza
3.1.2. Alcuni aspetti relativi al calcolo delle stime di massima verosimiglianza. Negli esempi
della §3.1.1 la massimizzazione della verosimiglianza è stata volutamente ottenuta senza
ricorrere all'uso delle derivate. I motivo di questa scelta sono vari: i) innanzitutto nel punto di
massimo può non esistere la derivata (vedi Esempio 3.1.7); ii) il punto di massimo potrebbe
essere sulla frontiera dello spazio parametrico (vedi Esempio 3.1.4); iii) la massimizzazione con
l'uso delle derivate comporta il calcolo del vettore delle derivate prime e della matrice hessiana
che può essere oneroso quando il numero dei parametri è elevato (vedi Esempio 3.1.6).
Quando tuttavia la condizione c) della §2.1.2 è verificata e se risulta 6Ð)Ñ Ä  ∞ quando )
si avvicina alla frontiera di @, la stima di massima verosimiglianza s
) è una delle soluzioni
dell'equazione vettoriale, detta equazione di verosimiglianza, data da
s8 Ð) à B" ß á ß B8 Ñ œ
`
6Ð)à B" ß á ß B8 Ñ œ ! .
`)
La stima di massima verosimiglianza si ottiene per quella soluzione per cui si ha il massimo
assoluto della verosimiglianza. Inoltre, se la matrice hessiana cambiata di segno
#
sI8 Ð) Ñ œ  ` s8 Ð)à B" ß á ß B8 Ñ œ  `
6Ð)à B" ß á ß B8 Ñ
`)
` )` )T
è definita positiva, allora la log-verosiglianza risulta concava. In questo caso esiste un sola
soluzione all'equazione di verosimiglianza che corrisponde appunto alla stima di massima
verosimiglianza. La quantità sI8 Ðs
) Ñ è detta informazione osservata di Fisher.
Esempio 3.1.8. Dato un campione casuale da \ µ F3Ð"ß :Ñ, tenendo presente i risultati ottenuti
nell'Esempio 1.3.5, si ha che 6Ð:Ñ è derivabile su tutto lo spazio parametrico Ð!ß "Ñ e
lim 6Ð:Ñ œ lim 6Ð:Ñ œ  ∞ .
:Ä!
:Ä"
Inoltre, si ha la seguente equazione di verosimiglianza
=8 Ð:à B" ß á ß B8 Ñ œ
– 8  8B
–
`
8B
6Ð:Ñ œ

œ!,
`:
:
":
–. Infine, essendo
che ha un'unica soluzione s: œ B
#
–
–
sM 8 Ð:Ñ œ  ` 6Ð:Ñ œ 8B  8  8B  ! ,
`:#
:#
Ð"  :Ñ#
–
– è la stima di massima verosimiglianza. Lo stimatore di verosimiglianza risulta \
allora s: œ B
e
–
per le proprietà della Binomiale (vedi §A.2.2) si ha 8\ µ F3Ð8ß :Ñ. Lo stimatore di massima
verosimiglianza risulta corretto, coerente e sufficiente minimale per :, ed inoltre è anche
efficiente.
…
Esempio 3.1.9. Dato un campione casuale da \ µ R Ð.ß 8Ñ, la condizione c) della §2.1.2 è
verificata e 6Ð.ß 8Ñ Ä  ∞ quando ci si avvicina alla frontiera dello spazio parametrico. Si ha
la seguente equazione di verosimiglianza
s 8 Ð . ß 8 à B" ß á ß B 8 Ñ œ
`
`.
`
`8
6Ð.ß 8Ñ
6Ð.ß 8Ñ
œŒ

8
#8

– =# Ñ. Inoltre essendo
che ha un'unica soluzione Ð.
8Ñ œ ÐBß
sß s
8 –
8 ÐB  .Ñ
8
#
–
#8# Ò=  ÐB
 .Ñ# Ó
œ!,
Capitolo 3
49
sI8 Ð.ß 8Ñ œ 
œŒ
8
8#
`#
` .# 6Ð.ß 8Ñ
`#
` .` 8 6Ð.ß 8Ñ
8
8
–  .Ñ
ÐB
`#
` .` 8 6Ð.ß 8Ñ
`#
` 8# 6Ð.ß 8Ñ
8 –
8# ÐB  .Ñ
8
8
#
–
#8#  8$ Ò=  ÐB

 .Ñ# Ó
,
si ottiene
– = # Ñ œ Œ =#
sI8 ÐBß
!
8
!
,
8
#=%
che è una matrice definita positiva. Dal momento che l'equazione di verosimiglianza ha un'unica
soluzione e che il massimo non può essere sulla frontiera dello spazio parametrico, si deve
– =# Ñ è la stima di massima verosimiglianza di Ð.ß 8Ñ. Dunque, i
concludere che Ð.
8Ñ œ ÐBß
sß s
risultati dell'Esempio 3.1.2 sono stati ottenuti di nuovo.
…
Anche se la condizione c) della §2.1.2 è verificata, può accadere che l'equazione di
verosimiglianza non abbia soluzioni esplicite e quindi in questo caso si deve ricorrere a tecniche
numeriche. Un metodo iterativo per ottenere un'approssimazione della stima di massima
verosimiglianza è quello di Newton-Raphson. Partendo da una stima iniziale s
) ! (anche rozza e
ottenuta eventualmente da un metodo alternativo alla massima verosimiglianza), il procedimento
è basato sull'equazione ricorsiva
s
) 4" œ s
) 4  sI8 Ðs
) 4 Ñ" s8 Ðs
) 4 Ñ , 4 œ !ß "ß á .
L'iterazione ha termine per quel 4 tale che ² s
)4  s
) 4" ²  % con %  ! errore prefissato e in
questo caso l'approssimazione della stima di massima verosimiglianza è data da s
) 4 . Se la logverosimiglianza non è concava, niente assicura che la procedura di Newton-Raphson abbia
effettivamente determinato un massimo assoluto. In questo caso, è opportuna una
rappresentazione grafica preliminare della log-verosimiglianza e la scelta di vari punti iniziali
per l'iterazione.
Esempio 3.1.10. Dato un campione casuale da \ µ [ Ð!ß "à :Ñ, il modello statistico dipende dal
parametro ) œ : con @ œ ‘ , ovvero
08 À 08 ÐB" ß á ß B8 à :Ñ œ $ :B:"
expÐ  B:3 ÑIÐ!ß∞Ñ ÐB3 ÑŸ ,
3
8
Y: œ
3œ"
da cui si ottiene la seguente log-verosimiglianza
8
6Ð:Ñ œ ln -  8 ln :  Ð:  "Ñ
8
ln B3 
3œ"
B:3 , : − ‘ .
3œ"
Dal momento che
=8 Ð:à B" ß á ß B8 Ñ œ
`
8
6Ð:Ñ œ 
`:
:
8
8
ln B3 
3œ"
B:3 ln B3 ,
3œ"
allora l'equazione di verosimiglianza non ammette soluzioni esplicite. Inoltre risulta
#
sM 8 Ð:Ñ œ  ` 6Ð:Ñ œ 8 
`:#
:#
8
B:3 Ðln B3 Ñ#  ! .
3œ"
Dunque, dal momento che se esiste almeno un B3  " risulta
50
Le stime di massima verosimiglianza
lim 6Ð:Ñ œ lim 6Ð:Ñ œ  ∞ ,
:Ä∞
:Ä!
la stima di massima verosimiglianza coincide con la soluzione dell'equazione di
verosimiglianza.
Per esemplificare il metodo di Newton-Raphson si è generato artificialmente un campione
casuale da questo modello con : œ $ e 8 œ "!, ottenendo il campione
Ð!.(!%!"ß !.(&%"'ß !.)*'"*ß !.*(%)&ß ".#&"*$ß ".(!()"ß !.)!"'*ß "."#"#!ß !.*&#!!ß ".%*'$#Ñ .
Scegliendo come stima iniziale s:! œ 8" 83œ" B#3 (una stima piuttosto grezza) e un errore pari a
% œ !.!!!!", il metodo di Newton-Raphson fornisce le iterazioni della Tavola 3.1.1.
Tavola 3.1.1. Iterazioni per il metodo di Newton-Raphson.
4
!
"
#
$
%
&
s:4
".#$%*'
#."%'""
#.()#"$
#.)$&#$
#.)$&#&
#.)$&#&
=8 Ð:
s4 Ñ
'.*(##)
#.$&&"%
!."(%))
!.!!!!&
!.!!!!!
!.!!!!!
6Ð:
s4 Ñ
 ).()(#!
 %.(*#!)
 %.!!!*&
 $.**'$"
 $.**'$"
 $.**'$"
Dunque la stima di massima verosimiglianza è data da s: ¶ #.)$&#& a meno di un errore pari a
% œ !.!!!!". In questo caso, è stata ottenuta una soluzione specifica, nel senso che cambiando
campione si deve ripercorrere tutto il procedimento di calcolo. Infine, si deve sottolineare che
non si dispone della forma analitica dello stimatore di massima verosimiglianza e quindi non si
può affermare nulla circa la sua distribuzione e le relative proprietà.
…
Esempio 3.1.11. Se si assume che \ µ GÐ-ß "Ñ, allora dato un campione casuale il modello
statistico dipende dal parametro ) œ - con @ œ ‘, ovvero
08 À 08 ÐB" ß á ß B8 à -Ñ œ $
8
Y- œ
3œ"
"
,
1Ò"  ÐB3  -Ñ# Ó Ÿ
da cui si ottiene la seguente log-verosimiglianza
8
lnÒ"  ÐB3  -Ñ# Ó , - − ‘ .
6Ð-Ñ œ ln - 
3œ"
Dal momento che
=8 Ð-à B" ß á ß B8 Ñ œ
`
6Ð-Ñ œ
`-
8
3œ"
#ÐB3  -Ñ
œ!,
"  ÐB3  -Ñ#
allora è evidente che l'equazione di verosimiglianza non ammette soluzioni esplicite. Inoltre
risulta
#
sM 8 Ð-Ñ œ  ` 6Ð-Ñ œ
` -#
8
3œ"
#Ò"  ÐB3  -ÑÓ
.
Ò"  ÐB3  -Ñ# Ó#
Il segno della precedente quantità dipende da - e quindi la log-verosimiglianza non è concava.
Per esemplificare il metodo di Newton-Raphson si è generato artificialmente un campione
casuale da questo modello con - œ " e 8 œ "!, ottenendo
Ð!.#(&((ß %".$(%*#ß !.&!!%'ß $.*)&("ß !.&#*'$ß ".*%##)ß  "."$(!#ß '.$#)*!ß !.*($)(ß ".*!$*!Ñ .
Capitolo 3
51
s! œ ÐBÐ&Ñ  BÐ'Ñ ÑÎ# (ovvero la mediana campionaria) e un
Scegliendo come stima iniziale errore pari a % œ !.!!!!", il metodo di Newton-Raphson fornisce le iterazioni della Tavola
3.1.2.
Tavola 3.1.2. Iterazioni per il metodo di Newton-Raphson.
4
!
"
#
$
%
&
s:4
".%$))*
!.()%(&
!.*"$"&
!.*##"%
!.*##"*
!.*##"*
=8 Ð:
s4 Ñ
".(#*$$
 !.'(%&$
 !.!%"#&
 !.!!!##
!.!!!!!
!.!!!!!
6Ð:
s4 Ñ
 "(.$&$%&
 "'.*!()'
 "'.)'#)$
 "'.)'#'%
 "'.)'#'%
 "'.)'#'%
Si può inoltre verificare graficamente che per questo campione la log-verosimiglianza presenta
s ¶ !.*##"* a meno
un solo massimo e dunque la stima di massima verosimiglianza è data da di un errore pari a % œ !.!!!!". Per un ulteriore campione la log-verosimiglianza potrebbe
presentare più massimi relativi e quindi il procedimento dovrebbe essere eventualmente ripetuto
con più stime iniziali.
…
3.2. Le proprietà degli stimatori di massima verosimiglianza
3.2.1. La proprietà di equivarianza. La proprietà di equivarianza assicura la congruenza della
stima di massima verosimiglianza quando si riparametrizza il modello originale mediante
funzioni biunivoche dei parametri.
Dato un modello statistico Y) , se gÀ @ Ä I è una funzione biunivoca e # œ gÐ)Ñ, allora sia
P# Ð# Ñ la verosimiglianza relativa al modello statistico riparametrizzato Y# . Si ha
P# Ð# Ñ œ PÒg" Ð# ÑÓ œ PÐ)Ñ ,
per cui, dal momento che il massimo di PÐ)Ñ si ha per s
) , il massimo di P# Ð# Ñ si ottiene per
#
)Ñ, che dunque risulta la stima di massima verosimiglianza di # . Questa proprietà, detta
s œ gÐs
equivarianza, permette di calcolare facilmente la stima di massima verosimiglianza di funzioni
biunivoche di ) quando si dispone della stima di massima verosimiglianza s
) . La proprietà
dell'equivarianza evita inoltre incongrunze passando fra le varie parametrizzazioni di uno stesso
modello statistico. La stima di massima verosimiglianza #
s è la realizzazione campionaria dello
s
stimatore di verosimiglianza gÐKÑ, la cui distribuzione può essere trovata agevolmente a partire
s , dal momento che la trasformazione è biunivoca.
da quella di K
Esempio 3.2.1. Dato un campione casuale da \ µ IÐ!ß 5Ñ, può risultare interessante stimare
VarÐ\Ñ œ 5# . La trasformazione 8 œ 5# per 5  ! è biunivoca. Inoltre, dall'Esempio 3.1.3
–#
– e quindi s
–# . Lo stimatore di massima verosimiglianza risulta \
risulta 5
8œB
, la cui
sœB
–
distribuzione può essere determinata facilmente da quella di \ .
…
3.2.2. La sufficienza e gli stimatori di massima verosimiglianza. Gli stimatori di massima
verosimiglianza sono trasformate di stimatori sufficienti. Infatti, dato un modello statistico Y) ,
~
se esiste uno stimatore K sufficiente per ) , sulla base del criterio di fattorizzazione di Neyman
risulta
~
PÐ)Ñ œ PÐ)à B" ß á ß B8 Ñ œ -1Ð)à )Ñ , ) − @ .
Di conseguenza la stima di verosimiglianza può essere ottenuta semplicemente massimizzando
~
~
1Ð)à )Ñ. Dal momento che quest'ultima funzione dipende da ÐB" ß á ß B8 Ñ solo attraverso ) , allora
52
Le stime di massima verosimiglianza
~
la stima di massima verosimiglianza s
) è funzione di ) . Di conseguenza anche lo stimatore di
~
s è una trasformata dello stimatore K
massima verosimiglianza K
sufficiente per ) .
Esempio 3.2.2. Dato un campione casuale da \ µ R Ð.ß 8Ñ, dall'Esempio 3.1.2 è noto che lo
–
stimatore di massima verosimiglianza risulta Ð\ß W # Ñ. Nell'Esempio 2.5.3 si è ottenuto che
–
Ð\ß W # Ñ è sufficiente per Ð.ß 8Ñ e dunque i risultati di questa sezione risultano verificati.
…
Esempio 3.2.3. Dato un campione casuale da \ µ IÐ!ß 5Ñ, dall'Esempio 3.1.3 è noto che lo
–
–
stimatore di masima verosimiglianza risulta \ . Nell'Esempio 2.5.2 si è ottenuto che \ è
sufficiente e quindi i risultati di questa sezione risultano verificati.
…
3.2.3. La famiglia esponenziale e gli stimatori di massima verosimiglianza. Nel caso
particolare in cui la distribuzione specificata dal modello statistico Y) appartenga alla famiglia
esponenziale, gli stimatori di massima verosimiglianza godono di interessanti proprietà. Per
semplicità si analizza inizialmente il caso di un parametro. La verosimiglianza risulta
~
PÐ)Ñ œ - expÒKÐB" ß á ß B8 Ñ:Ð)Ñ  (Ð)ÑÓ ,
e quindi la log-verosimiglianza è data da
~
6Ð)Ñ œ ln -  KÐB" ß á ß B8 Ñ:Ð)Ñ  (Ð)Ñ .
Di conseguenza, l'equazione di verosimiglianza risulta
=8 Ð)à B" ß á ß B8 Ñ œ
`
`
`
~
6Ð)Ñ œ KÐB" ß á ß B8 Ñ
:Ð ) Ñ 
(Ð )Ñ œ ! .
`)
`)
`)
Tenendo presente che la media della funzione punteggio è nulla, dalla precedente relazione si ha
inoltre
`
`
~
EÒ=8 Ð)à \" ß á ß \8 ÑÓ œ EÒKÐ\" ß á ß \8 ÑÓ
:Ð ) Ñ 
(Ð ) Ñ œ ! ,
`)
`)
ovvero, combinando le precedenti equazioni, si deve avere
~
~
EÒKÐ\" ß á ß \8 ÑÓ œ KÐB" ß á ß B8 Ñ .
~
Si può dimostrare che questa equazione ammette soluzione se KÐB" ß á ß B8 Ñ è un valore interno
~
al supporto dello stimatore KÐ\" ß á ß \8 Ñ (vedi Brown, 1986). Se la stima di massima
~
verosimiglianza esiste, dunque deve essere quel valore s) per cui la media dello stimatore K è
s
uguale alla sua determinazione campionaria. Di conseguenza, lo stimatore di verosimiglianza K
~
è funzione dello stimatore K che per i risultati della §2.5.3 è sufficiente minimale per ) . Inoltre,
l'informazione osservata di Fisher è data da
sM 8 Ðs)Ñ œ  ` =8 Ð)à B" ß á ß B8 Ѻ
`)
) œs)
#
`
`#
~
œ  KÐB" ß á ß B8 Ñ # :Ð)Ѻ
 # ( Ð) Ѻ
`)
`)
) œs)
) œs)
#
#
`
`
~
œ  EÒKÐ\" ß á ß \8 ÑÓ # :Ð)Ѻ
 # (Ð) Ѻ
,
`)
`)
) œs)
) œs)
mentre l'informazione di Fisher è data da
M8 Ð)Ñ œ  E”
`
`#
`#
~
=8 Ð)à B" ß á ß B8 Ñ• œ  EÒKÐ\" ß á ß \8 ÑÓ # :Ð)Ñ  # (Ð)Ñ .
`)
`)
`)
Capitolo 3
53
Si deve concludere dunque che M8 Ðs)Ñ œ sM 8 Ðs)Ñ. Dal momento che M8 Ð)Ñ  ! per ogni ), allora si
ha anche sM 8 Ðs)Ñ  !. Di conseguenza, ogni soluzione dell'equazione di verosimiglianza è un
punto di massimo e quindi la soluzione è unica. Per inciso si noti che se la distribuzione
specificata dal modello statistico appartiene alla famiglia esponenziale, allora la procedura di
Newton-Raphson determina sicuramente un massimo assoluto. Infine, per i risultati ottenuti
~
nella §2.4.4, se esiste uno stimatore efficiente, questo è dato da K e lo stimatore di massima
~
s coincide con K
verosimiglianza K
.
Questi risultati possono essere generalizzati al caso di un vettore di parametri ) . In questo
caso la stima di massima verosimiglianza è data dalla soluzione dell'equazione
~
~
EÒKÐ\" ß á ß \8 ÑÓ œ KÐB" ß á ß B8 Ñ ,
~
s è funzione dello stimatore K
ed è unica. Inoltre lo stimatore di verosimiglianza K
sufficiente
minimale per ). Nel caso infine che esista uno stimatore efficiente allora questo è dato dallo
~
sœK
stimatore di massima verosimiglianza e risulta K
.
Esempio 3.2.4. Dato un campione casuale da \ µ R Ð.ß "Ñ, è noto dall'Esempio 2.4.13 che la
classe di funzioni di densità definita in questo modello fa parte della famiglia esponenziale. La
–
–. Dal
stima di massima verosimiglianza è data dalla soluzione dell'equazione EÐ\Ñ œ B
–
momento che EÐ\Ñ œ . (vedi Esempio 1.2.3), allora la stima di massima verosimiglianza
–, risultato ottenuto in precedenza nell'Esempio 3.1.1. Lo stimatore di
risulta .
sœB
–
verosimiglianza \ è efficiente (vedi Esempio 2.4.9) e coincide infatti con lo stimatore
sufficiente minimale per ..
…
Esempio 3.2.5. Dato un campione casuale da \ µ R Ð.ß 8Ñ, è noto dall'Esempio 2.4.15 che la
classe di funzioni di densità definita in questo modello fa parte della famiglia esponenziale. La
stima di massima verosimiglianza è data dall'equazione vettoriale
–
–#
– =#  B
–# Ñ .
EÒÐ\ß W #  \ ÑÓ œ ÐBß
–
–#
Dal momento che EÐ\Ñ œ ., EÐW # Ñ œ Ð8  "Ñ8Î8 e EÐ\ Ñ œ 8Î8  .# (vedi Esempio 1.2.3 e
§1.2.3), la precedente equazione si riduce a
– =#  B
–# Ñ ,
Ð.ß 8  .# Ñ œ ÐBß
– =# Ñ, un risultato ottenuto in precedenza
per cui la stima di massima verosimiglianza risulta ÐBß
–
nell'Esempio 3.1.2. Lo stimatore di verosimiglianza Ð\ß W # Ñ non è efficiente dal momento che
non è corretto per Ð.ß 8Ñ e quindi, dati i risultati di questa sezione, non esiste in generale uno
–
stimatore efficiente. In ogni caso lo stimatore Ð\ß W # Ñ è sufficiente minimale per Ð.ß 8Ñ.
…
3.3. Le proprietà degli stimatori di massima verosimiglianza per
grandi campioni
3.3.1. La coerenza degli stimatori di massima verosimiglianza. Supponiamo che Y8ß) sia un
modello statistico relativo ad un campionamento casuale per ogni 8. Siano inoltre valide le
seguenti condizioni:
a) il modello statistico è identificabile secondo la definizione data nella §2.1.2.
b) lo spazio parametrico @ è un aperto di ‘5 ;
c) la funzione punteggio sÐ) à BÑ esiste ed è continua per ogni ) − @ e per ogni B − f) (a meno
di insiemi di probabilità nulla);
d) risulta
54
Le stime di massima verosimiglianza
(
`
`
0 ÐBà )Ñ . / œ
( 0 ÐBà )Ñ . / .
` ) f)
f) ` )
Le condizioni a)-d) date in questa sezione sono leggermente più blande di quelle per un
problema di stima regolare. In effetti, anche se per provare i risultati che seguono sono
sufficienti solo le precedenti condizioni, molti autori assumono comunque di trovarsi in un
problema di stima regolare.
Per semplicità si considera inizialmente un solo parametro ). Se )! − @ è il vero valore del
parametro, allora innanzitutto si vuole dimostrare che l'equazione di verosimiglianza fornisce
una successione di insiemi di soluzioni (ognuno dei quali non vuoto) dalla quale può essere
scelta una successione di soluzioni che converge a )! quasi certamente, fatto che equivale
~
dunque ad ottenere uno stimatore K8 fortemente coerente per )! . Per la Legge Forte dei Grandi
Numeri di Khintchine (vedi Fattorini, 1994) si ha
"
"
=8 Ð ) à \ " ß á ß \ 8 Ñ œ
8
8
8
;-
=Ð)à \3 Ñ Ä +Ð)Ñ ,
3œ"
dove
+Ð)Ñ œ (
=Ð)à BÑ0 ÐBà )! Ñ . / , ) − @ ,
f )!
essendo 8" 83œ" =Ð)à \3 Ñ una media campionaria di variabili casuali indipendenti ed
ugualmente distribuite con media +Ð)Ñ. Per l'assunzione d) la funzione +Ð)Ñ è continua e
strettamente decrescente in un intorno di )! del tipo Ð)!  %ß )!  %Ñ con %  !. Dal momento
che +Ð)! Ñ œ ! per le proprietà della funzione punteggio, risulta +Ð)!  %Ñ  ! e +Ð)!  %Ñ  !.
Allora si ha
"
"
=8 Ð )!  % à \ " ß á ß \ 8 Ñ œ
8
8
8
;-
=Ð)!  %à \3 Ñ Ä +Ð)!  %Ñ  !
3œ"
e
"
"
=8 Ð )!  % à \ " ß á ß \ 8 Ñ œ
8
8
8
;-
=Ð)!  %à \3 Ñ Ä +Ð)!  %Ñ  ! .
3œ"
Di conseguenza, tenendo presente la condizione c), deve esistere un valore ) − Ð)!  %ß )!  %Ñ
per cui si ha
"
"
=8 Ð ) à \ " ß á ß \ 8 Ñ œ
8
8
8
;-
=Ð)à \3 Ñ Ä ! .
3œ"
Dal momento che % può essere scelto piccolo a piacere, questo risultato è equivalente ad
affermare che esiste una successione di soluzioni dell'equazione di verosimiglianza che
~
converge a )! quasi certamente, ovvero si è ottenuto uno stimatore K8 fortemente coerente per
)! .
Si dovrebbero sottolineare alcuni aspetti importanti di questo risultato. In primo luogo, si è
visto che esiste una successione di soluzioni dell'equazione di verosimiglianza che permette di
~
costruire uno stimatore K8 fortemente coerente per )! , ma niente viene detto riguardo al modo
in cui scegliere questa successione dall'insieme delle soluzioni dell'equazione di
~
verosimiglianza. In secondo luogo, lo stimatore K8 non coincide necessariamente con lo
s 8 . I due stimatori coincidono nel caso che l'equazione di
stimatore di massima verosimiglianza K
verosimiglianza abbia un'unica soluzione che massimizza la verosimiglianza. Il risultato visto è
Capitolo 3
55
comunque importante in quanto assicura la coerenza forte dello stimatore ottenuto attraverso
l'equazione di verosimiglianza, e questo fatto giustifica fra l'altro il procedimento di NewtonRaphson per grandi campioni.
I precedenti risultati possono essere estesi al caso di un vettore di parametri ) . Se )! − @ è il
vero valore del parametro, l'equazione di verosimiglianza fornisce una successione di insiemi di
soluzioni, dalla quale può essere scelta una successione di soluzioni che converge a )! quasi
~ ;certamente, ovvero esiste uno stimatore K8 Ä )! (vedi Wilks, 1962).
Esempio 3.3.1. Dato un campione casuale da \ µ F3Ð"ß :Ñ, le condizioni a)-d) di questa
sezione possono essere facilmente verificate. Inoltre, dall'Esempio 3.1.8 si ha che per ogni 8
l'equazione di verosimiglianza ha una soluzione unica che massimizza la log-verosimiglianza.
Dunque, la soluzione dell'equazione di verosimiglianza coincide con lo stimatore di massima
– ;…
verosimiglianza e si ha \ 8 Ä :! .
Esempio 3.3.2. Dato un campione casuale da \ µ R Ð.ß 8Ñ, le condizioni sono a)-d) di questa
sezione sono verificate, in quanto ci si trova in un problema di stima regolare. Inoltre,
dall'Esempio 3.1.9 risulta che per ogni 8 l'equazione di verosimiglianza ha una soluzione unica
che massimizza la log-verosimiglianza. La soluzione dell'equazione di verosimiglianza coincide
;–
con lo stimatore di massima verosimiglianza e si ha Ð\ 8 ß W8# Ñ Ä Ð.! ß 8! Ñ.
…
Con una dimostrazione più complessa della precedente, si può ottenere anche la coerenza
s. Supponiamo dunque che Y8ß) sia un
forte dello stimatore di massima verosimiglianza K
modello statistico relativo ad un campionamento casuale per ogni 8 e siano verificate le seguenti
condizioni:
aw ) il modello statistico è identificabile secondo la definizione data nella §2.1.2.
bw ) lo spazio parametrico @ è un compatto di ‘5 ;
cw ) la funzione 0 ÐBà )Ñ è semicontinua superiormente in ) per ogni ) − @ e per ogni B − f) (a
meno di insiemi di probabilità nulla);
d w ) esiste una funzione 5ÐBÑ tale che
(
± 5ÐBÑ ± 0 ÐBà )! Ñ . /  ∞ ,
f )!
dove )! è il vero valore del parametro, e
ln”
0 ÐBà )Ñ
•  5ÐBÑ
0 ÐBà )! Ñ
per ogni ) − @ e per ogni B − f) (a meno di insiemi di probabilità nulla).
Se le condizioni aw )-d w ) sono verificate, si può dimostrare che lo stimatore di massima
;s8 Ä
verosimiglianza è fortemente coerente, ovvero K
)! per 8 Ä ∞ (vedi Ferguson, 1996).
3.3.2. La distribuzione per grandi campioni degli stimatori di massima verosimiglianza.
Supponiamo che Y8ß) sia un modello statistico relativo ad un campionamento casuale per ogni 8
e siano inoltre valide le seguenti condizioni:
a) il modello statistico è identificabile secondo la definizione data nella §2.1.2.
b) lo spazio parametrico @ è un aperto di ‘5 ;
c) le derivate
`
0 ÐBà )Ñ
`)
e
56
Le stime di massima verosimiglianza
`#
0 ÐBà )Ñ
` )` )T
esistono e sono continue per ogni ) − @ e per ogni B − f) (a meno di insiemi di probabilità
nulla);
d) risulta
(
`
`
0 ÐBà )Ñ . / œ
( 0 ÐBà )Ñ . /
` ) f)
f) ` )
e
`#
`#
0 ÐBà )Ñ . / œ
(
( 0 ÐBà )Ñ . / .
T
` ) ` ) T f)
f) ` ) ` )
s 8 coincide con lo stimatore ottenuto dall'unica
eÑ lo stimatore di massima verosimiglianza K
soluzione dell'equazione di verosimiglianza;
f) esiste una funzione 5ÐBÑ tale che
(
± 5ÐBÑ ± 0 ÐBà )! Ñ . /  ∞ ,
f )!
`
dove )! è il vero valore del parametro, e ogni componente di `)
sÐ) à BÑ è limitato uniformente in
valore assoluto da 5ÐBÑ in un intorno di )! ;
g) l'informazione di Fisher IÐ) Ñ relativa ad una sola osservazione è definita positiva.
Le condizioni a)-d) sono leggermente più forti di quelle per un problema di stima regolare,
#
nel senso che nella condizione c) si richiede che la derivata ` )`` )T 0 ÐBà )Ñ sia anche continua.
Si vuole ora determinare la distribuzione per grandi campioni dello stimatore di massima
verosimiglianza. Per semplicità si analizza inizialmente il caso di un parametro. Se )! − @ è il
vero valore del parametro, per un dato campione ÐB" ß á ß B8 Ñ − V8 , consideriamo l'espansione
in serie di Taylor della funzione punteggio =8 Ð)à B" ß á ß B8 Ñ œ 83œ" =Ð)à B3 Ñ in )! , ovvero
`
=8 Ð)! à B" ß á ß B8 Ñ œ =8 Ðs)8 à B" ß á ß B8 Ñ 
=8 Ð)à B" ß á ß B8 Ñ º
Ð)!  s)8 Ñ ,
`)
‡
) œ)
s 8 ÐB" ß á ß B8 Ñ e ± )!  )‡ ±  ± )!  s)8 ± . Dal momento che per l'assunzione e)
dove s)8 œ K
risulta =8 Ðs)8 à B" ß á ß B8 Ñ œ !, dalla precedente relazione si ha
"
" `
È8Ðs)8  )! Ñ .
= Ð) à B ß á ß B8 Ñ œ 
=8 Ð ) à B" ß á ß B 8 Ñ º
È8 8 ! "
8 `)
‡
) œ)
La variabile casuale
"
"
=8 Ð )! à \ " ß á ß \ 8 Ñ œ
È8
È8
8
=Ð)! à \3 Ñ
3œ"
è data dalla somma di 8 variabili casuali indipendenti ed ugualmente distribuite. Dalla §2.4.1
risulta inoltre EÒ=Ð)! à \ÑÓ œ ! e VarÒ=Ð)! à \ÑÓ œ MÐ)! Ñ e quindi per il Teorema Fondamentale
del Limite (se l'assunzione g) è verificata) si ha
"
.
=8 Ð)! à \" ß á ß \8 Ñ Ä R Ö!ß MÐ)! Ñ× .
È8
Si osservi ora che la variabile casuale
Capitolo 3
57

" `
"
=8 Ð ) à \ " ß á ß \ 8 Ñ º
œ 
8 `)
8
) œ) !
8
3œ"
`
=Ð)à \3 Ѻ
`)
) œ) !
è data dalla media di 8 variabili casuali indipendenti ed ugualmente distribuite. Dunque, dalla
§2.4.1 risulta
`
E– 
=Ð)à \3 Ѻ
— œ MÐ)! Ñ
`)
) œ) !
e quindi per la Legge Forte dei Grandi Numeri di Khintchine (se l'assunzione g) è verificata) si
ottiene

" `
;=8 Ð ) à \ " ß á ß \ 8 Ñ º
Ä MÐ)! Ñ .
8 `)
) œ) !
;s8 Ä
Infine, per le assunzioni a)-e) si ha K
)! da cui )‡ Ä )! e per la Legge Forte Uniforme dei
Grandi Numeri (se l'assunzione f) è verificata) si ottiene (vedi Wilks, 1962)

" `
;=8 Ð ) à \ " ß á ß \ 8 Ñ º
Ä MÐ)! Ñ .
8 `)
) œ) ‡
Tenendo presente la relazione iniziale, si noti che le variabili casuali 8"Î# =8 Ð)! à \" ß á ß \8 Ñ e
s 8  )! Ñ devono condividere la medesima distribuzione, e
 8" ``) =8 Ð)à \" ß á ß \8 Ѹ)œ)‡ È8ÐK
quindi applicando il Teorema di Slutsky (vedi Fattorini, 1994) si ottiene infine la distribuzione
per grandi campioni dello stimatore di massima verosimiglianza, ovvero
.
s 8  )! Ñ Ä
È8ÐK
R œ!ß
"
MÐ)! Ñ
.
Il precedente risultato può essere generalizzato al caso di un vettore di parametri, nel senso
che (vedi Wilks, 1962)
.
s 8  )! Ñ Ä
È8ÐK
R5 Ö!ß IÐ)! Ñ" × .
La distribuzione per grandi campioni dello stimatore di massima verosimiglianza è stata
ottenuta quando questo coincide con lo stimatore ottenuto dall'unica soluzione dell'equazione di
verosimiglianza. Risultati più complessi possono essere ottenuti, anche se in questo ambito non
saranno ulteriormente considerati (per ulteriori analisi vedi Lehmann, 1983).
È importante infine osservare che, se sono verificate le assunzioni a)-f) di questa sezione, dai
risultati ottenuti lo stimatore di massima verosimiglianza risulta asintoticamente efficiente, nel
´
senso che per grandi campioni la sua varianza tende al limite inferiore di Rao-Cramer.
Esempio 3.3.3. Dato un campione casuale da \ µ R Ð.ß "Ñ, allora le condizioni a)-e) di questa
sezione sono verificate (vedi Esempio 2.1.1 e Esempio 3.3.1). È laborioso, anche se semplice
verificare la condizione f). Infine, la condizione g) è verificata dal momento che MÐ.Ñ œ " (vedi
Esempio 2.4.1). Inoltre, dall'Esempio 3.1.1 è noto che lo stimatore di massima verosimiglianza è
–
dato da \ 8 e inoltre risulta "ÎMÐ.! Ñ œ ". Di conseguenza, si ottiene che
.
–
È8Ð\
8  .! Ñ Ä R Ð!ß "Ñ ,
ovvero la distribuzione per grandi campioni coincide in questo caso con quella per campioni
finiti.
…
58
Le stime di massima verosimiglianza
Esempio 3.3.4. Dato un campione casuale da \ µ IÐ!ß 5Ñ, si può dimostrare che le condizioni
di questa sezione sono verificate. Inoltre, dall'Esempio 3.1.3 è noto che lo stimatore di massima
–
verosimiglianza è \ 8 , mentre dall'Esempio 2.4.2 si ha "ÎMÐ5! Ñ œ 5!# . Di conseguenza, si ha
.
–
#
È8Ð\
8  5! Ñ Ä R Ð!ß 5! Ñ .
…
Esempio 3.3.5. Dato un campione casuale da \ µ Y Ð!ß $ Ñ, le condizioni di questa sezione non
sono verificate (vedi Esempio 2.4.3). Dall'Esempio 3.1.4 lo stimatore di massima
verosimiglianza è dato da \Ð8Ñ e dalla teoria delle statistiche estremali è noto che (Ferguson,
1996)

8
.
Ð\Ð8Ñ  $! Ñ Ä IÐ!ß "Ñ .
$!
Dunque, la distribuzione per grandi campioni dello stimatore \Ð8Ñ non è Normale.
…
Esempio 3.3.6. Dato un campione casuale da \ µ [ Ð!ß "à :Ñ, si può dimostrare che le
condizioni di questa sezione sono verificate per :  #. Dall'Esempio 3.1.10 è noto che lo
stimatore di massima verosimiglianza non ha una forma esplicita e non è possibile ottenere la
relativa distribuzione per campioni finiti. Tuttavia, dal momento che si ha "ÎMÐ:! Ñ œ ':!# Î1# ,
per :!  # la distribuzione per grandi campioni dello stimatore di massima verosimiglianza
risulta
':
.
s 8  :! Ñ Ä
È8ÐT
R Œ!ß #!
1
#
…
.
Esempio 3.3.7. Dato un campione casuale da \ µ R Ð.ß 8Ñ, si può dimostrare che le condizioni
di questa sezione sono verificate. Inoltre, dall'Esempio 3.1.2 è noto che lo stimatore di massima
–
verosimiglianza è dato da Ð\ 8 ß W8# Ñ, mentre dall'Esempio 2.4.4 risulta
IÐ.! ß 8! Ñ" œ
Dunque si ha
Î 8!
Ï
!
! Ñ
.
#8!# Ò
–
#
"
T .
È8Ð\
8  .! ß W8  8! Ñ Ä R# Ö!ß IÐ.! ß 8! Ñ × .
…
Supponendo vere le condizioni date in questa sezione, nel caso in cui 1À @ Ä I sia una
funzione biunivoca e # œ 1Ð)Ñ, tenendo presente la proprietà di equivarianza degli stimatori di
massima verosimiglianza e i risultati della §2.4.2, si ha immediatamente che
.Ð)! Ñ
.
s 8 Ñ  #! Ó Ä
È8Ò1ÐK
R œ!ß
MÐ)! Ñ
#
,
dove .Ð)Ñ œ ``) 1Ð)Ñ e #! œ 1Ð)! Ñ, supponendo che .Ð)! Ñ esista e .Ð)! Ñ Á !.
Sulla base del precedente risultato è interessante determinare la trasformazione 1 per cui la
s 8 Ñ  #! Ó risulta pari a ". In questo caso, si deve avere
varianza per grandi campioni di È8Ò1ÐK
.Ð)Ñ#
œ"
MÐ)Ñ
per ogni ), ovvero
Capitolo 3
59
`
1Ð)Ñ œ MÐ)Ñ"Î# .
`)
Questa equazione differenziale ha per soluzione la funzione
1Ð)Ñ œ ( MÐ)Ñ"Î# . ) ,
detta trasformazione stabilizzatrice della varianza.
Questi risultati possono essere estesi al caso di un vettore di parametri. Se dunque gÀ @ Ä I
è una funzione biunivoca e # œ gÐ)Ñ, allora si ha
.
s 8 Ñ  #! Ó Ä
È8ÒgÐK
R5 Ö!ß DÐ)! ÑT IÐ)! Ñ" DÐ)! Ñ× ,
dove DÐ) Ñ è definita nella §2.4.2 e #! œ gÐ)! Ñ.
Esempio 3.3.8. Dato un campione casuale da \ µ IÐ!ß 5Ñ, tenendo presente i risultati
dell'Esempio 3.3.4, si consideri la trasformata biunivoca 1Ð5Ñ œ 5# per 5  !. Dal momento che
risulta
.Ð5Ñ œ
allora si ha
`
1Ð5Ñ œ #5 ,
`5
.
–#
#
È8Ð\
8  #! Ñ Ä R Ð!ß %#! Ñ
dove #! œ 5!# . La trasformazione stabilizzatrice della varianza è data da
1Ð5Ñ œ (
e dunque
dove #! œ ln 5! .
"
. 5 œ ln 5
5
.
–
È8Ðln \
8  #! Ñ Ä R Ð!ß "Ñ ,
…
3.3.3. Una nota sull'informazione osservata di Fisher. Nella §2.1.1 è stato affermato che, in
un procedimento di stima per punti, una stima deve essere accompagnata da una misura della
sua attendibilità nello stimare il vero parametro )! .
s è
Dato un modello statistico Y8ß) , se il relativo stimatore di massima verosimiglianza K
corretto per ) (o almeno asintoticamente corretto), una naturale misura della precisione della
sÑ. Questa quantità dipende da ) e va quindi stimata sulla base del
stima è data da VarÐK
sÑ la stima di VarÐK
sÑ. Nel caso che VarÐK
sÑ sia una trasformata
s ÐK
campione. Si indichi con Var
sÑ può essere
s ÐK
biunivoca di ) , si può sfruttare la proprietà dell'equivarianza, ovvero Var
s Ñ (vedi Esempio
ottenuta semplicemente sostituendo s
) al posto di ) nell'espressione di VarÐK
3.2.1). Se la trasformata non è biunivoca, si tenga presente che la stima che si ottiene in questo
s Ñ.
modo non è la stima di massima verosimiglianza di VarÐK
s8 è coerente per ) , un indice di precisione per s
Se K
) 8 è dato dalla matrice inversa
"
dell'informazione osservata di Fisher, ovvero da sI8 Ðs
) 8 Ñ . Questo indice misura la curvatura
locale della log-verosimiglianza in un intorno di s
) 8 e quindi misura anche il grado relativo di
s
preferenza che la verosimiglianza assegna a ) 8 rispetto ad altri valori di ) .
Supponendo verificate le condizioni della §3.3.2 e i risultati conseguiti nella medesima
sezione, una ulteriore giustificazione per la scelta del precedente indice è data dal fatto che
60
Le stime di massima verosimiglianza
" s s ;I8 Ð) 8 Ñ Ä IÐ)! Ñ ,
8
) 8 Ñ" è una stima della matrice di varianza-covarianza per grandi
da cui segue che in effetti sI8 Ðs
s8 .
campioni di K
Esempio 3.3.9. Dato un campione casuale da \ µ IÐ!ß 5Ñ, si ha
–
sM 8 Ð5Ñ œ  8  #8B ,
5#
5$
–, si ha sM 8 ÐBÑ
– " œ B
–# Î8.
e, dal momento che la stima di massima verosimiglianza di 5 è data B
–
Tenendo presente l'Esempio 3.2.1, la stima di massima verosimiglianza di VarÐ\Ñ œ 5# Î8 è
–
–# Î8, che quindi coincide con sM 8 ÐBÑ
– " .
s Ð\Ñ
data da Var
œB
…
Esempio 3.3.10. Dato un campione casuale da \ µ R Ð.ß 8Ñ, tenendo presente l'Esempio 3.1.9,
– =# Ñ, si ha
dal momento che la stima di massima verosimiglianza di Ð.ß 5Ñ è data da ÐBß
– =# Ñ" œ
sI8 ÐBß
=#
8
!
!
#=%
8
.
– #
– =# Ñ" .
s ÒÐ\ß
Dunque, la stima di massima verosimiglianza Var
W ÑÓ coincide con sI8 ÐBß
3.4. Alcune esemplificazioni
verosimiglianza
del
metodo
della
…
massima
3.4.1. La stima di massima verosimiglianza e la distribuzione di Poisson. Si consideri un
campionamento casuale da \ µ T 9Ð.Ñ. La classe di funzioni di probabilità definita da questo
~
–,
modello fa parte della famiglia esponenenziale con KÐB" ß á ß B8 Ñ œ B
:Ð.Ñ œ 8 ln .
e
( Ð. Ñ œ 8. ,
mentre
;ÐB" ß á ß B8 Ñ œ $
8
3œ"
IÖ!ß"ßá× ÐB3 Ñ
.
B3 x
–
–.
Dunque, la stima di massima verosimiglianza è data dalla soluzione dell'equazione EÐ\Ñ œ B
–
–
Dal momento che EÐ\Ñ œ . (vedi §A.2.2), la stima di massima verosimiglianza risulta .
sœBe
–
lo stimatore di massima verosimiglianza \ è corretto per ..
Dalle proprietà della famiglia esponenziale (vedi §3.2.3) si ricava che M8 Ð.Ñ œ 8Î.. Inoltre,
per le proprietà della media campionaria (vedi §1.2.2) e della Poisson (vedi §A.2.2), si ha
–
–
VarÐ\Ñ œ .Î8 e si deve concludere che \ è anche uno stimatore efficiente. Tenendo presente i
–
risultati della §3.2.3, \ è anche sufficiente minimale per ..
Per quanto riguarda le proprietà per grandi campioni, le condizioni a)-g) della §3.3.2 sono
–
verificate e quindi \ 8 è fortemente coerente per ., mentre
.
–
È8Ð\
8  .! Ñ Ä R Ð!ß .! Ñ .
Capitolo 3
61
–
Dal momento che VarÐ\Ñ è una funzione biunivoca di ., allora una misura della precisione
–
–
– . Questa stima coincide con sM 8 ÐBÑ
– " .
s Ð\Ñ
di \ è data da Var
œ BÎ8
Si considera ora un'applicazione con dati reali. I dati della Tavola 3.4.1 si riferiscono al
numero di taxi arrivati in intervalli di un minuto alla stazione di Euston a Londra fra le 9.00 e le
10.00 in una mattina del 1950. Se gli arrivi sono casuali allora è noto dalla teoria dei processi
stocastici puntuali che i dati provengono da una variabile casuale di Poisson T 9Ð.Ñ, dove .
rappresenta l'intensità del processo (vedi Fattorini, 1994). È immediato verificare che la stima di
– œ (*Î'! ¶ ".$"'(, che è l'intensità stimata di taxi per
massima verosimiglianza risulta B
–
s Ð\Ñ œ !.!#"*. Il coefficiente di variazione stimato risulta
minuto. Inoltre, si ha Var
–
– œ !.""#%, un valore piuttosto basso che suggerisce un certa precisione della stima.
s Ð\Ñ"Î# ÎB
Var
Tavola 3.4.1. Numero di taxi in intervalli di un minuto.
numero di taxi frequenza
!
")
"
")
#
"%
$
(
%
$
più di &
!
Fonte: Kendall (1951)
3.4.2. La stima di massima verosimiglianza e la regressione di Poisson. Supponiamo che il
campione ÐC" ß á ß C8 Ñ sia la determinazione di un vettore di variabili casuali Ð]" ß á ß ]8 Ñ, le cui
componenti sono indipendenti e tali che ]3 µ T 9Ð,D3 Ñ. In questo caso, ÐD" ß á ß D8 Ñ rappresenta
un vettore di quantità note e fisse. Il campione non è casuale, in quanto le ]3 , sebbene
indipendenti, non sono ugualmente distribuite. Questo è in effetti un modello di regressione e
può essere opportuno quando le variabili di risposta sono intere (per ulteriori dettagli si veda
Agresti, 1995).
Il modello statistico risultante dipende dal parametro ) œ , con @ œ ‘ ed è dato da
08 À 08 ÐC" ß á ß C8 à ,Ñ œ $ expÐ  ,D3 Ñ
8
Y, œ
3œ"
Ð,D3 ÑC3
IÖ!ß"ßá× ÐC3 ÑŸ .
C3 x
La classe di funzioni di probabilità definita da questo modello fa parte della famiglia
~
esponenziale con KÐC" ß á ß C8 Ñ œ –C,
:Ð,Ñ œ 8 ln ,
e
–,
(Ð,Ñ œ 8,D
mentre
;ÐC" ß á ß C8 Ñ œ $
8
3œ"
D3C3
IÖ!ß"ßá× ÐC3 Ñ ,
C3 x
dove –D œ 8" 83œ" D3 . Dunque, la stima di massima verosimiglianza è data dalla soluzione
–
–
– , la stima di massima verosimiglianza
dell'equazione EÐ] Ñ œ –C. Dal momento che EÐ] Ñ œ ,D
– –
– . Di conseguenza, lo stimatore di massima verosimiglianza è ]
risulta s, œ –CÎD
ÎD ed è corretto
per ,. Dalle proprietà della famiglia esponenziale (vedi §3.2.3) si può ricavare che
– . Inoltre, per le proprietà della media campionaria (vedi §1.2.2) e della Poisson
M8 Ð,Ñ œ 8DÎ,
– –
– –
– e quindi si deve concludere che ]
(vedi §A.2.2), si ha VarÐ] ÎDÑ
œ ,ÎÐ8DÑ
ÎD è anche uno
– –
stimatore efficiente. Tenendo presente i risultati della §3.2.3, si ha inoltre che ] ÎD è sufficiente
62
Le stime di massima verosimiglianza
– –
minimale per ,. Dal momento che VarÐ] ÎDÑ
è una funzione biunivoca di , , allora una misura
– –
– –
– # Ñ. Questa stima coincide con sM 8 ÐCÎDÑ
– – " .
s
della precisione di ] ÎD è data da VarÐ] ÎDÑ œ –CÎÐ8D
Si considera ora un'applicazione con dati reali. I dati della Tavola 3.4.2 si riferiscono ad
alcuni pezzi di stoffa prodotti da una industria.
Tavola 3.4.2. Lunghezza (in metri) e numero di difetti nei pezzi di stoffa.
pezzo
"
#
$
%
&
'
(
)
*
"!
""
"#
"$
"%
"&
"'
D3
&&"
'&"
)$#
$(&
("&
)')
#("
'$!
%*"
$(#
'%&
%%"
)*&
%&)
'%#
%*#
C3
'
%
"(
*
"%
)
&
(
(
(
'
)
#)
%
"!
%
pezzo
"(
")
"*
#!
#"
##
#$
#%
#&
#'
#(
#)
#*
$!
$"
$#
D3
&%$
)%#
*!&
&%#
&##
"##
'&(
"(!
($)
$("
($&
(%*
%*&
("'
*&#
%"(
C3
)
*
#$
*
'
"
*
%
*
"%
"(
"!
(
$
*
#
Fonte: Bissel (1972)
Ogni pezzo di stoffa è stato misurato e successivamente è stato contato il numero di difetti di
lavorazione che presentava. Se i difetti sono situati in modo casuale sui pezzi di stoffa, in base
alla teoria dei processi stocastici puntuali, un modello di regressione di Poisson sembra dunque
ragionevole nell'analisi di questi dati.
–œ
È immediato verificare che la stima di massima verosimiglianza risulta –CÎD
).)(&Î&)(.'&'#& ¶ !.!"&", quantità che rappresenta l'intensità di errori per metro nella
– – "Î#
s Ð]
produzione di stoffa. Inoltre, è immediato verificare che risulta Var
ÎDÑ œ !.!!!*Þ Di
– – "Î# – –
s Ð]
conseguenza il coefficiente di variazione stimato risulta Var
ÎDÑ ÎÐ] ÎDÑ œ !.!&*', un
valore piuttosto basso che suggerisce un certa precisione della stima.
I dati della Tavola 3.4.2 sono infine rappresentati graficamente nella Figura 3.4.1 insieme con
la retta della regressione di Poisson.
30
25
20
15
10
5
0
0
200
400
600
800
1000
Figura 3.4.1. Diagramma per punti e retta di regressione di Poisson
per i dati della Tavola 3.4.2.
3.4.3. La stima di massima verosimiglianza e la regressione logistica. Supponiamo che il
campione ÐC" ß á ß C8 Ñ sia la determinazione di un vettore di variabili casuali Ð]" ß á ß ]8 Ñ, le cui
componenti sono indipendenti e tali che ]3 µ F3Ð"ß :3 Ñ. Inoltre, si pone
Capitolo 3
63
expÐ+  ,D3 Ñ
,
"  expÐ+  ,D3 Ñ
:3 œ :3 Ð+ß ,Ñ œ
dove ÐD" ß á ß D8 Ñ rappresenta un vettore di quantità note e fisse. Questo è in effetti un modello di
regressione quando si ha una variabile di risposta dicotomica e le probabilità di successo
vengono modellate secondo la precedente funzione, detta curva logistica (per ulteriori dettagli si
veda Agresti, 1995). Il campione non è casuale, in quanto le ]3 , sebbene indipendenti, non sono
ugualmente distribuite.
Il modello statistico risultante dipende dal vettore di parametri ) œ Ð+ß ,ÑT con @ œ ‘# ed è
dato da
08 À 08 ÐC" ß á ß C8 à +ß ,Ñ œ $ :3C3 Ð"  :3 ÑC3 IÖ!ß"× ÐC3 ÑŸ .
8
Y+ß, œ
3œ"
La classe di funzioni di probabilità definita dal precedente modello fa parte della famiglia
~
esponenziale una volta che si pone KÐC" ß á ß C8 Ñ œ Ð 83œ" C3 ß 83œ" D3 C3 ÑT ,
:Ð+ß ,Ñ œ Ð+ß ,ÑT
e
8
(Ð+ß ,Ñ œ 
lnÐ"  :3 Ñ ,
3œ"
mentre
;ÐC" ß á ß C8 Ñ œ $ IÖ!ß"× ÐC3 Ñ .
8
3œ"
Dunque, la stima di massima verosimiglianza è data dalla soluzione dell'equazione vettoriale
E–
8
8
]3 ß
3œ"
3œ"
8
8
D3 ]3 — œ
8
8
C3 ß
3œ"
3œ"
8
8
D 3 C3
.
D3 :3
,
Dal momento che
E–
]3 ß
3œ"
3œ"
D3 ]3 — œ
:3 ß
3œ"
3œ"
allora la stima di massima verosimiglianza si ottiene dalla soluzione dell'equazione vettoriale
8
8
:3 ß
3œ"
8
D3 : 3
œ
3œ"
8
C3 ß
3œ"
D 3 C3
,
3œ"
che non ha soluzioni esplicite. Dunque, dato un certo campione si deve applicare la procedura di
Newton-Raphson per ottenenere la stima di massima verosimiglianza. Al fine di implementare
questa procedura, la log-verosimiglianza è data da
8
6Ð+ß ,Ñ œ ln - 
8
Ð"  C3 Ñ lnÐ"  :3 Ñ , Ð+ß ,Ñ − ‘# ,
C3 ln :3 
3œ"
da cui, dal momento che si verifica
3œ"
64
Le stime di massima verosimiglianza
`
:3 Ð+ß ,Ñ œ :3 Ð"  :3 Ñ ,
`+
e
`
:3 Ð+ß ,Ñ œ D3 :3 Ð"  :3 Ñ ,
`,
il vettore delle funzioni punteggio risulta
s8 Ð+ß ,Ñ œ
`
`+
`
`,
Î
Ð
œÐ
:3 Ñ
Ó
3œ"
3œ"
Ó,
8
8
Ï D3 C3  D3 :3 Ò
6Ð+ß ,Ñ
6Ð+ß ,Ñ
8
8
C3 
3œ"
mentre
#
sI8 Ð+ß ,Ñ œ 
`
`+# 6Ð+ß ,Ñ
`#
`+`, 6Ð+ß ,Ñ
#
`
`+`, 6Ð+ß ,Ñ
`#
`,# 6Ð+ß ,Ñ
Î
Ð
œÐ
Ï
3œ"
8
D3 :3 Ð"  :3 Ñ Ñ
Ó
3œ"
Ó.
8
#
D3 :3 Ð"  :3 Ñ Ò
8
:3 Ð"  :3 Ñ
3œ"
8
D3 :3 Ð"  :3 Ñ
3œ"
3œ"
Si considera ora un'applicazione con dati reali. I dati della Tavola 3.4.3 si riferiscono ai voli
shuttle prima dell'incidente che ne sospese il programma. In particolare, è stata misurata la
temperatura esterna (in J °) al momento del volo ed è stato riportato se vi è stato
danneggiamento termico (C3 œ ") o meno (C3 œ !) nei pannelli di protezione.
Tavola 3.4.3. Temperatura (in J °) e danneggiamento termico nei voli shuttle.
shuttle
"
#
$
%
&
'
(
)
*
"!
""
"#
D3
''
(!
'*
')
'(
(#
($
(!
&(
'$
(!
()
C3
!
"
!
!
!
!
!
!
"
"
"
!
shuttle
"$
"%
"&
"'
"(
")
"*
#!
#"
##
#$
D3
'(
&$
'(
(&
(!
)"
('
(*
(&
('
&)
C3
!
"
!
!
!
!
!
!
"
!
"
Fonte: Dalal, Fowlkes e Hoadley (1989)
Scegliendo come stima iniziale Ð+
s! ß s, ! Ñ œ Ð!ß !Ñ e un errore pari a % œ !.!!!!", il metodo di
Newton-Raphson fornisce le iterazioni della Tavola 3.4.4.
Tavola 3.4.4. Iterazioni per il metodo di Newton-Raphson.
s, 4
4
=8" Ð+
=8# Ð+
6Ð+
s+4
s4s, 4 Ñ
s4 ßs, 4 Ñ
s4 ßs, 4Ñ
!
"
#
$
%
&
'
!.!!!!!
*.'"*!&
"$.'&&(%
"%.*$)#*
"&.!%##*
"&.!%#*!
"&.!%#*!
!.!!!!!
 !."%*&#
 !.#""#&
 !.#$!'!
 !.#$#"&
 !.#$#"'
 !.#$#"'
 %.&!!!!
 !.()("%
 !."")()
 !.!!&#*
 !.!!!!#
!.!!!!!
!.!!!!!
 $&%.!!!!!
 '$.$$!$*
 "!.!!)"(
 !.%*$&#
 !.!!"*$
!.!!!!!
!.!!!!!
 "&.*%#$)
 "!.&*#&#
 "!."(*$#
 "!."&((!
 "!."&('!
 "!."&('!
 "!."&('!
Capitolo 3
65
La stima di massima verosimiglianza risulta Ð+ß
s s,Ñ ¶ Ð"&.!%#*!ß  !.#$#"'Ñ a meno di un
errore pari a % œ !.!!!!". Inoltre, la matrice inversa dell'informazione osservata di Fisher risulta
&%.%%%#(
sI8 Ð+ß
s s,Ñ" œ Œ
 !.(*'$*
 !.(*'$*
!.!""("
.
Infine, la curva logistica stimata è data da
:ÐDÑ œ
expÐ"&.!%#*!  !.#$#"'DÑ
.
"  expÐ"&.!%#*!  !.#$#"'DÑ
1
0.8
0.6
0.4
0.2
0
50
55
60
65
70
75
80
85
Figura 3.4.2. Diagramma per punti e curva di regressione logistica
stimata per i dati della Tavola 3.4.3.
La curva logistica è decrescente, ovvero la probabilità di danneggiamento termico aumenta al
diminuire della temperatura. I dati della Tavola 3.4.3 sono stati rappresentati graficamente nella
Figura 3.4.# insieme con la curva di regressione logistica stimata.
3.4.4. La stima di massima verosimiglianza e la distribuzione ipergeometrica. Nell'ambito
della statistica ambientale, si vuole stimare spesso la numerosità R di una fissa popolazione
biologica. In questo caso si cattura un numero Q di animali che vengono “marcati” in modo
opportuno. Successivamente, si ricatturano 8 animali nella popolazione e si determina fra di
questi il numero B dei marcati. Questo è appunto il cosiddetto metodo di “cattura-ricattura”. Se
la probabilità di essere catturati è la stessa per tutti gli animali della popolazione, non è difficile
verificare che il campione consiste in una singola realizzazione B di una \ µ MÐ8ß Q ß R Ñ (con
8 e Q noti) e dunque il modello statistico risultante dipende dal parametro ) œ R con @ œ  ,
dove
YR œ
08 À 08 ÐBà R Ñ œ
Q ‰
ˆ QB ‰ˆ R8B
ˆ R8 ‰
IÖmaxÐ!ß8R Q ÑßáßminÐ8ßQ Ñ× ÐBÑ Ÿ .
Di conseguenza, la verosimiglianza risulta
PÐR Ñ œ -
ÐR  Q Ñx ÐR  8Ñx
IÖmaxÐ!ß8R Q ÑßáßminÐ8ßQ Ñ× ÐBÑ .
ÐR  Q  8  BÑx R x
Dal momento che
PÐR Ñ
ÐR  Q ÑÐR  8Ñ
œ
,
PÐR  "Ñ
ÐR  Q  8  BÑR
allora si ha PÐR ÑÎPÐR  "Ñ  " se R  8Q ÎB, ovvero la successione PÐR Ñ è crescente per
s si
R  8Q ÎB e decrescente successivamente. Dunque, la stima di massima verosimiglianza R
66
Le stime di massima verosimiglianza
ottiene per uno dei due valori Ô8Q ÎBÕ o Ô8Q ÎBÕ  " che massimizza PÐR Ñ, dove Ô † Õ indica la
s Ñ è data da (vedi Seber,
funzione troncamento. Si può dimostrare inoltre che una stima di VarÐR
1973)
Ð8  "ÑÐQ  "ÑÐQ  BÑÐ8  BÑ
~ s
VarÐR
ќ
,
ÐB  "Ñ# ÐB  #Ñ
che tuttavia non corrisponde alla stima di massima verosimiglianza.
In un applicazione con dati reali Odum e Pontin (1961) hanno marcato '!! formiche di una
colonia della specie Lasius Flavus con una sostanza radiottiva (T $# ) e ne hanno ricatturate %$(
di cui ') sono risultate marcate. In questo caso, la stima di verosimiglianza è dunque data da
~ s "Î#
s œ $#"$, mentre si ha Var
R
ÐR Ñ œ $#$.*('!.
Capitolo 4
La verifica di ipotesi
4.1. Il test statistico
4.1.1. La definizione di test statistico. Sulla base del campione osservato ÐB" ß á ß B8 Ñ si è
interessati a stabilire se il vero valore del parametro appartiene ad un certo sottoinsieme dello
spazio parametrico. Dato un modello statistico Y) , se gli insiemi @! e @" costituiscono una
partizione di @, la verifica statistica di ipotesi consiste in un procedimento decisionale di scelta
fra l'ipotesi di base L! À ) − @! e l'ipotesi alternativa L" À ) − @" . L'insieme delle ipotesi
ammissibili e la sua partizione in L! e L" è detto sistema di ipotesi. Se @! (alternativamente
@" ) contiene un solo punto l'ipotesi L! (alternativamente L" ) è detta semplice. In caso contrario
l'ipotesi è detta composta.
Lo strumento statistico che sulla base del campione consente di concludere in favore dell'una
o dell'altra ipotesi è il test statistico. Dato un modello statistico Y) e il sistema di ipotesi
L! À ) − @! contro L" À ) − @" , si dice test una funzione
HÀ V8 Ä ÖL! ß L" × .
Il test è in effetti una regola decisionale che suddivide V8 negli insiemi complementari V! e V" ,
in modo tale che si accetta L! se ÐB" ß á ß B8 Ñ − V! , mentre si accetta L" se ÐB" ß á ß B8 Ñ − V" .
L'insieme V" è anche detto regione critica del test.
Usualmente il procedimento decisionale è basato sulla determinazione di una statistica
piuttosto che sul campione osservato. Dunque, se X œ X Ð\" ß á ß \8 Ñ è una statistica con
supporto g , si dice test basato su X la funzione
HÀ g Ä ÖL! ß L" × ,
mentre X è detta statistica test. Il test basato su X è una regola decisionale che suddivide g negli
insiemi complementari g! e g" , in modo tale che si accetta L! se per la realizzazione
> œ X ÐB" ß á ß B8 Ñ di X si ha > − g! , mentre si accetta L" se > − g" . L'insieme g" è detto regione
critica del test basato su X . L'insieme V" è indotto dall'insieme g" , essendo
V" œ ÖÐB" ß á ß B8 ÑÀ > œ X ÐB" ß á ß B8 Ñ − g" × .
Esempio 4.1.1. Dato un campione casuale da \ µ R Ð.ß "Ñ, si consideri il sistema di ipotesi
L! À . œ .! contro L" À . Á .! , dove .! è una quantità nota. L'ipotesi L! è semplice, mentre
–
l'ipotesi L" è composta. Se si suppone che la statistica test sia \ , risulta g œ ‘. Una possibile
scelta per g! potrebbe essere data da
– ±B
–  .! ±  +× ,
g! œ ÖBÀ
–
con + costante. Di conseguenza, la regione critica del test basato su \ risulta
– ±B
–  .! ± +× .
g" œ ÖBÀ
Questa scelta di g" appare logica, in quanto più la realizzazione della media campionaria
differisce dal valore ipotizzato .! per la media, più si è propensi ad accettare l'ipotesi
alternativa. Resta aperto il problema della scelta della costante +. Il problema che verrà
68
La verifica d'ipotesi
analizzato nelle sezioni successive è quello di determinare la statistica test che permette la
partizione dello spazio campionario “ottima” secondo alcuni criteri.
…
4.1.2. La funzione potenza. Uno strumento per misurare la capacità discriminatoria del test
basato su una statistica è dato dalla cosiddetta funzione potenza. Dato un modello statistico Y) e
il sistema di ipotesi L! À ) − @! contro L" À ) − @" , la funzione potenza del test basato su X è
data da
TX Ð)Ñ œ Pr) ÐX − g" Ñ ,
dove Pr) è da intendersi nel senso che la probabilità è indotta dalla distribuzione specificata dal
modello con il valore del parametro pari a ). Per ogni ) − @! la funzione potenza TX Ð) Ñ
fornisce la probabilità di respingere L! quando questa è vera, ovvero la probabilità di
commettere il cosiddetto errore di I specie. Analogamente, per ogni ) − @" la quantità
"  TX Ð)Ñ fornisce la probabilità di accettare L! quando è vera L" , ovvero la probabilità di
commettere il cosiddetto errore di II specie. Per ogni ) − @" , la funzione potenza TX Ð)Ñ
fornisce la probabilità di accettare L" quando questa è vera.
Si dice che il test basato su X è al livello di significatività α se
sup TX Ð)Ñ œ α .
)−@!
Il livello di significatività α rappresenta la massima probabilità di commettere un errore di I
specie.
Esempio 4.1.2. Dato un campione casuale da \ µ R Ð.ß "Ñ, si consideri il sistema di ipotesi
L! À . Ÿ ! contro L" À .  !. Entrambe le ipotesi sono composte. Se si suppone che la statistica
–
test sia \ , dato che g œ ‘, si può scegliere
g! œ
 ∞ß
D"α
È8
e
D"α
g" œ –
ß∞
È8
.
Questa selezione di g" appare logica, in quanto più la realizzazione della media campionaria è
elevata, più si è propensi ad accettare l'ipotesi alternativa. Dal momento che risulta
–
\ µ R Ð.ß "Î8Ñ per ogni . − ‘, allora la funzione potenza è data da
D"α
–
T\– Ð.Ñ œ Pr. \ È8
–
œ Pr. ÒÈ8Ð\  .Ñ D"α  È8.Ó
œ "  FÐD"α  È8.Ñ œ FÐÈ8.  D"α Ñ , . − ‘ .
Il grafico della precedente funzione potenza per 8 œ "! e α œ !.!& è riportato in Figura 4.1.1.
Dal momento che T\– Ð.Ñ è crescente e che
sup T \– Ð.Ñ œ T \– Ð!Ñ œ FÐ  D"α Ñ œ "  FÐD"α Ñ œ α ,
.Ÿ!
–
il test basato su \ è al livello di significatività α.
…
Capitolo 4
69
1
0.8
0.6
0.4
0.2
0
− 0.25
0
0.25
0.5
0.75
1
1.25
1.5
Figura 4.1.1. Funzione potenza T\– Ð.Ñ per 8 œ "! e α œ !.!&.
4.1.3. Le proprietà del test statistico. Dalla discussione fatta nella precedente sezione risulta
evidente che esiste la possibilità di commettere due tipi di errore decisionale, ovvero può
accadere che la realizzazione della statistica test sia in g" quando il vero valore del parametro è
in @! (errore di I specie) e che la realizzazione della statistica test sia in g! quando il vero valore
del parametro è in @" (errore di II specie). Dal momento che non si può sperare di rendere
contemporaneamente pari a zero questi tipi di errore, si deve stabilire un insieme di proprietà
desiderabili per un test.
Una prima proprietà opportuna per un test è quella della correttezza. Dato un modello
statistico Y) e il sistema di ipotesi L! À ) − @! contro L" À ) − @" , un test basato su X al livello
di significatività α con funzione potenza TX Ð)Ñ è detto corretto al livello di significatività α se
TX Ð)Ñ α , a) − @" .
La proprietà della correttezza permette di controllare l'errore di I specie e al tempo stesso
assicura che la probabilità di accettare L" quando è vera risulta maggiore dell'errore di I specie.
Una seconda proprietà riguarda il comportamento per grandi campioni del test. Se Y8ß) è un
modello statistico per ogni 8, dato il sistema di ipotesi L! À ) − @! contro L" À ) − @" , si
consideri il test al livello di significatività α basato sulla successione di statistiche ÖX8 ×. Il test è
detto coerente se
lim TX8 Ð)Ñ œ " , a) − @" .
8Ä∞
La proprietà della coerenza assicura che la probabilità di commettere un errore di II specie tende
a ! quando si dispone di grandi campioni.
Esempio 4.1.3. Dato un campione casuale da \ µ R Ð.ß "Ñ, si consideri il sistema di ipotesi
–
L! À . Ÿ ! contro L" À .  ! (vedi Esempio 4.1.2). Il test basato su \ è corretto in quanto si ha
T \– Ð.Ñ Ÿ α per ogni . Ÿ ! e T \– Ð.Ñ  α per ogni .  !. Dal momento che la successione di
funzioni ÖFÐÈ8.  D"α Ñ× converge uniformemente ad una funzione costante pari ad " per
.  !, allora
lim TX8 Ð.Ñ œ " , a.  ! ,
8Ä∞
–
ovvero il test basato sulla successione di statistiche Ö\ 8 × risulta coerente.
…
4.1.4. Il test di livello assegnato. Idealmente, si vorrebbe che TX Ð)Ñ fosse più alta possibile
quando ) − @" e la più piccola possibile quando ) − @! . Come già evidenziato nella sezione
precedente, questi requisiti sono conflittuali tra loro. Un possibile modo di procedere è quello di
fissare il livello di significatività α e scegliere quel test che ha più alta potenza per ogni ) − @" .
70
La verifica d'ipotesi
Dato un modello statistico Y) e il sistema di ipotesi L! À ) − @! contro L" À ) − @" , un test
basato su X al livello di significatività α con funzione potenza TX Ð)Ñ è detto uniformemente più
potente al livello di significatività α se
TX Ð)Ñ TX ‡ Ð)Ñ , a) − @" ,
per ogni altro test basato su una qualsiasi statistica X ‡ al livello di significatività α.
Sfortunatamente i test uniformente più potenti esistono solo in varie situazioni speciali. Per
campioni finiti, è possibile costruire test uniformente più potenti quando entrambe le ipotesi
sono semplici o quando la statistica test ha una particolare struttura. Sotto certe condizioni, in
generale si può costruire test uniformente più potenti quando si dispone di grandi campioni.
Questi argomenti saranno trattati in dettaglio nelle prossime sezioni.
Con la precedente impostazione del problema l'ipotesi di base e l'ipotesi alternativa vengono
trattate in modo non simmetrico. Questo è giustificato dal fatto che usualmente L! costituisce
una affermazione in qualche modo privilegiata e quindi si preferisce controllare il livello di
significatività del test (ovvero l'errore di I specie) che comporta l'erroneo rifiuto di questa ipotesi
privilegiata. Anche se per sviluppare la teoria è necessario fissare il livello di significatività α, è
bene sottolineare che quando si lavora operativamente non esiste nessuna regola ragionevole per
stabilirne la scelta. Questa considerazione porta al concetto di livello di significatività osservato
o valore-P.
Dato un modello statistico Y) e il sistema di ipotesi L! À ) − @! contro L" À ) − @" , se la
regione critica del test basato su X è data da g" œ Ö>À > -×, per un determinato valore
campionario > œ X ÐB" ß á ß B8 Ñ si dice livello di significatività osservato la quantità
α9== œ sup Pr) ÐX >Ñ ,
) −@!
mentre, se la regione critica è data da g" œ Ö>À > Ÿ -×, allora si dice livello di significatività
osservato la quantità
α9== œ sup Pr) ÐX Ÿ >Ñ .
) −@!
Quando invece la statistica test X ha una distribuzione simmetrica, se la regione critica del test
basato su X è data da g" œ Ö>À > Ÿ -" ß > -# ×, si dice livello di significatività osservato la
quantità
α9== œ # min sup Pr) ÐX Ÿ >Ñß sup Pr) ÐX >ÑŸ .
) −@!
) −@!
Il livello di significatività osservato rappresenta la probabilità di ottenere, quando L! è vera,
un valore campionario > di X estremo (nella appropriata direzione) almeno quanto quello
osservato. Dunque, il livello di significatività osservato fornisce una misura su quanto l'ipotesi
di base risulta compatibile con i dati campionari. Un livello di significatività osservato basso
porta a ritenere poco compatibile con i dati campionari l'ipotesi di base, mentre con un livello di
significatività osservato elevato è vera l'affermazione contraria.
In una verifica di ipotesi si può semplicemente riportare il livello di significatività osservato,
oppure si può arrivare ad una decisione sull'accettazione di L! fissando un livello di
significatività α. Se il livello di significatività osservato è minore o uguale ad α, allora si
respinge L! , altrimenti si accetta L! . Il livello di significatività osservato diventa in questo caso
il più elevato livello di significatività per cui si accetta L! . In questo caso il livello di
significatività osservato diventa non solo uno strumento per la decisione nella verifica di ipotesi,
ma anche una misura quantitativa di questa decisione.
Capitolo 4
71
4.2. Il test del rapporto delle verosimiglianze
4.2.1. Il Lemma di Neyman-Pearson. Dato un modello statistico Y) , si supponga che lo spazio
parametrico sia composto da due soli punti, ovvero @ œ Ö)! ß )" ×. Si consideri il sistema di
ipotesi L! À ) œ )! contro L" À ) œ )" , dove evidentemente entrambe le ipotesi sono semplici. Si
desidera costruire il test corretto al livello di significatività α tale che sia il più potente.
Al fine di verificare questo sistema di ipotesi, si dice test del rapporto delle verosimiglianze
quel test basato sulla statistica test V (detta appunto rapporto delle verosimiglianze), la cui
realizzazione campionaria è data da
<œ
PÐ)! à B" ß á ß B8 Ñ
.
PÐ)" à B" ß á ß B8 Ñ
La statistica test V ha una interpretazione intuitiva, nel senso che se la realizzazione
< œ VÐB" ß á ß B8 Ñ è tale che <  ", allora il campione attibuisce maggiore verosimiglianza a )!
piuttosto che a )" e quindi si è più propensi ad accettare L! . Alternativamente, se <  ", allora il
campione attibuisce maggiore verosimiglianza a )" piuttosto che a )! e quindi si è più propensi
ad accettare L" . Di conseguenza, si può scegliere come regione critica
g" œ Ö<À < Ÿ <α × ,
dove
Pr)! ÐV Ÿ <α Ñ œ α .
Ovviamente, g" è equivalente alla regione critica indotta da V sullo spazio campionario data da
V" œ ÖÐB" ß á ß B8 ÑÀ < œ VÐB" ß á ß B8 Ñ Ÿ <α × .
Se si è osservato il valore campionario <, il livello di significatività osservato del test è dato da
α9== œ Pr)! ÐV Ÿ <Ñ .
Supponiamo di considerare un test basato su una statistica X ‡ corretto al livello di
significatività α e sia inoltre V"‡ la regione critica indotta da X ‡ sullo spazio campionario. Risulta
α œ ( 08 ÐB" ß á ß B8 à )! Ñ . / œ ( 08 ÐB" ß á ß B8 à )! Ñ . / ,
V"‡
V"
da cui
(
V" V"‡
08 ÐB" ß á ß B8 à )! Ñ . / œ (
V"‡ V"
08 ÐB" ß á ß B8 à )! Ñ . / ,
dal momento che l'integrale sull'insieme V" ∩ V"‡ è comune alle due regioni. Inoltre, se
ÐB" ß á ß B8 Ñ − V"  V"‡ e quindi ÐB" ß á ß B8 Ñ − V" , dalla definizione di V" risulta
08 ÐB" ß á ß B8 à )! Ñ Ÿ <α 08 ÐB" ß á ß B8 à )" Ñ .
Alternativamente, se ÐB" ß á ß B8 Ñ − V"‡  V" e quindi ÐB" ß á ß B8 Ñ − V8  V" , si ha
08 ÐB" ß á ß B8 à )! Ñ  <α 08 ÐB" ß á ß B8 à )" Ñ .
Dunque, dalle precedenti relazioni si ottiene
72
La verifica d'ipotesi
(
V" V"‡
<α 08 ÐB" ß á ß B8 à )" Ñ . / (
V" V"‡
œ(
V"‡ V"
(
V"‡ V"
08 ÐB" ß á ß B8 à )! Ñ . /
08 ÐB" ß á ß B8 à )! Ñ . /
<α 08 ÐB" ß á ß B8 à )" Ñ . / ,
da cui
(
V" V"‡
08 ÐB" ß á ß B8 à )" Ñ . /  (
V"‡ V"
08 ÐB" ß á ß B8 à )" Ñ . / .
Sommando ad ambo i membri l'integrale sull'insieme V" ∩ V"‡ , si ha infine
( 08 ÐB" ß á ß B8 à )" Ñ . /  ( 08 ÐB" ß á ß B8 à )" Ñ . / ,
V"‡
V"
che è equivalente a TV Ð)" Ñ  TX ‡ Ð)" Ñ. Si deve dunque concludere che il test del rapporto delle
verosimiglianze è il più potente fra quelli corretti quando entrambe le ipotesi sono semplici.
Questo risultato costituisce il cosiddetto Lemma di Neyman-Pearson.
Esempio 4.2.1. Dato un campione casuale da \ µ R Ð.ß "Ñ, si supponga che lo spazio
parametrico sia @ œ Ö.! ß ." × dove ."  .! e si consideri il sistema di ipotesi L! À . œ .!
contro L" À . œ ." . Tenendo presente l'Esempio 1.3.1, la determinazione campionaria del
rapporto delle verosimiglianze è data da
<œ
–  .! Ñ# Ó×
- expÖ  Ð8Î#ÑÒ=#  ÐB
–  8 Ð .#  .# Ñ “ .
œ exp’8Ð.!  ." ÑB
"
–
#
#
- expÖ  Ð8Î#ÑÒ=  ÐB  ." Ñ Ó×
# !
–, la regione critica V" indotta da V è la stessa
Dal momento che < è una funzione biunivoca di B
–
indotta da \ e quindi i test basati sulle due statistiche sono equivalenti. Inoltre, dal momento
–
che se è vera L! si ha È8Ð\  .! Ñ µ R Ð!ß "Ñ, allora
Dα
–
–
Pr.! ÖÈ8Ð\  .! Ñ Ÿ Dα × œ Pr.! \ Ÿ .! 
È8
œα.
Di conseguenza, la regione critica del test più potente corretto al livello di significatività α è
data da
g" œ
– B
– Ÿ . !  Dα
BÀ
.
È8 Ÿ
–, il livello di significatività osservato risulta
Se si è osservato il valore campionario B
– –
–  .! ÑÓ .
α9== œ Pr.! Ð\ Ÿ BÑ
œ FÒÈ8ÐB
…
La precedente procedura può essere generalizzata per determinare test uniformente più
potenti in sistemi di ipotesi più complessi quando il rapporto delle verosimiglianze ha una
particolare struttura. Si consideri il sistema di ipotesi L! À ) œ )! contro L" À ) œ )"  )! , dove
la disugualianza è da intendersi in senso lessicografico. Questo tipo di ipotesi alternativa è detto
direzionale. Supponiano inoltre che il rapporto delle verosimiglianze V sia una trasformata
monotona crescente di una statistica X . I test basati su V e X sono equivalenti, dal momento che
inducono la medesima regione critica
Capitolo 4
73
V" œ ÖÐB" ß á ß B8 ÑÀ < œ VÐB" ß á ß B8 Ñ Ÿ <α ×
œ ÖÐB" ß á ß B8 ÑÀ > œ X ÐB" ß á ß B8 Ñ Ÿ >α × ,
dove Pr)! ÐX Ÿ >α Ñ œ α. Per un dato )" , il Lemma di Neyman-Pearson assicura che il test basato
su X è il più potente. Dal momento che >α non dipende dal valore di )" in quanto > è una
statistica, la precedente affermazione è valida per ogni ) specificato in L" , ovvero si è ottenuto
il test uniformente più potente per questo sistema di ipotesi.
In maniera analoga, nel caso che si consideri il sistema di ipotesi L! À ) œ )! contro
L" À ) œ )"  )! , se il rapporto delle verosimiglianze V è una trasformata monotona
decrescente di una statistica X , allora il test basato su X è uniformente più potente.
Si consideri infine il sistema di ipotesi L! À ) œ )! contro L" À ) Á )! . Questo tipo di ipotesi
alternativa è detta bilaterale. Dalla precedente discussione risulta chiaro che per il sistema di
ipotesi precedente non può esistere un test uniformente più potente, dal momento che il rapporto
delle verosimiglianze non può essere contemporaneamente funzione monotona crescente e
decrescente di una statistica X .
Esempio 4.2.2. Dato un campione casuale da \ µ R Ð.ß "Ñ, si supponga che lo spazio
parametrico sia @ œ Ð  ∞ß .! Ó e si consideri il sistema di ipotesi L! À . œ .! contro
L" À .  .! . Dall'Esempio 4.2.1 è noto che il rapporto delle verosimiglianze è una trasformata
–
–
monotona crescente di \ . Quindi il test basato su \ è quello uniformente più potente anche in
questo sistema di ipotesi. La regione critica risulta identica a quella dell'Esempio 4.2.1.
…
4.2.2. Il test del rapporto delle verosimiglianze. In questa sezione si generalizza la
formulazione del rapporto delle verosimiglianze al caso in cui una o entrambe le ipotesi siano
composte. Dato un modello statistico Y) e il sistema di ipotesi L! À ) − @! contro L" À ) − @" , il
test del rapporto delle verosimiglianze è basato sulla statistica test V la cui realizzazione
campionaria è data da
maxPÐ)à B" ß á ß B8 Ñ
<œ
) −@!
max PÐ)à B" ß á ß B8 Ñ
.
) −@
Questa statistica test ha un'interpretazione intuitiva, nel senso che se si sta confrontando la
“plausibilità” di un valore ) rispetto ad un altro sulla base di un campione ÐB" ß á ß B8 Ñ, siamo
portati a scegliere quel valore che fornisce la verosimiglianza più alta. Estendendo la
discussione fatta nella precedente sezione, se non esiste un valore ) che fornisce una
verosimiglianza sensibilmente più alta in @ rispetto alla verosimiglianza massima in @! , siamo
propensi ad accettare L! . Ovviamente, si ha ! Ÿ < Ÿ ". Se la realizzazione < è prossima ad " si
è più propensi ad accettare L! , mentre se la realizzazione < è prossima ad ! si è più propensi ad
accettare L" . Di conseguenza, si può scegliere come regione critica g" œ Ö<À < Ÿ <α ×, dove
sup Pr) ÐV Ÿ <α Ñ œ α .
) −@!
Se si è osservato il valore campionario <, il livello di significatività osservato del test è dato da
α9== œ sup Pr) ÐV Ÿ <Ñ .
) −@!
T T
Se risulta ) œ Ð)ET ß )F
Ñ dove )E è un vettore a Ð5  2Ñ componenti e )F è un vettore a 2
componenti, dato il sistema di ipotesi L! À )E œ )!E contro L" À )F Á )!F , la realizzazione
campionaria della statistica test V è data da
<œ
P: Ð)!E à B" ß á ß B8 Ñ
,
PÐs
) à B" ß á ß B 8 Ñ
74
La verifica d'ipotesi
che evidenzia la dipendenza di V dalla verosimiglianza profilo.
Esempio 4.2.3. Dato un campione casuale da \ µ R Ð.ß "Ñ, si consideri il sistema di ipotesi
L! À . œ .! contro L" À . Á .! . Tenendo presente l'Esempio 1.3.1 e l'Esempio 3.1.1, la
determinazione campionaria del rapporto delle verosimiglianze è data da
<œ
–  .! Ñ# Ó×
- expÖ  Ð8Î#ÑÒ=#  ÐB
8 –
œ exp’  ÐB
 .! Ñ # “ .
#
- expÐ  8= Î#Ñ
#
–  .! Ñ# , la regione critica V" indotta da V è la
Dal momento che < è una funzione biunivoca di ÐB
–
#
stessa indotta da Ð\  .! Ñ e quindi i relativi test sono equivalenti. Inoltre, dal momento che se
–
–
è vera L! si ha È8Ð\  .! Ñ µ R Ð!ß "Ñ, allora 8Ð\  .! Ñ# µ ;#" . Tenendo presente che < è
–  .! Ñ# e dunque si respinge L! per realizzazioni
una funzione monotona decrescente di ÐB
–
#
elevate di Ð\  .! Ñ , allora
–
Pr.! Ö8Ð\  .! Ñ# ;#"ß"α × œ α .
Di conseguenza, la regione critica del test basato sul rapporto delle verosimiglianze è data da
– 8ÐB
–  . ! Ñ # ;#
g" œ ÖBÀ
"ß"α × .
Essendo D"αÎ# œ É;#"ß"α per la relazione fra la R Ð!ß "Ñ e la ;#" , la precedente regione critica
può essere anche espressa in modo equivalente come
g" œ
– B
– Ÿ .!  D"αÎ# ß B
– .!  D"αÎ# .
BÀ
È8
È8 Ÿ
–
–, il
Dal momento che la distribuzione di \ è simmetrica, se si è osservato il valore campionario B
livello di significatività osservato risulta
– –
– –
α9== œ # minÖPr.! Ð\ Ÿ BÑß
Pr.! Ð\ BÑ×
…
–
–
–
œ # minÖFÒÈ8ÐB  .! ÑÓß "  FÒÈ8ÐB  .! ÑÓ× œ # Ò"  FÐÈ8 ± B  .! ± ÑÓ .
4.2.3. La distribuzione per grandi campioni del rapporto delle verosimiglianze. Il test del
rapporto delle verosimiglianze V8 ha proprietà ottime quando si dispone di grandi campioni. Per
semplicità si analizza inizialmente il caso di un solo parametro.
Dato un modello statistico Y) relativo ad un campionamento casuale, si consideri il sistema
di ipotesi L! À ) œ )! contro L" À ) Á )! e si supponga che le condizioni a)-g) della §3.3.2 siano
verificate. Se L! è vera, per un dato campione ÐB" ß á ß B8 Ñ − V8 , si consideri l'espansione in
serie di Taylor di
8
ln 08 ÐB" ß á ß B8 à )Ñ œ
ln 0 ÐB3 à )Ñ
3œ"
in )! , ovvero
ln 08 ÐB" ß á ß B8 à )! Ñ œ ln 08 ÐB" ß á ß B8 à s)8 Ñ
`

ln 08 ÐB" ß á ß B8 à )Ѻ
Ð)!  s)8 Ñ
`)
) œ) ‡
" `#

ln 08 ÐB" ß á ß B8 à )Ѻ
Ð)!  s)8 Ñ# ,
# ` )#
‡
) œ)
Capitolo 4
75
s 8 ÐB" ß á ß B8 Ñ rappresenta la stima dell'equazione di verosimiglianza, mentre
dove s)8 œ K
‡
± )!  ) ±  ± )!  s)8 ± . Dal momento che
`
ln 08 ÐB" ß á ß B8 à )Ѻ
¶ =8 Ðs)8 à B" ß á ß B8 Ñ œ !
`)
‡
) œ)
per l'assunzione b), la precedente relazione può essere riscritta come
 # ln
08 ÐB" ß á ß B8 à )! Ñ
" `
œ 
=8 ÐB" ß á ß B8 à )Ѻ
ÒÈ8Ðs)8  )! ÑÓ# .
s
8
`
)
08 ÐB" ß á ß B8 à )8 Ñ
) œ) ‡
La quantità a primo membro è  # ln <8 , dove <8 œ V8 ÐB" ß á ß B8 Ñ. Inoltre, in base ai risultati
della §3.3.2, si ha

" `
.
s 8  )! ÑÓ# Ä
=8 Ð\" ß á ß \8 à )Ѻ
ÒÈ8ÐK
;"# ,
8 `)
‡
) œ)
da cui segue che
.
 # ln V8 Ä ;#" .
Si è determinata la distribuzione per grandi campioni di una trasformata biunivoca del
rapporto delle verosimiglianze quando L! è vera. Dal momento che la regione critica indotta da
 # ln V8 è identica a quella indotta da V8 , i relativi test sono equivalenti. Si può dimostrare
che il test basato sulla successione di statistiche Ö  # ln V8 × è coerente al livello di
significatività α e che è uniformente più potente (in senso asintotico) per una vasta classe di test
(Wilks, 1962).
Dal momento che  # ln < è una funzione monotona decrescente di <, si respinge L! per
realizzazioni elevate di  # ln V8 . Essendo
lim Pr)! Ö  # ln V8 ;#"ß"α × œ α ,
8Ä∞
la regione critica per grandi campioni del test basato sul rapporto delle verosimiglianze è data da
g8ß" œ Ö<À  # ln < ;#"ß"α × .
La regione critica per campioni finiti data da g" œ Ö<À < Ÿ <α ×, dove Pr)! ÐV Ÿ <α Ñ œ α, e la
regione critica g8ß" in generale non coincidono (per un'eccezione si veda l'Esempio 4.2.2). In
particolare, il livello reale di significatività del test α8 non coincide con il livello nominale di
significatività α (ovvero quello prefissato). Dal momento che si vuole controllare al massimo
l'errore di I specie, è opportuno che sia α8 Ÿ α e se il test soddisfa a questa condizione allora è
detto conservatore. Infine, se si è osservato il valore campionario <, il livello di significatività
osservato per grandi campioni del test è dato da
α8ß9== œ PrÐ;#"  # ln <Ñ ,
che ovviamente non coincide in generale con il livello di significatività osservato per campioni
finiti α9== œ Pr)! ÐV Ÿ <Ñ.
Per ottenere i risultati di questa sezione, è stato implicitamente dimostrato che
.
s 8  )! Ñ # Ä
M8 Ð)! ÑÐK
;"#
e che
.
s 8 ÑÐK
s 8  )! Ñ # Ä
sM 8 ÐK
;"# .
76
La verifica d'ipotesi
Su queste due statistiche si possono dunque costruire test equivalenti al test del rapporto delle
verosimiglianze per grandi campioni.
Esempio 4.2.4. Dato un campione casuale da \ µ IÐ!ß 5Ñ, si consideri il sistema di ipotesi
L! À 5 œ 5! contro L" À 5 Á 5! , dove 5! è una quantità nota. Tenendo presente l'Esempio 1.3.3 e
l'Esempio 3.1.3, la determinazione campionaria del rapporto delle verosimiglianze è data da
– 5! Ñ
–
–
- expÐ  8 ln 5!  8BÎ
B
8B
<œ
œ
exp
8
ln

 8• ,
”
Œ
–  8Ñ
- expÐ  8 ln B
5!
5!
–. È evidentemente laborioso determinare la
ovvero < è una funzione (non biunivoca) di B
distribuzione per campioni finiti del rapporto delle verosimiglianze. Tuttavia, dal momento che
le condizioni richieste in questa sezione sono soddisfatte, se L! è vera risulta
–
–
\8
#8\ 8
.
 # ln V8 œ  #8 lnŒ

 #8 Ä ;#" .
5!
5!
Di conseguenza, la regione critica per grandi campioni del test basato sul rapporto delle
verosimiglianze è data da
–
–
–  #8 lnŒ B  #8B  #8 ;#
g8ß" œ œBÀ
.
"ß"α
5!
5!
Infine, la significatività osservata per grandi campioni risulta
–
–
B
#8B
α8ß9== œ Prœ;#"  #8 lnŒ

 #8
5!
5!
…
.
Esempio 4.2.5. Dato un campione casuale da \ µ F3Ð"ß :Ñ, si consideri il sistema di ipotesi
L! À : œ :! contro L" À : Á :! . Tenendo presente l'Esempio 1.3.5 e l'Esempio 3.1.8, la
determinazione campionaria del rapporto delle verosimiglianze è data da
– ln :!  Ð8  8BÑ
– lnÐ"  :! ÑÓ
- expÒ8B
– lnŠ :! ‹  Ð8  8BÑ
– lnŒ "  :! • ,
<œ
œ exp”8B
–
–
–
–
–
–
- expÒ8B ln B  Ð8  8BÑ lnÐ"  BÑÓ
B
"B
–. È evidentemente laborioso determinare la
ovvero < è una funzione (non biunivoca) di B
distribuzione per campioni finiti del rapporto delle verosimiglianze. Tuttavia, dal momento che
le condizioni richieste in questa sezione sono soddisfatte, allora se L! è vera risulta
:!
–
 # ln V8 œ  #8\ 8 lnŒ –
\8
"  :!
–
 #Ð8  8\ 8 Ñ lnŒ
–
"  \8
.
Ä ;#" .
Di conseguenza, la regione critica per grandi campioni del test basato sul rapporto delle
verosimiglianze è data da
–  #8B
– lnŠ :! ‹  #Ð8  8BÑ
– lnŒ "  :!
g8ß" œ œBÀ
–
–
B
"B
;#"ß"α
.
Infine, la significatività osservata per grandi campioni risulta
– lnŠ :! ‹  #Ð8  8BÑ
– lnŒ "  :!
α8ß9== œ Prœ;#"  #8B
–
–
B
"B
.
…
I precedenti risultati possono essere generalizzati al caso di un vettore di parametri. Se Y) è
un modello statistico relativo ad un campionamento casuale, si consideri il sistema di ipotesi
Capitolo 4
77
L! À ) œ )! contro L" À ) Á )! e supponiamo che le condizioni a)-g) della §3.3.2 siano
verificate. Si può dimostrare che se L! è vera risulta (vedi Wilks, 1962)
.
 # ln V8 Ä ;#5 .
Dunque, la regione critica per grandi campioni del test basato sul rapporto delle verosimiglianze
è data da
g8ß" œ Ö<À  # ln < ;#5ß"α × .
Inoltre, per un dato valore campionario <, il livello di significatività osservato per grandi
campioni risulta
α8ß9== œ PrÐ;#5  # ln <Ñ .
Anche nel caso di un vettore di parametri si può dimostrare che (vedi Wilks, 1962)
.
s 8  )! ÑT I8 Ð)! ÑÐK
s 8  )! Ñ Ä
ÐK
;#5
e che
.
s 8  )! ÑT sI8 ÐK
s 8 ÑÐK
s 8  )! Ñ Ä
ÐK
;#5 .
Su queste due statistiche si possono costruire test equivalenti a quello del rapporto delle
verosimiglianze quando si dispone di grandi campioni.
T T
Si supponga infine che ) œ Ð)ET ß )F
Ñ dove )E è un vettore a Ð5  2Ñ componenti e )F è un
vettore a 2 componenti. Si consideri il sistema di ipotesi L! À )E œ )!E contro L" À )E Á )!E e
supponiamo che le condizioni a)-g) della §3.3.2 siano verificate. Si può dimostrare che se L! è
vera risulta (vedi Wilks, 1962)
.
 # ln V8 Ä ;#52 ,
ovvero in questo caso i gradi di libertà della distribuzione di  # ln V8 per grandi campioni
diminuiscono del numero di componenti di ) da stimare sotto L! . Dunque, la regione critica per
grandi campioni del test basato sul rapporto delle verosimiglianze è data da
g8ß" œ Ö<À  # ln < ;#52ß"α × .
Per un dato valore campionario <, il livello di significatività osservato per grandi campioni
risulta
α8ß9== œ PrÐ;#52  # ln <Ñ .
4.3. Alcune applicazioni del test del rapporto delle verosimiglianze
4.3.1. Il test > di Student ad un campione (bilateraleÑ. Si consideri un campionamento casuale
da \ µ R Ð.ß 8Ñ e si supponga di voler verificare il sistema di ipotesi L! À . œ .! contro
L" À . Á .! . Si ha
@ œ ÖÐ.ß 8ÑÀ Ð.ß 8Ñ − ‘ ‚ ‘ ×
e
@! œ ÖÐ.ß 8ÑÀ . œ .! ß 8 − ‘ × .
In base ai risultati dell'Esempio 3.1.2, si ottiene
78
La verifica d'ipotesi
– =# Ñ .
max 6Ð.ß 8Ñ œ 6ÐBß
Ð.ß8Ñ−@
–  .! Ñ# , si ha
Inoltre, tenendo presente la disugualianza dell'Esempio 3.1.2 con . œ =#  ÐB
8
8 #
–  .! Ñ# Ó Ÿ ln -  8 lnÒ=#  ÐB
–  .! Ñ # Ó  8
6Ð.! ß 8Ñ œ ln -  ln 8 
Ò=  ÐB
#
#8
#
#
#
#
–
œ 6Ò.! ß =  ÐB  .! Ñ Ó œ 6: Ð.! Ñ œ max 6Ð.ß 8Ñ .
Ð.ß8Ñ−@!
La determinazione campionaria di V è data da
– =# ÑÓ œ expš  8 lnÒ=#  ÐB
–  .! Ñ# Ó  8 ln =# ›
< œ expÒ6: Ð.! Ñ  6ÐBß
#
#
8Î#
# 8Î#
# 8Î#
–
–
ÐB  .! Ñ
8ÐB  .! Ñ
>#
œ ”" 
œ
"

œ
"

,
•
”
•
Œ
=#
Ð8  "Ñ=#8"
dove
>œ
–  .! Ñ
È8ÐB
=-
.
Se L! è vera, > è la determinazione campionaria di una statistica X distribuita come una > di
Student con Ð8  "Ñ gradi di libertà, dal momento che
–
–
È8Ð\
È8Ð\
 .! Ñ
 .! ÑÎÈ8
X œ
œ
ÈÒÐ8  "ÑW-# Î8ÓÎÐ8  "Ñ
W-
–
e che inoltre le statistiche È8Ð\  .! ÑÎÈ8 µ R Ð!ß "Ñ e Ð8  "ÑW-# Î8 µ ;#8" sono
indipendenti (vedi Esempio 1.2.5). Inoltre < è una funzione monotona decrescente di ± > ± e
quindi i test costruiti su V e ± X ± sono equivalenti. Tenendo presente la relazione fra le
statistiche X e ± X ± e dal momento che rifiutare L! per piccole determinazioni di V è
equivalente a rifiutare L! per determinazioni elevate di ± X ± , la regione critica del test risulta
g" œ Ö>À > Ÿ  >8"ß"αÎ# ß > >8"ß"αÎ# × .
Dal momento che la distribuzione di X è simmetrica, se si è osservato il valore campionario >, il
livello di significatività osservato risulta infine
α9== œ # PrÐ>8" ± > ± Ñ .
Anche se in questo caso la distribuzione della statistica test è nota per campioni finiti, si noti
tuttavia che per grandi campioni, quando L! è vera, la quantità
 # ln < œ 8 lnŒ" 
>#
8"
,
.
è la determinazione di una statistica  # ln V8 Ä ;#" , in quanto vi sono due parametri, di cui
uno da stimare sotto ipotesi di base.
Esempio 4.3.1. Gli antichi greci indicavano come rettangolo aureo un rettangolo con un
rapporto fra i lati dato da 3 œ " ƒ ÐÈ&  "ÑÎ# ¶ !.'"). Questo tipo di rettangolo era spesso
adoperato nella loro architettura (per esempio nella struttura del Partenone). I dati della Tavola
4.3.1 riguardano il rapporto fra i lati di un campione casuale di #! rettangoli usati dai nativi
americani Shoshoni per decorare le loro tende.
Capitolo 4
79
Tavola 4.3.1. Rapporto dei lati dei rettangoli.
rettangolo
"
#
$
%
&
'
(
)
*
"!
B3
!.'*$
!.''#
!.'*!
!.'!'
!.&(!
!.(%*
!.'(#
!.'#)
!.'!*
!.)%%
rettangolo
""
"#
"$
"%
"&
"'
"(
")
"*
#!
B3
!.'&%
!.'"&
!.'')
!.'!"
!.&('
!.'(!
!.'!'
!.'""
!.&&$
!.*$$
Fonte: Dubois (1970)
Si vuole verificare se gli Shoshoni avessero conoscenza del rettangolo aureo, ovvero,
supponendo valido il modello di questa sezione, si vuole verificare il sistema di ipotesi
L! À . œ 3 contro L" À . Á 3. Dal momento che per questi dati è immediato verificare che
– œ !.''!& e =- œ !.!*#&, allora si ha > œ #.!&#*. Di conseguenza, il livello di significatività
B
osservato risulta
α9== œ # PrÐ>"* #.!&#*Ñ œ !.!&%" .
Dato che la significatività osservata è piuttosto bassa, vi è una moderata indicazione a
respingere l'ipotesi di base, ovvero sembra dubbio che gli Shoshoni avessero conoscenza del
rettangolo aureo. Infatti, si può respingere L! ad ogni livello di significatività α  !.!&%". Si
noti che  # ln < œ %.!!'' e dunque si ha
α8ß9== œ PrÐ;#" %.!!''Ñ œ !.!%&$ ,
…
un risultato che conferma le conclusioni precedenti.
4.3.2. Il test > di Student ad un campione (direzionale). Si consideri ancora il modello della
§4.3.1 e si supponga ora di voler verificare il sistema di ipotesi L! À . œ .! contro L" À .  .! .
Dunque, si ha
@ œ ÖÐ.ß 8ÑÀ . Ÿ .! ß 8 − ‘ ×
e
@! œ ÖÐ.ß 8ÑÀ . œ .! ß 8 − ‘ × .
Per quanto riguarda la massimizzazione su @! nulla cambia rispetto alla §4.3.1. Inoltre, tenendo
–  .Ñ# , con un procedimento
presente la disugualianza dell'Esempio 3.1.2 con . œ =#  ÐB
simile a quello dell'Esempio 3.1.1, si ha
8
8 #
–  .Ñ# Ó  ln IÐ∞ß. Ó Ð.Ñ
6Ð.ß 8Ñ œ ln -  ln 8 
Ò=  ÐB
!
#
#8
8
8
–  .Ñ# Ó   ln IÐ∞ß. Ó Ð.Ñ œ 6Ò.ß =#  ÐB
–  .Ñ# Ó Ÿ
Ÿ ln -  lnÒ=#  ÐB
!
#
#
8
8
– ln -  8 lnÒ=#  ÐB
–  .! Ñ # Ó  8 ›
Ÿ maxšln -  ln =#   ln IÐ∞ß.! Ó ÐBÑß
#
#
#
#
– =# Ñ  ln IÐ∞ß. Ó ÐBÑß
– 6Ò.! ß =#  ÐB
–  .! Ñ# Ó× œ max 6Ð.ß 8Ñ .
œ maxÖ6ÐBß
!
Ð.ß8Ñ−@
Di conseguenza la determinazione campionaria di V è data da
80
La verifica d'ipotesi
– expÒ6: Ð.! Ñ  6ÐBß
– =# ÑÓ  IÐ. ß∞Ñ ÐBÑ
–
< œ IÐ∞ß.! Ó ÐBÑ
!
œ IÐ∞ß!Ó Ð>ÑŒ" 
dove
>œ
>#
8"
8Î#
 IÐ!ß∞Ñ Ð>Ñ ,
–  .! Ñ
È8ÐB
=-
.
Per i motivi esposti nella sezione precedente, quando L! è vera, > è la determinazione
campionaria di una statistica X distribuita come una >8" . Dal momento che < è una funzione
monotona crescente di >, allora i test costruiti su V e X sono equivalenti. Inoltre, rifiutare L! per
piccole determinazioni di V è equivalente a rifiutare L! per piccole determinazioni di X , e
dunque la regione critica del test è data da
g" œ Ö>À > Ÿ >8"ßα × .
Infine, per un dato valore campionario >, il livello di significatività osservato risulta
α9== œ PrÐ>8" Ÿ >Ñ .
È immediato estendere questi risultati al sistema di ipotesi L! À . œ .! contro L" À .  .! . In
questo caso la regione critica del test è data da
g" œ Ö>À > >8"ß"α × ,
mentre il livello di significatività osservato risulta
α9== œ PrÐ>8" >Ñ .
Infine, la statistica  # ln V8 non converge ad una Chi-quadrato, in quanto l'ipotesi di base non
è del tipo specificato nella §4.2.3.
Esempio 4.3.2. Su un campione casuale di 20 soggetti in sovrappeso (con un peso corporeo
superiore a 100 chilogrammi) è stato misurato il livello di colesterolo ottenendo i dati della
Tavola 4.3.2.
Tavola 4.3.2. Livello di colesterolo (in mg per 100 ml).
soggetto
"
#
$
%
&
'
(
)
*
"!
B3
$%%
")&
#'$
#%'
##%
#"#
"))
#&!
"%)
"'*
soggetto
""
"#
"$
"%
"&
"'
"(
")
"*
#!
B3
##'
"(&
#%#
#&#
"&$
")$
"$(
#!#
"*%
#"$
Fonte: Selvin (1991)
Da numerose esperienze cliniche risulta che il livello di colesterolo nel sangue di una persona
sana è di circa 190 mg per 100 ml. Si sospetta che i soggetti in forte sovrappeso abbiano un
livello del colesterolo più alto della norma e dunque si vuole verificare il sistema di ipotesi
– œ #"!.$ e
L! À . œ 19! contro L" À .  19!. Dal momento che per questi dati si ottiene B
=- œ %).$$**, allora si ha > œ ".)()!. Di conseguenza, il livello di significatività osservato è
dato da
Capitolo 4
81
α9== œ PrÐ>"* ".)()!Ñ œ !.!$(* .
Dal momento che la significatività osservata è bassa, si è propensi ad affermare che i soggetti in
sovrappeso abbiano un livello del colesterolo più alto della norma, in quanto si può respingere
L! ad ogni livello di significatività α  !.!$(*.
…
4.3.3. Il test Chi-quadrato per la verifica di ipotesi sulla varianza. Si consideri un
campionamento casuale da \ µ R Ð.ß 8Ñ e si supponga di voler verificare il sistema di ipotesi
L! À 8 œ 8! contro L" À 8 Á 8! . Anche se questa verifica di ipotesi non si adopera usualmente
nella pratica, sarà utilizzata nel prossimo capitolo per ulteriori sviluppi teorici. Si ha
@ œ ÖÐ.ß 8ÑÀ Ð.ß 8Ñ − ‘ ‚ ‘ ×
e
@! œ ÖÐ.ß 8ÑÀ 8 œ 8! ß . − ‘× .
In base ai risultati dell'Esempio 3.1.2, risulta
– =# Ñ .
max 6Ð.ß 8Ñ œ 6ÐBß
Ð.ß8Ñ−@
Inoltre, si ha
8
ln 8! 
#
8
Ÿ ln -  ln 8! 
#
6Ð.ß 8! Ñ œ ln - 
8
–  .Ñ# Ó
Ò=#  ÐB
#8!
8=#
– 8! Ñ œ 6: Ð8! Ñ œ max 6Ð.ß 8Ñ .
œ 6ÐBß
#8!
Ð.ß8Ñ−@!
Di conseguenza, la determinazione campionaria di V è data da
– =# ÑÓ œ exp” 8 lnŒ =
< œ expÒ6: Ð8! Ñ  6ÐBß
#
8!
#
œ”
=#
=#
expŒ 
" •
8!
8!
8Î#
œ’

8=#
8
 •
#8!
#
8Î#
?
?
expŠ   "‹“ ,
8
8
dove
?œ
8=#
.
8!
Quando L! è vera, ? è la determinazione campionaria di una statistica Y distribuita come una
Chi-quadrato con Ð8  "Ñ gradi di libertà (vedi Esempio 1.2.5). In questo caso, < non è una
funzione biunivoca di ? e quindi i test costruiti su V e Y non sono equivalenti. Tuttavia, dal
momento che < œ <Ð?Ñ è una funzione prima crescente e successivamente decrescente, allora la
regione critica del test è del tipo g" œ Ö?À ? Ÿ -" ß ? -# ×, dove -" e -# vanno scelti in modo
tale che <Ð-" Ñ œ <Ð-# Ñ e PrÐ-"  ;#8"  -# Ñ œ "  α. Questa procedura risulta complessa e
usualmente si adotta come regione critica
#
g" œ Ö?À ? Ÿ ;#8"ßαÎ# ß ? ;8"ß"
αÎ# × .
Dato che la distribuzione di Y non è simmetrica, il livello di significatività osservato non è
definito. Tuttavia, dato che per 8 elevato la distribuzione di Y è approssimativamente
simmetrica, se si è osservato il valore campionario ?, usualmente si pone
82
La verifica d'ipotesi
#
α9== œ # minÖPrÐ;#8" Ÿ ?Ñß PrÐ;8"
?Ñ× .
Infine, per grandi campioni la quantità
?
 # ln < œ  8 lnŠ ‹  ?  8
8
.
è la determinazione di una statistica  # ln V8 Ä ;#" , in quanto vi sono due parametri, di cui
uno da stimare sotto ipotesi di base.
4.3.4. Il test > di Student a due campioni. Si consideri due campioni casuali indipendenti
ÐB"" ß á ß B"8" Ñ e ÐB#" ß á ß B#8# Ñ rispettivamente da \" µ R Ð." ß 8Ñ e \# µ R Ð.# ß 8Ñ, ovvero da
due variabili casuali Normali indipendenti con differenti medie e uguale varianza. Quando si
assume l'omogeneità delle varianze come in questo caso, le variabili casuali sono dette
omoschedastiche. Sia inoltre 8 œ 8"  8# la numerosità campionaria globale. Il modello
statistico è dato da
08 À 08 ÐB"" ß á ß B"8" ß B#" ß á ß B#8# à ." ß .# ß 8Ñ œ $$
#
Y." ß.# ß8 œ
84
4œ" 3œ"
B43  .4
"
9
Ÿ
È8
È8
dove Ð." ß .# ß 8Ñ − ‘# ‚ ‘ . Si vuole verificare il sistema di ipotesi L! À ." œ .# œ . contro
L" À ." Á .# . Dunque, si ha
@ œ ÖÐ." ß .# ß 8ÑÀ Ð." ß .# ß 8Ñ − ‘# ‚ ‘ ×
e
@! œ ÖÐ." ß .# ß 8ÑÀ ." œ .# ß 8 − ‘ × .
–4 e =# rappresentano rispettivamente le realizzazioni campionarie della media campionaria
Se B
4
–
\ 4 e della varianza campionaria W4# per il j-esimo campione, allora estendendo i risultati
dell'Esempio 1.3.1 la funzione di log-verosimiglianza è data da
#
6Ð." ß .# ß 8Ñ œ ln - 
4œ"
š
84
84 #
– 4  .4 Ñ # Ó ›
ln 8 
Ò=  ÐB
#
#8 4
8
8=#
"
œ ln -  ln 8  A 
#
#8
#8
#
– 4  .4 Ñ # ,
84 ÐB
4œ"
dove
=#A œ
"
8
#
84 =4# .
4œ"
In maniera analoga all'Esempio 3.1.2, adoperando la disugualianza del medesimo esempio con
. œ =#A , si ha
8
8=#
–" ß B
–# ß 8Ñ
ln 8  A œ 6ÐB
#
#8
8
8
–" ß B
–# ß =# Ñ œ max 6Ð." ß .# ß 8Ñ .
Ÿ ln -  ln =#A  œ 6ÐB
A
#
#
Ð." ß.# ß8Ñ−@
6Ð." ß .# ß 8Ñ Ÿ ln - 
Inoltre, tenendo presente che se L! è vera si dispone in effetti di un unico campione da R Ð.ß 8Ñ,
si ottiene
Capitolo 4
83
– Bß
– =# Ñ œ
6Ð.ß .ß 8Ñ Ÿ 6ÐBß
max
Ð." ß.# ß8Ñ−@!
6Ð." ß .# ß 8Ñ ,
dove
–œ "
B
8
#
–4
84 B
4œ"
e
"
= œ
8
84
#
– #.
ÐB43  BÑ
#
4œ" 3œ"
Inoltre risulta
=# œ
"
8
#
84
–4 Ñ  ÐB
–4  BÑÓ
– #œ
ÒÐB43  B
4œ" 3œ"
dove si è tenuto presente che
84
3œ" ÐB43
"
8
#
84 =#4 
4œ"
"
8
#
–4  BÑ
– # œ =#  =# ,
84 ÐB
A
,
4œ"
–4 Ñ œ ! e dove si è posto
B
=#, œ
"
8
#
–4  BÑ
– #.
84 ÐB
4œ"
La precedente relazione evidenzia la classica scomposizione della varianza totale =# nella
varianza all'interno dei gruppi =#A e nella varianza fra i gruppi =#, (vedi Fattorini, 1997). È facile
inoltre verificare che
8" 8 # –
– " Ñ# .
=#, œ
ÐB#  B
8#
Dunque, risulta
#
#
– Bß
– =# Ñ œ ln -  8 ln =#  8=A  8=, œ ln -  8 ln =#  8 .
6ÐBß
#
#=#
#=#
#
#
Di conseguenza, la determinazione campionaria di V è data da
– Bß
– =# Ñ  6ÐB
–" ß B
–# ß =# ÑÓ œ expŠ  8 ln =#  8 ln =# ‹
< œ expÒ6ÐBß
A
A
#
#
8Î#
8Î#
=#,
>#
œ Œ"  #
œ Œ" 
,
=A
8#
dove
> œ È8  #
=,
.
=A
Le quantità =#, e =#A sono le determinazioni campionarie di due statistiche W,# e WA# indipendenti.
Questo risultato è una generalizzazione dell'Esempio 1.2.5, in quanto le statistiche W,# e WA# sono
trasformate rispettivamente delle medie e delle varianze campionarie di campioni indipendenti.
Inoltre, dal momento che
8WA#
œ
8
#
4œ"
84 W4#
,
8
84
La verifica d'ipotesi
dove le statistiche 84 W4# Î8 µ ;#84 " sono indipendenti in quanto i campioni sono indipendenti ,
per la proprietà i) della §A.3.2, si ha 8WA# Î8 µ ;#8# . Dal momento che risulta
8W,#
8W #
8WA#
œ

8
8
8
e che 8W # Î8 µ ;#8" , ancora per la proprietà i) della §A.3.2 si deve necessariamente concludere
che 8W,# Î8 µ ;#" . Dunque, se L! è vera, > è la determinazione campionaria della statistica
–
–
8W,# Î8
W,
8" 8# Ð8  #Ñ \ #  \ "
È
X œ 8#
œË
œÊ
,
WA
Ð8WA# Î8ÑÎÐ8  #Ñ
8#
WA
distribuita come una > di Student con Ð8  #Ñ gradi di libertà. Inoltre < è una funzione monotona
decrescente di ± > ± e quindi i test costruiti su V e ± X ± sono equivalenti. Tenendo presente la
relazione fra le statistiche X e ± X ± , dal momento che rifiutare L! per piccole determinazioni
di V è equivalente a rifiutare per quelle elevate di ± X ± , la regione critica del test è data da
g" œ Ö>À > Ÿ  >8#ß"αÎ# ß > >8#ß"αÎ# × .
Dato che la distribuzione di X è simmetrica, se si è osservato il valore campionario >, il livello di
significatività osservato risulta infine
α9== œ # PrÐ>8# ± > ± Ñ .
Anche se in questo caso la distribuzione della statistica test è nota per campioni finiti, si noti
tuttavia che per grandi campioni la quantità
 # ln < œ 8 lnŒ" 
>#
8#
.
è la determinazione di una statistica  # ln V8 Ä ;#" , in quanto vi sono tre parametri, di cui due
da stimare sotto ipotesi di base.
Esempio 4.3.3. In un esperimento è stata misurata la secrezione di tromboglobulina urinaria in
12 pazienti sani e in 12 pazienti diabetici. I dati relativi all'esperimento clinico sono riportati
nella Tavola 4.3.3.
Tavola 4.3.3. Secrezione di tromboglobulina.
paziente sano
"
#
$
%
&
'
(
)
*
"!
""
"#
B"3
% ."
' .$
( .)
) .&
) .*
"!.%
"".&
"#.!
"$.)
"(.'
#%.$
$(.#
paziente malato
"
#
$
%
&
'
(
)
*
"!
""
"#
B#3
"".&
"#."
"'."
"(.)
#%.!
#).)
$$.*
%!.(
&".$
& ' .#
'".(
'*.#
Fonte: van Oost, Veldhayzen, Timmermans e Sixma (1983)
Si sospetta che i pazienti diabetici abbiano una secrezione di tromboglobulina differente dai
pazienti sani, ovvero si vuole verificare il sistema di ipotesi L! À ." œ .# œ . contro
–" œ "$.&$$$, B
–# œ $&.#(&!, =# œ ((.%*$* e =# œ $('.'$$&,
L" À ." Á .# . Dal momento che B
"
#
Capitolo 4
85
allora =A œ ##(.!'$(, da cui > œ $.$)$). Di conseguenza, il livello di significatività osservato
risulta
α9== œ # PrÐ>## $.$)$)Ñ œ !.!!#( .
Dato che la significatività osservata è molto bassa, vi è una forte indicazione a concludere che i
pazienti diabetici abbiano una secrezione di tromboglobulina differente dai pazienti sani. Infatti,
si può respingere L! ad ogni livello di significatività α  !.!!#(. Risulta  # ln < œ "!.!&'" e
dunque si ha
α8ß9== œ PrÐ;#" "!.!&'"Ñ œ !.!!"& ,
…
un risultato che conferma le conclusioni precedenti.
4.3.5. Il test J di Snedecor per l'omogeneità delle varianze. Si supponga di considerare due
campioni casuali indipendenti ÐB"" ß á ß B"8" Ñ e ÐB#" ß á ß B#8# Ñ rispettivamente da
\" µ R Ð." ß 8" Ñ e \# µ R Ð.# ß 8# Ñ, ovvero da due variabili casuali Normali indipendenti con
differenti medie e varianze. Se inoltre 8 œ 8"  8# è la numerosità campionaria globale, il
modello statistico è dato da
08 À 08 ÐB"" ß á ß B"8" ß B#" ß á ß B#8# Ñ œ $$
#
Y." ß.# ß8" ß8# œ
84
4œ" 3œ"
B43  .4
"
9
Ÿ
È84
È84
dove Ð." ß .# ß 8" ß 8# Ñ − ‘# ‚ ‘ ‚ ‘ e dove per semplicità di notazione si è eliminato la
dipendenza di 08 dai parametri. Si vuole verificare il sistema di ipotesi L! À 8" œ 8# œ 8 contro
L" À 8" Á 8# . Dunque, si ha
@ œ ÖÐ." ß .# ß 8" ß 8# ÑÀ Ð." ß .# ß 8" ß 8# Ñ − ‘# ‚ ‘ ‚ ‘ ×
e
@! œ ÖÐ." ß .# ß 8" ß 8# ÑÀ 8" œ 8# ß ." − ‘ß .# − ‘× .
–4 e =# rappresentano rispettivamente le realizzazioni campionarie della media campionaria
Se B
4
–
\ 4 e della varianza campionaria W4# per il j-esimo campione, la funzione di log-verosimiglianza
è data da
#
6Ð." ß .# ß 8" ß 8# Ñ œ ln - 
4œ"
œ
84
84 #
– 4  .4 Ñ # Ó
ln 84 
Ò=  ÐB
#
#84 4
.
In maniera analoga all'Esempio 3.1.2, adoperando la disugualianza del medesimo esempio
rispettivamente con . œ =#" e . œ =## , si ha
#
6Ð." ß .# ß 8" ß 8# Ñ Ÿ ln - 

4œ"
#
Ÿ ln - 
4œ"
š
84 =4#
84
–" ß B
– # ß 8 " ß 8# Ñ
ln 84 
œ 6ÐB
#
#84 Ÿ
84
84
ln =#4  ›
#
#
–" ß B
– # ß =# ß =# Ñ œ
œ 6ÐB
" #
max
6Ð." ß .# ß 8" ß 8# Ñ .
Ð." ß.# ß8" ß8# Ñ−@
Inoltre, tenendo presente la definizione di =#A data nella §4.3.4, si ha
86
La verifica d'ipotesi
8
8=#
–" ß B
–# ß 8ß 8Ñ
ln 8  A œ 6ÐB
#
#8
8
8
–" ß B
– # ß =# ß =# Ñ œ
Ÿ ln -  ln =#A  œ 6ÐB
max
6Ð." ß .# ß 8" ß 8# Ñ .
A A
#
#
Ð." ß.# ß8" ß8# Ñ−@!
6Ð." ß .# ß 8ß 8Ñ Ÿ ln - 
Di conseguenza, la determinazione campionaria di V è data da
–" ß B
–# ß =# ß =# Ñ  6ÐB
–" ß B
–# ß =# ß =# ÑÓ œ exp  8 ln =# 
< œ expÒ6ÐB
A A
" #
A
#
œ exp– 
#
4œ"
#
84
#
#
Ðln =A  ln =4 Ñ— œ $
#
4œ"
8" 8" Î# 8# 8# Î#
8#  "
œŠ ‹
Š ‹
”" 
•
8
8
Ð8"  "Ñ0
#
4œ"
84
ln =4#
#
84 Î#
=#A
=#4
8" Î#
Ð8"  "Ñ0
 "•
”
8#  "
8# Î#
,
dove
=#-"
.
=#-#
0œ
#
Dal momento che le statistiche Ð84  "ÑW-4
Î8 µ ;#84 " sono indipendenti in quanto i campioni
sono indipendenti, se L! è vera, 0 è una determinazione della statistica
J œ
#
#
W-"
ÒÐ8"  "ÑW-"
Î8ÓÎÐ8"  "Ñ
œ
,
#
#
W-#
ÒÐ8#  "ÑW-# Î8ÓÎÐ8#  "Ñ
distribuita come una J di Snedecor con Ð8"  "Ñ e Ð8#  "Ñ gradi di libertà. In questo caso, <
non è una funzione biunivoca di 0 e quindi i test costruiti su V e J non sono equivalenti.
Tuttavia, notando che < œ <Ð0 Ñ è una funzione prima crescente e successivamente decrescente,
allora la regione critica del test è del tipo g" œ Ö0 À 0 Ÿ -" ß 0 -# ×, dove -" e -# vanno scelti in
modo tale che <Ð-" Ñ œ <Ð-# Ñ e PrÐ-"  J8" "ß8# "  -# Ñ œ "  α. Questa procedura risulta
piuttosto complessa e quindi usualmente si adotta come regione critica
g" œ Ö0 À 0 Ÿ J8" "ß8# "ßαÎ# ß 0 J8" "ß8# "ß"αÎ# × .
Dato che la distribuzione di J non è simmetrica, il livello di significatività osservato non è
definito. Tuttavia, dato che per 8" e 8# elevati la distribuzione di J è approssimativamente
simmetrica, se si è osservato il valore campionario 0 , usualmente si pone
α9== œ # minÖPrÐJ8" "ß8# " Ÿ 0 Ñß PrÐJ8" "ß8# " 0 Ñ× .
Per grandi campioni la quantità
#
 # ln < œ
84 ln
4œ"
.
=#A
=#4
è la determinazione di una statistica  # ln V8 Ä ;#" , in quanto vi sono quattro parametri, di cui
tre da stimare sotto ipotesi di base.
Quando non si è sicuri che l'ipotesi di omoschedasticità nella §4.3.4 risulti valida, si dovrebbe
eseguire in maniera preliminare il test analizzato in questa sezione e successivamente, se
l'ipotesi di base è accettata, si dovrebbe procedere con la verifica di ipotesi sulle medie.
Tuttavia, se i due test sono effettuati rispettivamente ai livelli di significatività α" e α# , allora
l'ipotesi di ugualianza delle medie verrà accettata al livello Ð"  α" ÑÐ"  α# Ñ, dal momento che
si può dimostrare che le due statistiche test sono indipendenti. Dunque, in effetti il livello di
Capitolo 4
87
significatività complessivo sarà dato da α œ α"  α#  α" α# . Questa serie di test successivi è
detta test in cascata. In generale le statistiche test di un test in cascata non sono indipendenti e
quindi diventa estremamente complesso calcolare il livello di significatività globale.
Esempio 4.3.4. Una fabbrica produce un tipo specifico di sfere di acciaio del diametro di 1
micron. Alla fine di una giornata di produzione sono stati estratti due campioni casuali di 10
sfere fra quelle prodotte da due macchinari ed è stato misurato il loro diametro, ottenendo i dati
della Tavola 4.3.4.
Tavola 4.3.4. Diametro delle sfere (in micron).
sfera mac. 1
"
#
$
%
&
'
(
)
*
"!
B"3
".")
".%#
!.'*
!.))
".'#
".!*
".&$
".!#
"."*
".$#
sfera mac. 2
"
#
$
%
&
'
(
)
*
"!
B#3
".(#
".'#
".'*
!.(*
".(*
!.((
".%%
".#*
".*'
!.**
Fonte: Romano (1977)
Si vuole controllare se la produzione è sotto controllo, ovvero se i due macchinari producono
sfere con la medesima precisione, e dunque si vuole verificare il sistema di ipotesi
L! À 8" œ 8# œ 8 contro L" À 8" Á 8# . Dal momento che per questi dati è immediato verificare
–" œ "."*%!, B
–# œ ".%!'!, =# œ !.!(&&, =# œ !."'&", allora si ha 0 œ !.%&(%. Di
che B
-"
-#
conseguenza, il livello di significatività osservato risulta
α9== œ # PrÐJ*ß* !.%&(%Ñ œ !.#&*# .
Dato che la significatività osservata è abbastanza alta, si può concludere che i due macchinari
producono sfere con la medesima precisione. Infatti, si può accettare L! ad ogni livello di
significatività α  !.#&*#. Dal momento che  # ln < œ ".%*"), si ha
α8ß9== œ PrÐ;#" ".%*")Ñ œ !.##"* ,
un risultato che conferma le conclusioni precedenti. Supponiamo di voler verificare inoltre il
sistema di ipotesi L! À ." œ .# œ . contro L" À ." Á .# . Dal momento che si ha =A œ !."#!$,
allora > œ ".#*'&. Il livello di significatività osservato risulta
α9== œ # PrÐ>") ".#*'&Ñ œ !.#""# .
Dato che la significatività osservata è abbastanza alta, si può concludere che i due macchinari
producono sfere con il medesimo diametro. I due test sono in cascata e si può scegliere i livelli
di significatività pari a
α" œ α# œ "  È"  !.!& ¶ !.!#&$
per accettare l'ipotesi di base ad un livello di significatività globale pari a α œ !.!&.
…
4.3.6. Il test > di Student per dati appaiati. Si supponga di considerare due campioni casuali
dipendenti ÐB"" ß á ß B"8 Ñ e ÐB#" ß á ß B#8 Ñ, relativi ad un gruppo di 8 soggetti su cui è stata
osservata una certa variabile casuale prima e dopo un trattamento. In questo caso l'obiettivo è
quello di valutare l'efficacia del trattamento. I dati di questo tipo sono detti dati appaiati. Al fine
di analizzare queste osservazioni si costruisce il nuovo campione casuale Ð." ß á ß .8 Ñ, dove
.3 œ B#3  B"3 . Supponendo che questo ultimo campione casuale provenga da H µ R Ð.ß 8Ñ, la
88
La verifica d'ipotesi
verifica dell'efficacia del trattamento si riduce a considerare il sistema di ipotesi L! À . œ !
contro L" À . Á ! (o eventualmente l'opportuno sistema di ipotesi direzionale). In questo caso, è
sufficiente applicare le procedure di verifica di ipotesi basate sul test > di Student discusse nelle
§4.3.1 e §4.3.2.
Esempio 4.3.5. Su 8 pazienti con anemia cronica grave è stato misurato l'indice di infarto prima
e dopo un trattamento medico e i relativi dati sono stati riportati nella Tavola 4.3.5.
Tavola 4.3.5. Indice di infarto dei pazienti con anemia (in ml/battito/m# ).
paziente prima
"
"!*
#
&(
$
&$
%
&(
&
')
'
(#
(
&"
)
'&
dopo
&'
%%
&&
%!
'#
%'
%*
%"
.3
 &$
 "$
#
 "(
'
 #'
#
 #%
Fonte: Bhatia, Manchanda e Roy (1969)
Per vedere se il trattamento è stato effettivo e quindi per determinare se l'indice di infarto è
diminuito, si vuole verificare dunque il sistema di ipotesi L! À . œ ! contro L" À .  !. Dal
–
momento che si ha . œ  "(.$(&! e =- œ "'.$)%&, allora > œ  #.)!&&. Dunque, il livello di
significatività osservato risulta
α9== œ PrÐ>( Ÿ  #.)!&&Ñ œ !.!"$# .
Dato che la significatività osservata è piuttosto bassa, si deve concludere che il trattamento è
stato effettivo, dal momento che si può respingere L! ad ogni livello di significatività
α  !.!"$#.
…
4.3.7. L'analisi della varianza ad un criterio. Si supponga di considerare 7 campioni casuali
indipendenti ÐB4" ß á ß B484 Ñ rispettivamente dalle variabili casuali \4 µ R Ð.4 ß 8Ñ, ovvero da 7
variabili casuali Normali indipendenti con differenti medie e uguale varianza. Sia inoltre
8œ 7
4œ" 84 la numerosità campionaria globale. In questo caso, il modello statistico è dato da
08 À 08 ÐB"" ß á ß B"8" ß á ß B7" ß á ß B787 Ñ œ $$
7 84
Y." ßáß.7 ß8 œ
4œ" 3œ"
B43  .4
"
9
Ÿ
È8
È8
dove Ð." ß á ß .7 ß 8Ñ − ‘7 ‚ ‘ e dove per semplicità di notazione si è eliminato la
dipendenza di 08 dai parametri. Si vuole verificare il sistema di ipotesi L! À ." œ á œ .7 œ .
contro L" À .4 Á .6 , b4 Á 6 œ "ß á ß 7. Dunque, si ha
@ œ ÖÐ." ß á ß .7 ß 8ÑÀ Ð." ß á ß .7 ß 8Ñ − ‘7 ‚ ‘ × ,
mentre
@! œ ÖÐ." ß á ß .7 ß 8ÑÀ ." œ á œ .7 ß 8 − ‘ × .
–4 e =# rappresentano rispettivamente le realizzazioni campionarie della media campionaria
Se B
4
–
\ 4 e della varianza campionaria W4# per il j-esimo campione, allora estendendo i risultati della
§4.3.4 la funzione di log-verosimiglianza è data da
Capitolo 4
89
7
6Ð." ß á ß .7 ß 8Ñ œ ln - 
4œ"
š
84
84 #
– 4  .4 Ñ # Ó ›
ln 8 
Ò=  ÐB
#
#8 4
8
8=#
"
œ ln -  ln 8  A 
#
#8
#8
7
– 4  .4 Ñ # ,
84 ÐB
4œ"
dove
=#A
"
œ
8
7
84 =4# .
4œ"
In maniera analoga alla §4.3.4, si ha
8
8=#A
–" ß á ß B
–7 ß 8Ñ
6Ð." ß á ß .7 ß 8Ñ Ÿ ln -  ln 8 
œ 6ÐB
#
#8
8
8
–" ß á ß B
– 7 ß =# Ñ
Ÿ ln -  ln =#A  œ 6ÐB
A
#
#
œ
max
6Ð." ß á ß .7 ß 8Ñ .
Ð." ßáß.7 ß8Ñ−@
Inoltre, tenendo presente che se L! è vera si dispone in effetti di un unico campione da una
R Ð.ß 8Ñ, allora
– á ß Bß
– =# Ñ œ
6Ð.ß á ß .ß 8Ñ Ÿ 6ÐBß
max
Ð." ßáß.7 ß8Ñ−@!
6Ð." ß á ß .7 ß 8Ñ ,
dove
–œ "
B
8
7
–4
84 B
4œ"
e
"
= œ
8
7
84
– #.
ÐB43  BÑ
#
4œ" 3œ"
In completa analogia con la §4.3.4, si ha dunque =# œ =#A  =#, , dove
=#,
"
œ
8
7
–4  BÑ
– #.
84 ÐB
4œ"
Di conseguenza, risulta
– á ß Bß
– =# Ñ œ ln -  8 ln =#  8 .
6ÐBß
#
#
In questo caso, la determinazione campionaria di V è data da
– á ß Bß
– =# Ñ  6ÐB
–" ß á ß B
–7 ß =# ÑÓ œ expŠ  8 ln =#  8 ln =# ‹
< œ expÒ6ÐBß
A
A
#
#
8Î#
8Î#
=#
Ð7  "Ñ0
œ Œ"  #,
œ ”" 
,
•
=A
87
dove
90
La verifica d'ipotesi
0œ
Ð8  7Ñ=#,
.
Ð7  "Ñ=#A
Tenendo presente i risultati della §4.3.4, =#, e =#A sono le determinazioni campionarie di due
#
statistiche W,# e WA# indipendenti. Inoltre, dal momento che 8WA# Î8 œ 7
4œ" 84 W4 Î8, dove le
statistiche 84 W4# Î8 µ ;#84 " sono indipendenti, per la proprietà i) della §A.3.2, si ha
#
8WA# Î8 µ ;87
. Risulta
8W,#
8W #
8WA#
œ

8
8
8
mentre si ha 8W # Î8 µ ;#8" di nuovo per la proprietà i) della §A.3.2, e quindi si deve
necessariamente concludere che 8W,# Î8 µ ;#7" . Dunque, se L! è vera, 0 è la determinazione
campionaria della statistica
J œ
Ð8  7ÑW,#
Ð8W,# Î8ÑÎÐ7  "Ñ
œ
,
Ð7  "ÑWA#
Ð8WA# Î8ÑÎÐ8  7Ñ
distribuita come una J di Snedecor con Ð7  "Ñ e Ð8  7Ñ gradi di libertà. In questo caso, < è
una funzione monotona decrescente di 0 e quindi i test costruiti su V e J sono equivalenti. Dal
momento che rifiutare L! per piccole determinazioni di V è equivalente a rifiutare per
determinazioni elevate di J , la regione critica del test è data da
g" œ Ö0 À 0 J7"ß87ß"α × .
Se si è osservato il valore campionario 0 , il livello di significatività osservato risulta infine
α9== œ PrÐJ7"ß87 0 Ñ .
Anche se la distribuzione della statistica test è nota per campioni finiti, per grandi campioni
 # ln < œ 8 ln”" 
Ð7  "Ñ0
•,
87
.
è la determinazione di una statistica  # ln V8 Ä ;#7" , in quanto vi sono Ð7  "Ñ parametri, di
cui due da stimare sotto ipotesi di base.
Esempio 4.3.6. In tre zone nei pressi di Bimini Lagoon alle Bahamas sono stati effettuati alcuni
prelievi di acqua e sono stati misurati i relativi coefficienti di salinità (numero di parti per mille)
ottenendo in questa maniera i dati della Tavola 4.3.6.
Tavola 4.3.6. Indici di salinità (numero di parti per mille).
zona 1
"
#
$
%
&
'
(
)
*
"!
""
"#
B"3
$(.&%
$(.!"
$'.("
$(.!$
$(.$#
$(.!"
$(.!$
$(.(!
$(.$'
$'.(&
$(.%&
$).)&
zona 2
"
#
$
%
&
'
(
)
B#3
%!."(
%!.)!
$*.('
$*.(!
%!.(*
%!.%%
$*.(*
$*.$)
zona 3
"
#
$
%
&
'
(
)
*
"!
Fonte: Till (1974)
B$3
$*.!%
$*.#"
$*.!&
$).#%
$).&$
$).("
$).)*
$).''
$).&"
%!.!)
Capitolo 4
91
Si è interessati a determinare se la salinità è identica nelle tre zone considerate, ovvero il
sistema di ipotesi L! À ." œ .# œ .$ œ . contro L" À .4 Á .6 , b4 Á 6 œ "ß #ß $. Dal momento
–" œ $(.$"$$, B
–# œ %!."!$), B
–$ œ $).)*#!, =# œ !.$!!), =# œ !.#%(" e =# œ !.#$%),
che B
"
#
$
allora =#A œ !.#'%& e =#, œ ".#*$%, da cui 0 œ ''.!#"!. Di conseguenza, il livello di
significatività osservato risulta
α9== œ PrÐJ#ß#( ''.!#"!Ñ ¶ ! .
Dato che la significatività osservata è estremamente bassa, vi è una forte indicazione a
concludere che le salinità sono differenti nelle tre zone considerate. Inoltre  # ln < œ &$.#!!! e
dunque si ha
α8ß9== œ PrÐ;## &$.#!!!Ñ ¶ ! ,
un risultato che conferma le conclusioni precedenti.
…
4.3.8. La regressione lineare. Si consideri il modello di regressione lineare dell'Esempio 1.1.8 e
si supponga di voler verificare il sistema di ipotesi L! À , œ ! contro L" À , Á !. Dunque,
@ œ ÖÐ+ß ,ß 8ÑÀ Ð+ß ,ß 8Ñ − ‘# ‚ ‘ ×
e
@! œ ÖÐ+ß ,ß 8ÑÀ , œ !ß + − ‘ß 8 − ‘ × .
In base ai risultati dell'Esempio 3.1.5, si ha
max 6Ð+ß ,ß 8Ñ œ 6Ð+ß
s s,ß =#< Ñ ,
Ð+ß,ß8Ñ−@
#
dove s
+ œ –C, s, œ =DC Î=#D e =<# œ =C#  =DC
Î=D# . Inoltre, tenendo presente la disugualianza
dell'Esempio 3.1.2 con . œ =#C , risulta
#
8
8 #
–  +Ñ# Ó Ÿ ln -  8 ln 8  8=C œ 6ÐCß
– !ß 8Ñ
ln 8 
Ò=C  ÐC
#
#8
#
#8
8
8
– !ß =# Ñ œ max 6Ð+ß ,ß 8Ñ .
Ÿ ln -  ln =#C  œ 6ÐCß
C
#
#
Ð+ß,ß8Ñ−@!
6Ð+ß !ß 8Ñ œ ln - 
Inoltre, si ha
=#C
œ
=C#
#
=#DC
=DC
 #  # œ =C# Ð"  (# Ñ  =C# (# œ =<#  ==# ,
=D
=D
dove =#< œ =C# Ð"  (# Ñ e ==# œ =C# (# , mentre
(# œ
=#DC
=#D =C#
è il coefficiente di determinazione lineare. È noto che l'indice (# rappresenta la percentuale di
variabilità spiegata dal modello lineare (vedi Fattorini, 1997). Dunque, la varianza totale =#C può
essere scomposta in una parte spiegata dal modello lineare, ovvero =#= , ed in una parte residua,
ovvero =#< . In questo caso, la determinazione campionaria di V è data da
8
8
– !ß =# Ñ  6Ð+ß
< œ expÒ6ÐCß
s s,ß =<# ÑÓ œ exp’  lnÐ=<#  ==# Ñ  ln =<# “
C
#
#
8Î#
# 8Î#
=
0
œ Œ"  =#
œ Œ" 
,
=<
8#
92
La verifica d'ipotesi
dove
=#=
0 œ Ð8  #Ñ # .
=<
#
Tenendo presente i risultati della §3.1.5, essendo =#= œ =D#s, , allora =<# e ==# sono le
determinazioni campionarie di due statistiche W<# e W=# indipendenti. Inoltre, dal momento che
s # Î8 µ ;"# , se L! è vera, 0 è la determinazione campionaria di
8W<# Î8 µ ;#8# e 8W=# Î8 œ 8=D# F
una statistica
J œ Ð8  #Ñ
W=#
8W=# Î8
,
œ
W<#
Ð8W<# Î8ÑÎÐ8  #Ñ
distribuita come una J di Snedecor con " e Ð8  #Ñ gradi di libertà. In questo caso, < è una
funzione monotona decrescente di 0 e quindi i test costruiti su V e J sono equivalenti. Dal
momento che rifiutare L! per piccole determinazioni di V è equivalente a rifiutare per
determinazioni elevate di J , la regione critica del test è data da
g" œ Ö0 À 0 J"ß8#ß"α × .
Se si è osservato il valore campionario 0 , il livello di significatività osservato risulta infine
α9== œ PrÐJ"ß8# 0 Ñ .
Esempio 4.3.7. Su 36 piante di eucalipto sono state rilevate rispettivamente la densità e la
durezza di Janka, ottenendo in questa maniera i dati della Tavola 4.3.7.
Tavola 4.3.7. Densità e durezza degli eucalipti.
eucalipto
"
#
$
%
&
'
(
)
*
"!
""
"#
"$
"%
"&
"'
"(
")
densità
#%.(
#%.)
#(.$
#).%
#).%
#*.!
$!.$
$#.(
$&.'
$).&
$).)
$*.$
$*.%
$*.*
%!.$
%!.'
%!.(
%!.(
durezza
%)%
%#(
%"$
&"(
&%*
'%)
&)(
(!%
*(*
*"%
"!(!
"!#!
"#"!
*)*
""'!
"!"!
""!!
""$!
eucalipto
"*
#!
#"
##
#$
#%
#&
#'
#(
#)
#*
$!
$"
$#
$$
$%
$&
$'
densità
%#.*
%&.)
%'.*
%).#
&".&
&".&
&$.%
&'.!
&'.&
&(.$
&(.'
&*.#
&*.)
''.!
'(.%
').)
'*."
'*."
durezza
"#(!
"")!
"%!!
"('!
"("!
#!"!
"))!
"*)!
")#!
#!#!
"*)!
#$"!
"*%!
$#'!
#(!!
#)*!
#(%!
$"%!
Fonte: Williams (1959)
Si noti che la durezza di Janka è una importante caratteristica del legname che risulta tuttavia
difficilmente rilevabile, mentre la densità può essere misurata in modo semplice. Sarebbe
dunque opportuna l'esistenza di un legame lineare fra le due quantità, in modo tale che la
durezza di Janka possa essere prevista sulla base della densità. Di conseguenza, si è interessati a
verificare il sistema di ipotesi L! À , œ ! contro L" À , Á !. Una volta considerati gli scarti delle
misurazioni relative alla densità, è immediato verificare che s
+ œ "%'*.%(## e s, œ &(.&!'(.
Capitolo 4
93
Inoltre, dal momento che (# œ !.*%*$, si ottiene 0 œ '$'.*(*%. Dunque, il livello di
significatività osservato risulta
α9== œ PrÐJ"ß$% '$'.*(*%Ñ ¶ ! .
Dato che la significatività osservata è estremamente bassa, vi è una netta indicazione a
concludere che esiste un forte legame lineare fra la durezza di Janka e la densità. In effetti
l'indice (# evidenzia che circa il *&% della variabilità è spiegata dal modello lineare.
I dati della Tavola 4.3.7 sono rappresentati graficamente nella Figura 4.3.1 insieme con la
retta di regressione.
…
3500
3000
2500
2000
1500
1000
500
0
− 20
− 10
0
10
20
30
Figura 4.3.1. Diagramma per punti e retta di regressione per i dati della Tavola 4.3.7.
4.3.9. I test per dati categoriali. Si supponga di disporre di un campione casuale di 8
osservazioni da una variabile qualitativa \ che assume valori su 5 categorie esaustive e
mutuamente esclusive. Sia inoltre :4 la probabilità di osservare un valore nella j-esima categoria
e sia 84 la frequenza assoluta di osservazioni nella medesima categoria. Ovviamente, si ha
5
4œ" 84 œ 8. L'informazione campionaria è contenuta nel vettore di frequenze Ð8" ß á ß 85 Ñ,
dette appunto frequenze osservate. Dal momento che il campione è casuale e che le categorie
sono esaustive e mutuamente esclusive, allora Ð8" ß á ß 85 Ñ è la realizzazione di un vettore
casuale ÐR" ß á ß R5 Ñ distribuito come Q ?Ð8à :" ß á ß :5 Ñ. Tenendo presente che
:5 œ "  5"
4œ" :4 e che quindi solo i primi Ð5  "Ñ parametri sono distinti, il modello statistico
in questo caso è dato da
Y:" ßáß:5" œ
8
08 À 08 Ð8" ß á ß 85 à :" ß á ß :5" Ñ œ Œ
8" á 8 5
$ :484 IE Ð8" ß á ß 85 ÑŸ ,
5
4œ"
dove l'insieme E è definito nella §A.2.2, mentre Ð:" ß á ß :5" Ñ − W5" e
5"
W5" œ
Ð:" ß á ß :5" ÑÀ :4 − Ð!ß "Ñß
4œ"
:4 Ÿ "ß 4 œ "ß á ß 5  "Ÿ .
Si vuole verificare il sistema di ipotesi L! À :4 œ :!4 , 4 œ "ß á ß 5  ", contro L" À :4 Á :!4 ,
b4 œ "ß á ß 5  ", dove Ð:!" ß á ß :!Ð5"Ñ Ñ − W5" e :05 œ "  5"
4œ" :04 . Si ha
@ œ ÖÐ:" ß á ß :5" ÑÀ Ð:" ß á ß :5" Ñ − W5" × ,
mentre risulta
@! œ ÖÐ:" ß á ß :5" ÑÀ :4 œ :!4 ß 4 œ "ß á ß 5  "× .
94
La verifica d'ipotesi
Per evidenti motivi le componenti del vettore Ð8:!" ß á ß 8:!5 Ñ sono dette frequenze attese.
Quindi, se si pone s:4 œ 84 Î8, la funzione di log-verosimiglianza è data da
5
6Ð:" ß á ß :5" Ñ œ ln -  8
:4 ln :4 , Ð:" ß á ß :5" Ñ − W5" .
s
4œ"
Tenendo presente la disugualianza della teoria dell'informazione
5
5
+4 ln ,4 Ÿ
+4 ln +4 ,
4œ"
dove +4  !, ,4  ! e
5
4œ" +4
5
4œ" ,4
œ
4œ"
œ " (vedi Rao, 1973), si ottiene
5
5
6Ð:" ß á ß :5" Ñ œ ln -  8
:4 ln :4 Ÿ ln -  8
s
4œ"
:4 ln s
:4
s
4œ"
œ 6Ð:
s" ß á ß s:5" Ñ œ
6Ð:" ß á ß :5" Ñ .
max
Ð:" ßáß:5" Ñ−@
Inoltre, è immediato verificare che
6Ð:!" ß á ß :!Ð5"Ñ Ñ œ
max
Ð:" ßáß:5" Ñ−@!
6Ð:" ß á ß :5" Ñ .
La determinazione campionaria di V è data da
< œ expÒ6Ð:!" ß á ß :!Ð5"Ñ Ñ  6Ð:
: 5" ÑÓ
s" ß á ß s
œ exp–8
5
s:4 ln s:4 — œ $
5
5
s:4 ln :!4  8
4œ"
4œ"
8:
s4
:!4
s:4
4œ"
.
La distribuzione per campioni finiti di V non può essere ottenuta in modo semplice e quindi è
conveniente adoperare i risultati per grandi campioni. Dunque, la quantità
5
 # ln < œ  #8
s:4 ln
4œ"
:!4
s:4
.
è la determinazione di una statistica  # ln V8 Ä ;#5" , in quanto vi sono Ð5  "Ñ parametri.
Tenendo presente le proprietà della Multinomiale (vedi §A.2.2), si ha
ÔÎ  :R#" 
!"
ÖÐ
ÖÐ
 :R#5
Ö
Ð
!5
I8 Ð:!" ß á ß :!Ð5"Ñ Ñ œ  EÖÐ
ã
ÖÐ
 :R#5
ÕÏ
!5
8
Î :!" 
Ð :8
!5
œÐ
Ð
ã
Ï :8!5
8
:!5
8
:!#
R5
#
:!5
8
:!5

ã
8
:!5
R5
#
:!5


R#
#
:!#

R5
#
:!5
ã

8
:!5
â
â
ä
â
â

â

ä
â
R5
#
:!5
8
:!5
8
:!5
ã
:!Ð5"Ñ 
8
8
:!5
R5
#
:!5
R5
#
:!5
ã

R5"
#
:!Ð5"Ñ
Ñ
Ó
Ó.
Ó

R5
#
:!5
Ñ×
ÓÙ
ÓÙ
ÓÙ
ÓÙ
ÓÙ
ÒØ
Ò
Dunque, sulla base della discussione fatta nella §4.2.3, una statistica che fornisce un test
equivalente a  # ln V8 per grandi campioni è data da
Capitolo 4
95
U8 œ Ð:
:5"  :!Ð5"Ñ ÑT I8 Ð:!" ß á ß :!Ð5"Ñ ÑÐ:
: 5"  :!Ð5"ÑÑ
s"  :!" ß á ß s
s"  :!" ß á ß s
5"
œ
4œ"
5"
œ
4œ"
5"
œ
4œ"
8Ð:
s4  :!4 Ñ#

:!4
5" 5"
4œ" 6œ"
8Ð:
s4  :!4 ÑÐ:
s6  :!6 Ñ
:!5
Ð8:
s4  8:!4 Ñ#
8 5"

Ð:
s  :!4 Ñ—
8:!4
:!5 – 4œ" 4
Ð8:
s4  8:!4 Ñ#
8Ð:
s5  :!5 Ñ#

œ
8:!4
:!5
5
4œ"
#
Ð84  8:!4 Ñ#
.
8:!4
La statistica test U8 è la cosiddetta statistica di Pearson. Dato che U8 ha le medesime proprietà
.
per grandi campioni di  # ln V8 allora risulta U8 Ä ;#5" . Tuttavia, si può dimostrare che U8
converge più rapidamente di  # ln V8 (vedi Ferguson, 1996). Infatti, una numerosità
campionaria di 8 #& è solitamente adeguata per l'approssimazione per grandi campioni,
qualora nessuna delle frequenze attese sia minore di ". In caso contrario, si può raggruppare le
categorie in modo da ottenere frequenze attese maggiori di " per ogni categoria. Infine, la
regione critica per grandi campioni di U8 è data da
g8ß" œ Ö;À ; ;#5"ß"α × ,
mentre per un dato valore campionario ; il livello di significatività osservato risulta
α8ß9== œ PrÐ;#5" ;Ñ .
Esempio 4.3.8. In un esperimento di genetica sono stati considerati ibridi di pomodoro con un
rapporto atteso di quattro fenotipi pari a 9À 3À 3À 1. I dati della Tavola 4.3.8 sono relativi al
numero di piante generate per ogni fenotipo.
Tavola 4.3.8. Numero di piante di pomodoro per fenotipo.
Fenotipo
Alto, foglia corta
Alto, foglia a patata
Nano, foglia corta
Nano, foglia a patata
Frequenze osservate
*#'
#))
#*$
"!%
Fonte: McArthur (1931)
Si vuole verificare sperimentalmente i risultati della teoria genetica, ovvero il sistema di
ipotesi L! À :" œ *Î"'ß :# œ $Î"'ß :$ œ $Î"' contro L" À :4 Á :!4 ß b4 Á 6 œ "ß #ß $. Ovviamente
risulta :% œ "Î"'. Dal momento che 8 œ "'"", allora è immediato ricavare che s:" œ !.&(%),
s:# œ !."()), s:$ œ !.")"* e s:% œ !.!'%&. Dunque, risulta  # ln < œ ".%((', con un livello di
significatività osservato per grandi campioni
α8ß9== œ PrÐ;#$ ".%(('Ñ œ !.')(& .
Inoltre, si ha ; œ ".%')(, con un livello di significatività osservato per grandi campioni
α8ß9== œ PrÐ;#$ ".%')(Ñ œ !.')*& .
Data l'elevata numerosità campionaria i due test forniscono ovviamente risultati quasi
equivalenti, e quindi si deve concludere che i risultati teorici sono in questo caso supportati
dall'evidenza empirica.
…
96
La verifica d'ipotesi
4.3.10. I test per l'indipendenza nelle tavole di contingenza. Si supponga di disporre di un
campione casuale di 8 osservazioni da una coppia di variabili qualitative Ð\ß ] Ñ che assumono
valori rispettivamente su 5 e 2 categorie esaustive e mutuamente esclusive. Sia inoltre :46 la
probabilità di osservare un valore contemporaneamente nella j-esima categoria di \ e nella lesima categoria di ] e sia 846 la frequenza assoluta di osservazioni nella medesima categoria.
2
2
5
Ovviamente, risulta che 54œ" 6œ"
846 œ 8. Inoltre, si pone 6œ"
846 œ 84 e 4œ"
846 œ 86 .
Questo tipo di osservazioni campionarie viene usualmente organizzato nella cosiddetta tabella di
contingenza (vedi Tavola 4.3.9).
Tavola 4.3.9. Tabella di contingenza.
"
"
8""
#
8#"
ã
ã
4
84"
ã
ã
5
85"
Totale 8"
#
8"#
8##
ã
84#
ã
85#
8#
â
â
â
ä
â
6
8"6
8#6
ã
846
ã
â 856
â 86
â
â
â
â
ä
â
â
2
8"2
8#2
ã
842
ã
852
82
Totale
8"
8#
ã
84
ã
85
8
Si noti che l'informazione campionaria è contenuta nel vettore di frequenze
Ð8"" ß á ß 8"2 ß á ß 85" ß á ß 852 Ñ. Dal momento che il campione è casuale e che le categorie sono
esaustive e mutuamente esclusive, allora Ð8"" ß á ß 8"2 ß á ß 85" ß á ß 852 Ñ è la realizzazione di un
vettore casuale Q ?Ð8à :"" ß á ß :"2 ß á ß :5" ß á ß :52 Ñ. Tenendo presente che solo i primi
Ð52  "Ñ parametri sono distinti, il modello statistico in questo caso è dato da
Y:"" ßáß:"2 ßáß:5"ßáß:5Ð2"Ñ œ œ08 À 08 Ð8"" ß á ß 8"2 ß á ß 85" ß á ß 852 Ñ œ
œŒ
5 2
8
$$ :46846 IE Ð8"" ß á ß 8"2 ß á ß 85" ß á ß 852 Ñ
8"" á 8"2 á 85" á 852 4œ" 6œ"
,
dove per semplicità di notazione si è eliminato la dipendenza di 08 dai parametri e dove
l'insieme E è definito nella §A.2.2, mentre Ð:"" ß á ß :"2 ß á ß :5" ß á ß :5Ð2"Ñ Ñ − W5Ð2"Ñ e
5 2"
W5Ð2"Ñ œ
Ð:"" ß á ß :"2 ß á ß :5" ß á ß :5Ð2"Ñ ÑÀ :46 − Ð!ß "Ñß
4œ" 6œ"
:46 Ÿ "Ÿ .
Si denoti ora con :4 la probabilità di avere una osservazione nella j-esima categoria di \ ,
ovvero :4 œ 26œ" :46 , e con :6 la probabilità di avere una osservazione nella l-esima categoria
di ] , ovvero :6 œ 54œ" :46 . Risulta dunque interessante verificare l'indipendenza delle due
variabili categoriali, ovvero il sistema di ipotesi L! À :46 œ :4 :6 ß 4 œ "ß á ß 5ß 6 œ "ß á 2 ,
contro L" À :46 Á :4 :6 ß b4 œ "ß á ß 5ß 6 œ "ß á ß 2 . Dunque, si ha
@ œ ÖÐ:"" ß á ß :"2 ß á ß :5" ß á ß :5Ð2"Ñ ÑÀ Ð:"" ß á ß :"2 ß á ß :5" ß á ß :5Ð2"ÑÑ − W5Ð2"Ñ×
e
@! œ ÖÐ:"" ß á ß :"2 ß á ß :5" ß á ß :5Ð2"Ñ ÑÀ :46 œ :4 :6 ß 4 œ "ß á ß 5ß 6 œ "ß á 2× .
Quindi, se si pone s:46 œ 846 Î8, la funzione di log-verosimiglianza è data da
5
2
6Ð:"" ß á ß :"2 ß á ß :5" ß á ß :5Ð2"Ñ Ñ œ ln -  8
: 46 ln :46 ,
s
4œ" 6œ"
Capitolo 4
97
con Ð:"" ß á ß :"2 ß á ß :5" ß á ß :5Ð2"Ñ Ñ − W5Ð2"Ñ . Tenendo presente i risultati della §4.3.9, si
ottiene inoltre
5
2
6Ð:"" ß á ß :"2 ß á ß :5" ß á ß :5Ð2"Ñ Ñ œ ln -  8
: 46 ln :46
s
4œ" 6œ"
5
2
Ÿ ln -  8
:"2 ß á ß s
:5" ß á ß s
: 5Ð2"Ñ Ñ
s:46 ln s:46 œ 6Ð:
s"" ß á ß s
4œ" 6œ"
œ
max
Ð:"" ßáß:"2 ßáß:5" ßáß:5Ð2"Ñ Ñ−@
6Ð:"" ß á ß :"2 ß á ß :5" ß á ß :5Ð2"Ñ Ñ .
In modo analogo alla §4.3.9, e tenendo presente che sotto ipotesi di base la verosimiglianza
dipende solo da Ð:" ß á ß :Ð5"Ñ ß :" ß á ß :Ð2"Ñ Ñ, posto s
:4 œ 84 Î8 e s
:6 œ 86 Î8 si ha
5
2
6Ð:" ß á ß :Ð5"Ñ ß :" ß á ß :Ð2"Ñ Ñ œ ln -  8
: 4 ln :4  8
s
4œ"
5
2
Ÿ ln -  8
s:4 ln s:4  8
4œ"
œ
: 6 ln:6
s
6œ"
:Ð5"Ñ ß s
:" ß á ß s:Ð2"Ñ Ñ
s:6 ln s:6 œ 6Ð:
s" ß á ß s
6œ"
max
Ð:" ßáß:Ð5"Ñ ß:" ßáß:Ð2"Ñ Ñ−@!
6Ð:" ß á ß :Ð5"Ñ ß :" ß á ß :Ð2"Ñ Ñ .
La determinazione campionaria di V è data da
< œ exp[6Ð:
:" ß á ß s
:Ð2"Ñ Ñ  6Ð:
:"2 ß á ß s
: 5" ß á ß s
: 5Ð2"Ñ Ñ]
s" ß á ß s:Ð5"Ñ ß s
s"" ß á ß s
œ exp–8
5
2
5
s:4 ln s:4  8
4œ"
2
s:6 ln s:6  8
4œ" 6œ"
6œ"
s:46 ln:
s46 — œ
s 4
s 6
# s:8:
# s:8:
4
6
5
2
4œ"
6œ"
s 46
# # s:8:
46
5
2
4œ"6œ"
È evidente che la distribuzione per campioni finiti di V non può essere ottenuta in modo
semplice e quindi è conveniente adoperare i risultati per grandi campioni. Dunque la quantità
5
 # ln < œ  #8
2
5
s:4 ln s:4 
4œ"
2
s:6 ln s:6 
6œ"
:46 ln s
:46
s
4œ" 6œ"
.
è la determinazione di una statistica  # ln V8 Ä ;#Ð5"ÑÐ2"Ñ , in quanto vi sono Ð52  "Ñ
parametri, di cui Ð5  2  #Ñ da stimare sotto ipotesi di base.
Con una dimostrazione analoga a quella della §4.3.9, una statistica che fornisce un test
equivalente a  # ln V8 per grandi campioni è data da
5
2
U8 œ
4œ" 6œ"
Ð846  8:
s4s:6 Ñ#
,
8:
s4s:6
detta statistica di Pearson per l'indipendenza. Dato che U8 ha le medesime proprietà per grandi
.
campioni di  # ln V8 allora si ha U8 Ä ;#Ð5"ÑÐ2"Ñ . Anche in questo caso una numerosità
campionaria di 8 #& è solitamente adeguata per l'approssimazione per grandi campioni,
qualora nessuna delle frequenze attese sia minore di ". Infine, la regione critica per grandi
campioni di U8 è data da
98
La verifica d'ipotesi
g8ß" œ Ö;À ; ;#Ð5"ÑÐ2"Ñß"α × ,
mentre per un dato valore campionario ; il livello di significatività osservato risulta
α8ß9== œ PrÐ;#Ð5"ÑÐ2"Ñ ;Ñ.
Esempio 4.3.9. I dati della tabella di contingenza della Tavola 4.3.10 sono stati raccolti durante
uno studio della malattia di Hodgkin. Ognuno dei 538 malati è stato classificato per tipologie
istologiche (indicate con le sigle LP, NS, MC e LD) e per la risposta dopo tre mesi di
trattamento.
Tavola 4.3.10.
positiva
LP
(%
NS
')
MC
"&%
LD
")
Totale
$"%
parziale nessuna
")
"#
"'
"#
&%
&)
"!
%%
*)
"#'
Totale
"!%
*'
#''
(#
&$)
Fonte: Dunsmore e Daly (1987)
Si vuole verificare che la risposta al trattamento è indipendente dalla tipologia istologica del
malato, ovvero il sistema di ipotesi L! À :46 œ :4 :6 ß 4 œ "ß #ß $ß %ß 6 œ "ß #ß $, contro
L" À :46 Á :4 :6 ß b4 œ "ß #ß $ß %ß 6 œ "ß #ß $. È immediato ricavare che  # ln < œ ').#*&&, con
un livello di significatività osservato per grandi campioni
α8ß9== œ PrÐ;#' ').#*&&Ñ ¶ ! .
Inoltre, si ha ; œ (&.)*!", con un livello di significatività osservato per grandi campioni
α8ß9== œ PrÐ;#' (&.)*!"Ñ ¶ ! .
Data l'elevata numerosità campionaria due test forniscono ovviamente risultati quasi equivalenti,
ovvero si deve concludere che la risposta al trattamento dipende dalla tipologia istologica del
malato.
…
Capitolo 5
La stima per intervalli
5.1. Gli intervalli di confidenza
5.1.1. La definizione di intervallo di confidenza. Si consideri un modello statistico Y) , dove )
è un parametro univariato. Piuttosto che selezionare sulla base del campione ÐB" ß á ß B8 Ñ un
unico valore come nella stima per punti, può essere utile dal punto di vista operativo ottenere un
insieme di valori plausibili di ).
Supponiamo che esista una funzione
T À V8 ‚ @ Ä ‘ ,
tale che T œ T Ð\" ß á ß \8 à )Ñ abbia una distribuzione che non dipende da ) . La variabile
casuale T , detta quantità pivot, non è una statistica dal momento che dipende dal parametro ).
Se -" e -# sono due valori tali che
Pr) Ö-"  T Ð\" ß á ß \8 à )Ñ  -# × œ "  α ,
e se P œ PÐ\" ß á ß \8 Ñ e Y œ Y Ð\" ß á ß \8 Ñ sono statistiche tali che
ÖÐB" ß á ß B8 ÑÀ -"  T ÐB" ß á ß B8 à )Ñ  -# × Í
Í ÖÐB" ß á ß B8 ÑÀ PÐB" ß á ß B8 Ñ  )  Y ÐB" ß á ß B8 Ñ× ,
allora ÐPÐB" ß á ß B8 Ñß Y ÐB" ß á ß B8 ÑÑ è detto intervallo di confidenza per ) al livello di
confidenza Ð"  αÑ. In questo contesto, il termine “confidenza” è da intendersi nel senso di
sicurezza.
La nozione di intervallo di confidenza deve essere adoperata con una certa cautela, ovvero
non si deve affermare che il vero valore del parametro )! è contenuto in un intervallo con
probabilità pari a Ð"  αÑ. In termini rigorosi di probabilità, una volta che l'intervallo di
confidenza è stato determinato sul campione, questo contiene il vero valore )! con probabilità !
o ". Si può affermare invece che l'intervallo di confidenza è la determinazione di un
procedimento casuale che sceglie intervalli in modo tale che la probabilità di ottenere un
intervallo contenente )! è pari a Ð"  αÑ.
È possibile ottenere un intervallo di confidenza solo quando T ÐB" ß á ß B8 à )Ñ è funzione
monotona di ). Tuttavia, il concetto di intervallo di confidenza può essere generalizzato. Data
una quantità pivot T , se F § ‘ è un insieme tale che
Pr) ÖT Ð\" ß á ß \8 à )Ñ − F× œ "  α ,
e se IÐ\" ß á ß \8 Ñ è un insieme casuale tale che
ÖÐB" ß á ß B8 ÑÀ T ÐB" ß á ß B8 à )Ñ − F× Í ÖÐB" ß á ß B8 ÑÀ ) − IÐB" ß á ß B8Ñ× ,
allora IÐB" ß á ß B8 Ñ è detto insieme di confidenza per ) al livello di confidenza Ð"  αÑ.
Ovviamente, la nozione di intervallo di confidenza è molto più utile dal punto di vista operativo
di quella di insieme di confidenza.
Infine, quando la quantità pivot è una variabile casuale discreta, allora esiste un numero finito
o contabile di livelli di confidenza ottenibili, che vengono detti livelli di confidenza naturali.
100
La stima per intervalli
Esempio 5.1.1. Se si considera un campione casuale da \ µ R Ð.ß "Ñ, una possibile quantità
–
pivot è data da È8Ð\  .Ñ. Questa variabile casuale è in effetti una quantità pivot, dal
–
momento che la sua distribuzione non dipende da . essendo È8Ð\  .Ñ µ R Ð!ß "Ñ. Scelto un
livello di confidenza α, risulta
–
Pr. Ö  D"αÎ#  È8Ð\  .Ñ  D"αÎ# × œ "  α ,
da cui
–  .Ñ  D"αÎ# × Í
ÖÐB" ß á ß B8 ÑÀ  D"αÎ#  È8ÐB
Í
–  D"αÎ# "  .  B
–  D"αÎ# "
ÐB" ß á ß B8 ÑÀ B
.
È8
È8 Ÿ
Si deve dunque concludere che
–  D"αÎ# " ß B
–  D"αÎ# "
B
È8
È8
è un intervallo di confidenza per . al livello di confidenza Ð"  αÑ.
…
5.1.2. La relazione fra gli intervalli di confidenza e il test statistico. Viene ora evidenziata la
stretta connessione che esiste tra il problema della stima per intervalli e quello della verifica di
ipotesi. Questa è anche la ragione per cui la stima per intervalli è stata analizzata
successivamente alla teoria relativa alla verifica di ipotesi.
Dato un modello statistico Y) e il sistema di ipotesi L! À ) œ )! contro L" À ) Á )! , si
consideri un test corretto al livello di significatività α. Se V! è la regione di accettazione del test,
è immediato verificare che V! dipende dal valore prefissato )! di ). Dunque risulta V! œ V! Ð)Ñ.
Inversamente, per un data realizzazione campionaria ÐB" ß á ß B8 Ñ deve esistere un insieme
IÐB" ß á ß B8 Ñ di valori di ) per i quali si accetta l'ipotesi di base. I due insiemi sono equivalenti,
ovvero
ÖÐB" ß á ß B8 ÑÀ ÐB" ß á ß B8 Ñ − V! Ð)Ñ× Í ÖÐB" ß á ß B8 ÑÀ ) − IÐB" ß á ß B8Ñ× .
Dal momento che
ÖÐB" ß á ß B8 ÑÀ ÐB" ß á ß B8 Ñ − V! Ð)Ñ× œ ÖÐB" ß á ß B8 ÑÀ IV! Ð)Ñ ÐB" ß á ß B8Ñ œ "×
e
Pr) ÖÐ\" ß á ß \8 Ñ − V! Ð)Ñ× œ Pr) ÖIV! Ð)Ñ Ð\" ß á ß \8 Ñ œ "× œ "  α ,
se come quantità pivot si considera la variabile casuale IV! Ð)Ñ Ð\" ß á ß \8 Ñ, allora IÐB" ß á ß B8 Ñ
è un insieme di confidenza al livello di confidenza Ð"  αÑ. Quindi, l'insieme di tutti i valori )
per cui si accetta l'ipotesi di base costituisce un insieme di confidenza per ). Nel caso che
IÐB" ß á ß B8 Ñ sia un intervallo, con la precedente procedura si ottiene ovviamente un intervallo
di confidenza e questa situazione è frequente con i modelli usualmente adoperati in pratica.
Partendo dunque da un test opportuno è possibile costruire un intervallo di confidenza al
livello di confidenza desiderato. Inoltre, più il test prescelto ha funzione potenza elevata più
l'intervallo di confidenza risultante è desiderabile, dal momento che a priori dal campionamento
la probabilità che esso contenga un qualunque valore ) diverso da )! è bassa. È dunque buona
regola costruire intervalli di confidenza a partire da un test che gode di buone proprietà.
Nel caso che si costruisca insiemi di confidenza a partire dal test del rapporto delle
verosimiglianze, la regione di accettazione per il sistema di ipotesi L! À ) œ )! contro L" À ) Á )!
risulta
Capitolo 5
101
V! œ ÖÐB" ß á ß B8 ÑÀ PÐ)à B" ß á ß B8 Ñ  -α × ,
dove
-α œ <α max PÐ)à B" ß á ß B8 Ñ
) −@
e Pr) ÐV Ÿ <α Ñ œ α. Dunque, il relativo insieme di confidenza IÐB" ß á ß B8 Ñ al livello di
confidenza Ð"  αÑ è dato da tutti i valori di ) − @ per cui la verosimiglianza PÐ)à B" ß á ß B8 Ñ è
maggiore di -α . Quando la verosimiglianza è una funzione prima crescente e successivamente
decrescente, si ottiene un intervallo di confidenza.
T T
Se il modello statistico risulta Y) dove ) œ Ð)E ß )F
Ñ , dove )E è unidimensionale,
supponiamo di essere interessati a costruire un insieme di confidenza per )E a partire dal test del
rapporto delle verosimiglianze. In questo caso la regione di accettazione per il sistema di ipotesi
L! À )E œ )!E contro L" À )E Á )!E è data da
V! œ ÖÐB" ß á ß B8 ÑÀ P: Ð)E à B" ß á ß B8 Ñ  -α × .
Di conseguenza, il relativo insieme di confidenza IÐB" ß á ß B8 Ñ al livello di confidenza Ð"  αÑ
è dato da tutti i valori di )E − @E per cui la verosimiglianza profilo P: Ð)E à B" ß á ß B8 Ñ è
maggiore di
-α œ <α max PÐ)à B" ß B# ß á ß B8 Ñ
)−@
dove Pr) ÐV Ÿ <α Ñ œ α. Anche in questo caso, quando la verosimiglianza profilo è una funzione
prima crescente e successivamente decrescente, si ottiene un intervallo di confidenza.
Esempio 5.1.2. Dato un campione casuale da \ µ R Ð.ß 8Ñ, si vuole costruire un intervallo di
confidenza per .. Se si considera il sistema di ipotesi L! À . œ .! contro L" À . Á .! , dalla
§4.3.1 è noto che la regione di accettazione per il test del rapporto delle verosimiglianze risulta
V! œ
ÐB" ß á ß B8 ÑÀ  >8"ß"αÎ# 
–  .Ñ
È8ÐB
=-
 >8"ß"αÎ# Ÿ ,
che è equivalente all'insieme
–  >8"ß"αÎ# =-  .  B
–  >8"ß"αÎ# =.
ÐB" ß á ß B8 ÑÀ B
È8
È8 Ÿ
Dunque,
–  >8"ß"αÎ# =- ß B
–  >8"ß"αÎ# =B
È8
È8
costituisce un intervallo di confidenza per . al livello di confidenza Ð"  αÑ.
Se si considera dunque di nuovo i dati dell'Esempio 4.3.1, si vuole costruire un intervallo di
confidenza al livello di confidenza del 95% per il rapporto dei lati dei rettangoli usati dai nativi
americani Shoshoni. Dunque, si sceglie α œ !.!&, e tenendo presente i risultati dell'Esempio
4.3.1 si ha
–  >"*ß!.*(& =- ß B
–  >"*ß!.*(& =B
È#!
È#!
œ Ð!.'"(#ß !.(!$)Ñ .
…
102
La stima per intervalli
Esempio 5.1.3. Dato un campione casuale da \ µ R Ð.ß 8Ñ, si vuole costruire un intervallo di
confidenza per 8. Se si considera il sistema di ipotesi L! À 8 œ 8! contro L" À 8 Á 8! , dalla §4.3.3
è noto che la regione di accettazione per il test del rapporto delle verosimiglianze può essere
scelta come
V! œ œÐB" ß á ß B8 ÑÀ ;#8"ßαÎ# 
8=#
#
 ;8"ß"
αÎ#
8
che è equivalente all'insieme
ÐB" ß á ß B8 ÑÀ
8=#
;#8"ß"αÎ#
8
Ÿ
#
;8"ß
αÎ#
8=#
.
Di conseguenza,
8=#
ß
8=#
#
;#8"ß"αÎ# ;8"ß
αÎ#
costituisce un intervallo di confidenza per 8 al livello di confidenza Ð"  αÑ. Sulla base della
discussione dell'Esempio 4.3.3, questo intervallo di confidenza non corrisponde esattamente a
quello si sarebbe ottenuto a partire dal test del rapporto delle verosimiglianze a causa della
scelta semplificata fatta per i quantili.
Se si considera dunque di nuovo i dati dell'Esempio 4.3.1, un intervallo di confidenza per 8 al
livello di confidenza del 95% è dato da
#!=#
ß
#!=#
;#"*ß!.*(& ;#"*ß!.!#&
…
œ Ð!.!!%'ß !.!"($Ñ .
Esempio 5.1.4. Dato il modello di regressione lineare dell'Esempio 1.1.8, si vuole costruire un
intervallo di confidenza per , . Se si considera il sistema di ipotesi L! À , œ ,! contro L" À , Á ,! ,
in maniera analoga alla §4.3.8 la regione di accettazione per il test del rapporto delle
verosimiglianze è data da
s  ,Ñ#
V! œ œÐB" ß á ß B8 ÑÀ Ð8  #ÑÐ,
=#D
 J"ß8#ß"α
=#<
.
Essendo >8ß"αÎ# œ ÈJ"ß8ß"α per la relazione fra la >8 e la J"ß8 (vedi §A.3.4), allora la
precedente regione di accettazione può essere anche espressa come
s  ,Ñ =D  >8#ß"αÎ#
V! œ œÐB" ß á ß B8 ÑÀ  >8#ß"αÎ#  È8  #Ð,
=<
,
che è equivalente all'insieme
ÐB" ß á ß B8 ÑÀ s,  >8#ß"αÎ#
=<
=<
 ,  s,  >8#ß"αÎ#
Ÿ.
=D È 8  #
=D È 8  #
Di conseguenza,
s,  >8#ß"αÎ#
=<
=<
ß s,  >8#ß"αÎ#
=D È 8  #
=D È 8  #
è un intervallo di confidenza per , al livello di confidenza Ð"  αÑ.
Capitolo 5
103
Se si considera di nuovo i dati dell'Esempio 4.3.7, un intervallo di confidenza per , al livello
di confidenza del 95% è dato da
s,  >$%ß!.*(&
=<
=<
ß s,  >$%ß!.*(&
=D È$%
=D È$%
œ Ð&#.))!!ß '#."$$$Ñ .
…
Esempio 5.1.5. Dato un campione casuale da \ µ F3Ð"ß :Ñ, si vuole costruire un intervallo di
confidenza per :. Se si considera il sistema di ipotesi L! À : œ :! contro L" À : Á :! ,
–, è una funzione prima crescente e
dall'Esempio 4.2.5 si ha che < œ <Ð>Ñ, dove > œ 8B
successivamente decrescente. Dunque, la regione di accettazione per il test del rapporto delle
verosimiglianze è del tipo
V! œ ÖÐB" ß á ß B8 ÑÀ >" Ð:Ñ  >  ># Ð:Ñ× ,
dove
Pr: Ö>" Ð:Ñ  X  ># Ð:Ñ× œ "  α
e <Ö>" Ð:Ñ× œ <Ö># Ð:Ñ×. Tuttavia, in maniera analoga alla §4.3.3, è conveniente scegliere >" Ð:Ñ e
># Ð:Ñ in modo che
α
Pr: ÖX Ÿ >" Ð:Ñ× œ Pr: ÖX ># Ð:Ñ× œ .
#
Dal momento che X µ F3Ð8ß :Ñ, allora risulta
8
Pr: ÐX >Ñ œ
3œ>
8
Š ‹:3 Ð"  :Ñ83 œ PrÐ^ Ÿ :Ñ ,
3
dove ^ µ F/Ð!ß "à >ß 8  >  "Ñ (vedi §A.1.5). In modo analogo si ha Pr: ÐX Ÿ >Ñ œ PrÐ^ :Ñ,
dove in questo caso ^ µ F/Ð!ß "à >  "ß 8  >Ñ. Inoltre, essendo
F/Ð!ß "à >ß 8  >  "Ñ œ
>
>  Ð8  >  "ÑJ#Ð8>"Ñß#>
F/Ð!ß "à >  "ß 8  >Ñ œ
>"
>  "  Ð8  >ÑJ#Ð8>Ñß#Ð>"Ñ
e
(vedi §A.3.4), la regione di accettazione è equivalente a
œÐB" ß á ß B8 ÑÀ
>
>"
:
>  Ð8  >  "ÑJ#Ð8>"Ñß#>ß"αÎ#
>  "  Ð8  >ÑJ#Ð8>Ñß#Ð>"ÑßαÎ#
Si deve dunque concludere che
Œ
>
>"
ß
>  Ð8  >  "ÑJ#Ð8>"Ñß#>ß"αÎ# >  "  Ð8  >ÑJ#Ð8>Ñß#Ð>"ÑßαÎ#
è un intervallo di confidenza per : al livello di confidenza Ð"  αÑ.
Se 8 œ "! e > œ ' un intervallo di confidenza per : al livello di confidenza del 95% è dato da
Œ
'
'  &J"!ß"#ß!.*(&
ß
(
(  %J)ß"%ß!.!#&
œ Ð!.#'#'ß !.)()#Ñ .
…
104
La stima per intervalli
5.2. La stima per intervalli con grandi campioni
5.2.1. Gli intervalli di confidenza con grandi campioni. Molte volte non è nota la
distribuzione esatta del rapporto delle verosimiglianze e non è possibile costruire l'intervallo di
confidenza a partire dal relativo test. In questo caso, si può tuttavia fare riferimento alle
proprietà per grandi campioni del rapporto delle verosimiglianze.
Dato il modello statistico Y) e il sistema di ipotesi L! À ) œ )! contro L" À ) Á )! , supponendo
verificate le condizioni della §3.3.2, sulla base dei risultati contenuti nella §4.2.3, la statistica
test  # ln V8 ha la stessa distribuzione per grandi campioni della statistica test
s 8 ÑÐK
s 8  )! Ñ# . I test basati sulle due statistiche sono equivalenti e godono quindi delle
sM 8 ÐK
stesse proprietà ottimali per grandi campioni, anche se la seconda statistica è più opportuna in
questo contesto teorico. Dal momento che risulta
#
s 8 ÑÐK
s 8  )! Ñ#  ;"ß"
s 8 ÐK
lim Pr)! ÖM
α× œ "  α ,
8Ä∞
la regione di accettazione per grandi campioni del test basato sulla statistica precedente è data
dall'insieme
V8ß! Ð)Ñ œ ÖÐB" ß á ß B8 ÑÀ sM 8 Ðs)8 ÑÐs)8  )Ñ#  ;#"ß"α × .
Inoltre, tenendo presente la relazione fra la R Ð!ß "Ñ e la ;#" (vedi Esempio 4.2.2) si ha
l'equivalenza
ÖÐB" ß á ß B8 ÑÀ sM 8 Ðs)8 ÑÐs)8  )Ñ#  ;#"ß"α × Í
Ú
Þ
Ý
á
"
"
s
s
Í ÛÐB" ß á ß B8 ÑÀ )8  D"αÎ#
 )  )8  D"αÎ#
ß.
Ý
s
s
s
s
É
É
M 8 Ð) 8 Ñ
M 8 Ð) 8 Ñ á
Ü
à
Dunque, si deve concludere che
Î
Ñ
"
"
Ðs)8  D"αÎ#
Ó
ß s)8  D"αÎ#
ÉsM 8 Ðs)8 Ñ
ÉsM 8 Ðs)8 Ñ Ò
Ï
è un intervallo di confidenza per ) per grandi campioni al livello di confidenza Ð"  αÑ. Mentre
questa costruzione di intervalli di confidenza è sempre possibile, difficilmente si ottiene
l'intervallo di confidenza partendo dalla statistica test  # ln V8 . Infine, la precedente procedura
fornisce intervalli ottimi, almeno per grandi campioni, dal momento che il test basato sulla
s 8 ÑÐK
s 8  )! Ñ# × è uniformemente più potente in senso asintotico.
s 8 ÐK
successione di statistiche ÖM
T T
Se il modello statistico risulta Y) dove ) œ Ð)E ß )F
Ñ dove )E è unidimensionale, sulla base
dei risultati della §4.2.3, un intervallo di confidenza per )E per grandi campioni al livello di
confidenza Ð"  αÑ è dato da
Î
Ñ
"
"
Ðs)E8  D"αÎ#
Ó,
ß s)E8  D"αÎ#
s
s
s
s
É M E8 Ð) 8 Ñ
É M E8 Ð) 8 Ñ Ò
Ï
dove con sM E8 Ðs
) 8 Ñ si denota l'informazione osservata di Fisher relativa a )E .
Esempio 5.2.1. Se si considera un campione casuale da \ µ R Ð.ß 8Ñ, tenendo presenti i
risultati dell'Esempio 3.3.10, si ha che
Capitolo 5
105
–  D"αÎ# = ß B
–  D"αÎ# =
B
È8
È8
e
=#  D"αÎ# Ê
#=% #
#=%
ß =  D"αÎ# Ê
8
8
sono intervalli di confidenza per . e 8 per grandi campioni al livello di confidenza Ð"  αÑ.
Questo risultato serve unicamente ad esemplificare, dal momento che si dispone degli intervalli
di confidenza per campioni finiti.
…
Esempio 5.2.2. Se si considera un campione casuale da \ µ F3Ð"ß :Ñ tenendo presenti i risultati
dell'Esempio 3.1.8, allora risulta che
–
–
–
–
–  D"αÎ# Ê BÐ"  BÑ ß B
–  D"αÎ# Ê BÐ"  BÑ
B
8
8
è un intervallo di confidenza per : per grandi campioni al livello di confidenza Ð"  αÑ.
– œ ', un intervallo di confidenza per : per grandi campioni al livello di
Se 8 œ "! e 8B
confidenza del 95% è dato da
–
–
–
–
–  D!.*(& Ê BÐ"  BÑ ß B
–  D!.*(& Ê BÐ"  BÑ
B
"!
"!
œ Ð!.#*'$ß !.*!$'Ñ .
Tenendo presente i risultati dell'Esempio 5.1.5, è evidente che questo intervallo fornisce una
buona approssimazione dell'intervallo per campioni finiti.
In una indagine è stata considerata la patologia del russare su un campione casuale di 2484
individui. È risultato che 1104 dei soggetti esaminati soffrono di questa patologia in modo più o
– œ ""!%Î#%)% œ !.%%%%, un
meno grave (fonte: Norton e Dunn, 1985). Dal momento che si ha B
intervallo di confidenza per grandi campioni al livello di confidenza del *&% per la proporzione
di individui che russano è dato da
–
–
–
–
–  D!.*(& Ê BÐ"  BÑ ß B
–  D!.*(& Ê BÐ"  BÑ
B
#%)%
#%)%
œ Ð!.%#%*ß !.%'%!Ñ .
…
Esempio 5.2.3. Se si considera un campione casuale da \ µ [ Ð!ß "à :Ñ, dal momento che non
si può esprimere in forma esplicita lo stimatore di massima verosimiglianza, allora non è
possibile ottenere una forma generale per l'intervallo di confidenza. Tuttavia, per il campione
specifico dell'Esempio 3.1.10, essendo in questo caso s: œ #.)$&#& e sM 8 Ð:Ñ
s œ $.#*#!#,
scegliendo α œ !.!&, allora Ð".(&&!ß $.*"&&Ñ è un intervallo di confidenza per : per grandi
campioni al livello di confidenza del *&%.
…
5.2.2. Le trasformazione stabilizzatrice della varianza e gli intervalli di confidenza. Dal
momento che l'impiego della distribuzione per grandi campioni comporta un'approssimazione,
può essere conveniente considerare una riparametrizzazione per migliorare il grado di
approssimazione. Supponendo verificate le condizioni della §3.3.2, se
1Ð)Ñ œ ( MÐ)Ñ"Î# . )
è la trasformazione stabilizzatrice della varianza, allora è immediato dimostrare che
106
La stima per intervalli
.
s 8 Ñ  1Ð)! ÑÓ# Ä ;"# .
8Ò1ÐK
Tenendo presente la discussione della sezione precedente, questa statistica è equivalente al
rapporto delle verosimiglianze e quindi gode di proprietà ottime per costruire intervalli di
confidenza per 1Ð)Ñ per grandi campioni. Dal momento che risulta
#
s 8 Ñ  1Ð)! ÑÓ#  ;"ß"
lim Pr)! Ö8Ò1ÐK
α× œ "  α ,
8Ä∞
la regione di accettazione per grandi campioni del test basato su questa statistica è data
dall'insieme
#
V8ß! Ð)Ñ œ ÖÐB" ß á ß B8 ÑÀ 8Ò1Ðs)8 Ñ  1Ð)ÑÓ#  ;"ß"
α× .
Tenendo presente che 1 è una funzione biunivoca, si ha l'equivalenza
#
ÖÐB" ß á ß B8 ÑÀ 8Ò1Ðs)8 Ñ  1Ð)ÑÓ#  ;"ß"
α× Í
Í
Í
"
"
ÐB" ß á ß B8 ÑÀ 1Ðs)8 Ñ  D"αÎ#
 1Ð)Ñ  1Ðs)8 Ñ  D"αÎ#
Í
È8
È8 Ÿ
"
"
ÐB" ß á ß B8 ÑÀ 1" –1Ðs)8 Ñ  D"αÎ#
 )  1" –1Ðs)8 Ñ  D"αÎ#
,
È8 —
È 8 —Ÿ
ovvero
"
"
1" –1Ðs)8 Ñ  D"αÎ#
ß 1" –1Ðs)8 Ñ  D"αÎ#
—
È8
È8 —
è intervallo di confidenza per ) per grandi campioni. Questa procedura consente di eliminare il
problema della stima della varianza e quindi rende più stabili gli intervalli di confidenza
ottenuti.
Esempio 5.2.4. Se si considera un campione casuale da \ µ F3Ð"ß :Ñ, la trasformazione
stabilizzatrice della varianza è data da
1Ð:Ñ œ (
"
.: œ # sin" È: .
È:Ð"  :Ñ
Di conseguenza, si ha che
–  D"αÎ#
sin# –sin" ÈB
"
–  D"αÎ# "
ß sin# –sin" ÈB
—
#È8
#È 8 —
è un intervallo di confidenza per ) per grandi campioni al livello di confidenza Ð"  αÑ. Questo
intervallo di confidenza seleziona insiemi di valori solo in Ð!ß "Ñ, ovvero all'interno dello spazio
parametrico. L'intervallo ottenuto nell'Esempio 5.2.2 invece può selezionare valori al di fuori
dello spazio parametrico e questo motivo lo rende poco opportuno.
– œ ', un intervallo di confidenza per : per grandi campioni al livello di
Se 8 œ "! e 8B
confidenza del 95% è dato da
Capitolo 5
107
–  D!.*(&
sin# –sin" ÈB
"
–  D!.*(& "
ß sin# –sin" ÈB
—
—
#È"!
#È"!
œ Ð!.#*')ß !.)'&*Ñ ,
Tenendo presente i risultati dell'Esempio 5.1.5, questo intervallo fornisce una approssimazione
migliore di quella dell'Esempio 5.2.2.
Se si considera di nuovo i dati dell'Esempio 5.2.2, un intervallo di confidenza per grandi
campioni al livello di confidenza del *&% per la proporzione di individui che russano risulta
Ð!.%#%(ß !.%'%"Ñ.
…
5.3. Le regioni di confidenza
5.3.1. La definizione di regione di confidenza. In questa sezione viene generalizzato il
concetto di intervallo di confidenza nel caso che si disponga di un vettore di parametri ) . Sia Y)
un modello statistico, e T una quantità pivot. Se F § ‘ è un insieme tale che
Pr) ÖT Ð\" ß á ß \8 à )Ñ − F× œ "  α ,
e se IÐ\" ß á ß \8 Ñ § ‘5 è un insieme casuale tale che per ogni )
ÖÐB" ß á ß B8 ÑÀ T ÐB" ß á ß B8 à )Ñ − F× Í ÖÐB" ß á ß B8 ÑÀ ) − IÐB" ß á ß B8Ñ× ,
allora IÐB" ß á ß B8 Ñ è detta regione di confidenza per ) al livello di confidenza Ð"  αÑ. Le
quantità pivot più opportune sono quelle che forniscono regioni di confidenza convesse o
almeno connesse, dal momento che sono le più facili da usare in modo operativo.
Si può dimostrare che esiste un legame fra la regione di confidenza e la regione di
accettazione del test per il sistema di ipotesi L! À ) œ )! contro L" À ) Á )! . Partendo da un test
opportuno è possibile costruire una regione di confidenza al livello di confidenza desiderato.
Nel caso che si costruisca regioni di confidenza a partire dal test del rapporto delle
verosimiglianze, in maniera analoga al caso univariato, si può verificare che la regione di
confidenza IÐB" ß á ß B8 Ñ al livello di confidenza Ð"  αÑ è data da tutti i valori di ) − @ per
cui la verosimiglianza PÐ)à B" ß á ß B8 Ñ è maggiore di
-α œ <α max PÐ)à B" ß á ß B8 Ñ ,
)−@
T T
Ñ , dove )E è un parametro a Ð5  2Ñ
dove Pr) ÐV Ÿ <α Ñ œ α. Inoltre, se si ha ) œ Ð)ET ß )F
componenti, la regione di confidenza IÐB" ß á ß B8 Ñ al livello di confidenza Ð"  αÑ è data da
tutti i valori di )E − @E per cui la verosimiglianza profilo P: Ð)E à B" ß á ß B8 Ñ è maggiore di -α .
Esempio 5.3.1. Dato un campione casuale da \ µ R Ð.ß 8Ñ, si vuole costruire una regione di
–
confidenza per Ð.ß 8Ñ. Supponiamo di scegliere come quantità pivot 8W # Î8  8Ð\  .Ñ# Î8.
–
Tenendo presente i risultati dell'Esempio 1.2.5 è noto che 8W # Î8  8Ð\  .Ñ# Î8 µ ;#8 e scelto
quindi un livello di confidenza α si ha
–
8W #
Ð\  .Ñ#
8
 ;#8ß"α œ "  α ,
Pr.ß8 œ
8
8
da cui
œÐB" ß á ß B8 ÑÀ
–  .Ñ #
8=#
ÐB
8
 ;#8ß"α
8
8
8
–  .Ñ#  ;#
Í šÐB" ß á ß B8 ÑÀ =#  ÐB
›
8ß"α
8
In questo caso la regione di confidenza IÐB" ß á ß B8 Ñ per Ð.ß 8Ñ al livello di confidenza Ð"  αÑ
– 8=# Î;#
è data dall'epigrafico di una parabola nel piano Ð.ß 8Ñ con vertice ÐBß
8ß"α Ñ. Questa
108
La stima per intervalli
regione di confidenza è convessa, ma tuttavia è illimitata. Per questo modello è molto laborioso
ottenere la regione di confidenza a partire dal test del rapporto delle verosimiglianze.
…
5.3.2. Le regioni di confidenza per grandi campioni. È evidente che è piuttosto difficile
determinare una regione di confidenza partendo dal test del rapporto delle verosimiglianze,
come è stato evidenziato nella precedente sezione. Tuttavia, nel caso di grandi campioni la
teoria si semplifica in modo elegante.
Dato il modello statistico Y) e il sistema di ipotesi L! À ) œ )! contro L" À ) Á )! ,
supponendo verificate le condizioni della §3.3.2, nella 4.2.3 si è evidenziato che la statistica test
s 8  )! ÑTsI8 ÐK
s 8 ÑÐK
s 8  )! Ñ è equivalente alla statistica test  # ln V8 . Dal momento che
ÐK
risulta
s 8  )! ÑTsI8 ÐK
s 8 ÑÐK
s 8  )! Ñ  ;#5ß"α × œ "  α ,
lim Pr)! ÖÐK
8Ä∞
la regione di accettazione per grandi campioni del test basato sulla statistica precedente è data
dall'insieme
V8ß! Ð) Ñ œ ÖÐB" ß á ß B8 ÑÀ Ðs
) 8  )ÑTsI8 Ðs
) 8 ÑÐs
) 8  )Ñ  ;#5ß"α × .
La regione di confidenza per ) per grandi campioni al livello di confidenza Ð"  αÑ è data da
Ö) À Ð)  s
) 8 ÑTsI8 Ðs
) 8 ÑÐ)  s
) 8 Ñ  ;#5ß"α × ,
ovvero dall'insieme dei punti contenuti in un ellissoide di centro s
) 8 con direzioni degli assi date
dagli autovettori di sI8 Ðs
) 8 Ñ e con lunghezza degli assi pari a #É;#5ß"α Îα4 , dove α4 è il j-esimo
autovalore di sI8 Ðs
) 8 Ñ. Questa regione di confidenza è anche detto ellissoide di confidenza. Per gli
stessi motivi esposti nella §5.2.1, questa procedura fornisce regioni di confidenza ottime per
grandi campioni.
T T
Infine, se risulta ) œ Ð)ET ß )F
Ñ , dove )E è un parametro a Ð5  2Ñ componenti, la regione di
confidenza per )E per grandi campioni al livello di confidenza Ð"  αÑ è data da
Ö)E À Ð)E  s
) E8 ÑTsIE8 Ðs
) 8 ÑÐ)E  s
) E8 Ñ  ;#52ß"α × ,
ovvero dall'insieme dei punti contenuti in un ellissoide di centro s
) E8 con direzioni degli assi
date dagli autovettori di sIE8 Ðs
) 8 Ñ e con lunghezza degli assi pari a #É;#52ß"α Îα4 , dove α4 è il
j-esimo autovalore di sIE8 Ðs
) 8 Ñ e sIE8 Ðs
) 8 Ñ è l'informazione osservata di Fisher relativa a )E .
Esempio 5.3.2. Dato il terzo modello statistico dell'Esempio 1.1.7, tenendo presente i risultati
dell'Esempio 3.3.10, si ha che
œÐ.ß 8ÑÀ 8
– #
Ð.  BÑ
Ð8  =# Ñ #

8
 ;##ß"α
=#
#=%
costituisce una ellisse di confidenza per Ð.ß 8Ñ per grandi campioni al livello di confidenza
– =# Ñ ed ha gli assi paralleli agli assi cartesiani di
Ð"  αÑ. Questa ellisse è centrata in ÐBß
#
lunghezze rispettivamente pari a #É=# ;##ß"α Î8 e #É#=% ;#ß"
α Î8. Se si considera di nuovo i
dati dell'Esempio 4.3.1, una ellisse di confidenza per Ð.ß 8Ñ per grandi campioni al livello di
confidenza del *&% è centrata in Ð!.''!&ß !.!!)"Ñ ed ha gli assi paralleli agli assi cartesiani di
lunghezze rispettivamente pari a !.!*)( e !.!"#&.
…
Esempio 5.3.3. Dato il modello di regressione lineare dell'Esempio 1.1.8, si vuole costruire una
regione di confidenza per Ð+ß ,Ñ per grandi campioni. È evidente che
Capitolo 5
109
Ð+ß ,ÑÀ 8
Ð+  s
+Ñ#
Ð,  s,Ñ#

8
 ;##ß"α Ÿ
=#<
=<# Î=D#
costituisce una ellisse di confidenza per Ð+ß ,Ñ per grandi campioni al livello di confidenza
Ð"  αÑ. Questa ellisse è centrata in Ð+ß
s s,Ñ ed ha gli assi paralleli agli assi cartesiani di lunghezze
#
#
rispettivamente pari a #É=#< ;##ß"α Î8 e #É=<# ;#ß"
α ÎÐ8=D Ñ. Se si considera di nuovo i dati
dell'Esempio 4.3.8, allora una ellisse di confidenza per Ð+ß ,Ñ per grandi campioni al livello di
confidenza del *&% è centrata in Ð"%'*.%(##ß &(.&!'(Ñ ed ha gli assi paralleli agli assi cartesiani
di lunghezze pari a "%&.")(" e "!.)%#).
…
5.4. Alcuni esempi di intervalli di confidenza
5.4.1. Gli intervalli di confidenza e la distribuzione Esponenziale. Dato un campione casuale
da \ µ IÐ!ß 5Ñ, si vuole costruire un intervallo di confidenza per 5 . Se si considera il sistema
di ipotesi L! À 5 œ 5! contro L" À 5 Á 5! , dall'Esempio 4.2.4 è noto che il rapporto delle
– 5! . Quando L! è vera, ? è la determinazione
verosimiglianze è funzione di ? œ #8BÎ
campionaria di una statistica Y distribuita come una Chi-quadrato con #8 gradi di libertà,
–
essendo 8\Î5! distribuita come una KÐ!ß "à 8Ñ (vedi Esempio 1.2.2). Tuttavia, < non è una
funzione biunivoca di ? e quindi i test costruiti su V e Y non sono equivalenti. Dal momento
che < œ <Ð?Ñ è una funzione prima crescente e successivamente decrescente, risulta che la
regione di accettazione del test è del tipo Ö?À -" Ÿ ? Ÿ -# ×, dove -" e -# vanno scelti in modo
tale che <Ð-" Ñ œ <Ð-# Ñ e PrÐ-" Ÿ ;##8 Ÿ -# Ñ œ "  α. Tuttavia, tenendo presente la discussione
fatta nell'Esempio 4.3.3, questa procedura risulta complessa ed è conveniente invece adottare
come regione di accettazione approssimata per il test del rapporto delle verosimiglianze
–
#8B
#
,
V! œ œÐB" ß á ß B8 ÑÀ ;##8ßαÎ# 
 ;#8ß"
αÎ#
5
che è equivalente all'insieme
ÐB" ß á ß B8 ÑÀ
–
#8B
;##8ß"αÎ#
5
–
#8B
Ÿ.
#
;#8ß
αÎ#
Di conseguenza,
–
#8B
;##8ß"αÎ#
ß
–
#8B
#
;#8ß
αÎ#
.
costituisce un intervallo di confidenza per 5 al livello di confidenza Ð"  αÑ.
Tenendo presenti i risultati dell'Esempio 3.3.9, si ha che
–
–
–  D"αÎ# B ß B
–  D"αÎ# B
B
È8
È8
costituisce un intervallo di confidenza per 5 per grandi campioni al livello di confidenza
Ð"  αÑ. La trasformazione stabilizzatrice della varianza è data da
1Ð5Ñ œ (
Di conseguenza, risulta che
"
. 5 œ ln 5 .
5
110
La stima per intervalli
–  D"αÎ# " ß exp ln B
–  D"αÎ# "
exp–ln B
—
–
È8
È8 —
è un intervallo di confidenza per 5 per grandi campioni al livello di confidenza Ð"  αÑ. Questo
intervallo di confidenza seleziona insiemi di valori solo in Ð!ß ∞Ñ, ovvero lo spazio parametrico.
L'intervallo per grandi campioni ottenuto in precedenza invece può selezionare valori negativi (e
quindi al di fuori dello spazio parametrico) e questo motivo lo rende poco opportuno.
Al fine di illustrare i precedenti risultati teorici sono stati considerati i dati della Tavola 5.4.1.
In questa tavola sono stati riportati i tempi di rottura in ore (operative) di un campione casuale di
20 componenti elettronici.
Tavola 5.4.1. Tempi di rottura (in ore).
componente
B3
"
'#()
#
$""$
$
&#$'
%
""&)%
&
"#'#)
'
((#&
(
)'!%
)
"%#''
*
'"#&
"!
*$&!
componente
""
"#
"$
"%
"&
"'
"(
")
"*
#!
B3
$#"#
*!!$
$&#$
"#)))
*%'!
"$$%"
"()!*
#)"#
"")#&
#$*)
Fonte: Angus (1982).
– œ )&'$.&, un intervallo di confidenza al livello di confidenza del
Dal momento che si ha B
*&% per 5 è dato da
–
%!B
ß
–
%!B
#
;#%!ß!.*(& ;%!ß!
.!#&
œ Ð&((#.$!#*ß "%!"*.&'$(Ñ .
Dalla precedente discussione si ha inoltre che due intervalli di confidenza per 5
approsimativamente al livello del 95% sono dati da
–  D!.*(&
B
–
–
B
–  D!.*(& B
ßB
È#!
È#!
œ Ð%)!*.'"%(ß "#$"(.$)&$Ñ
e
–  D!.*(& " ß exp ln B
–  D!.*(& "
exp–ln B
—
–
È#!
È#! —
œ Ð&&#%.#'&"ß "$#(%.)!$$Ñ .
L'intervallo di confidenza ottenuto con la trasformazione stabilizzatrice della varianza fornisce
una migliore approssimazione.
…
5.4.2. Gli intervalli di confidenza e la distribuzione Uniforme. Dato un campione casuale da
\ µ Y Ð!ß $ Ñ, si vuole costruire un intervallo di confidenza per $ . Se si considera il sistema di
ipotesi L! À $ œ $! contro L" À $ Á $! , tenendo presente l'Esempio 3.1.4, la determinazione
campionaria del rapporto delle verosimiglianze è data da
- $!8 IÐ!ß"Ñ ÐBÐ8Ñ Î$! Ñ
BÐ8Ñ
<œ
œŒ
8
- BÐ8Ñ
$!
8
IÐ!ß"Ñ Œ
BÐ8Ñ
$!
,
Capitolo 5
111
Si noti che < è funzione di BÐ8Ñ Î$! . Dunque, quando L! è vera, BÐ8Ñ Î$! è la determinazione
campionaria di una statistica \Ð8Ñ Î$! distribuita come una F/Ð!ß "à 8ß "Ñ (vedi Esempio 1.2.6). È
facile verificare che < è una funzione monotona crescente di BÐ8Ñ Î$! e quindi i test costruiti su V
/ \Ð8Ñ Î$! sono equivalenti. Dal momento che il quantile di ordine α di una F/Ð!ß "à 8ß "Ñ è dato
da α"Î8 , la regione di accettazione per il test del rapporto delle verosimiglianze risulta
BÐ8Ñ
V! œ šÐB" ß á ß B8 ÑÀ α"Î8 
 "› ,
$
che è equivalente all'insieme
ÖÐB" ß á ß B8 ÑÀ BÐ8Ñ  $  BÐ8Ñ α"Î8 × .
Di conseguenza, ÐBÐ8Ñ ß BÐ8Ñ α"Î8 Ñ è un intervallo di confidenza per $ al livello di confidenza
Ð"  αÑ. Non si può ottenere un intervallo per grandi campioni sulla base dei risultati della
§5.2.1, dal momento che non risultano verificate le condizioni della §3.3.2.
Capitolo 6
L'inferenza multivariata
6.1. Il campionamento con osservazioni multivariate
6.1.1. La matrice campionaria e il modello statistico multivariato. In questo capitolo saranno
considerati per semplicità solo i risultati relativi ad un campionamento casuale, anche se i
concetti esposti possono essere facilmente estesi a contesti più ampi. Dunque, se invece di 8
realizzazioni indipendenti di una variabile casuale \ , si dispone di 8 realizzazioni indipendenti
di un vettore casuale k œ Ð\" ß á ß \. ÑT con funzione di ripartizione congiunta J ÐxÑ, allora
l'esperimento produce la cosiddetta matrice campionaria di ordine Ð. ‚ 8Ñ data da
Î B""
ã
Ï B."
dove
á
ä
á
B"8 Ñ
ã
œ Ð x " ß á ß x8 Ñ ,
B.8 Ò
Î B"3 Ñ
ã
x3 œ
,
Ï B.3 Ò
rappresenta la i-esima osservazione campionaria. La j-esima riga della matrice campionaria,
ovvero ÐB4" ß á ß B48 Ñ, costituisce un campione casuale univariato di 8 osservazioni relativo alla
variabile casuale \4 .
Con considerazioni simili a quelle fatte nella §1.1.1, risulta evidente che prima del
rilevamento ogni osservazione campionaria k3 è un vettore casuale la cui distribuzione è
identica a quella del vettore casuale k . Di conseguenza, la funzione di ripartizione congiunta di
Ðk" ß á ß k8 Ñ risulta
J8 Ðx" ß á ß x8 Ñ œ $ J Ðx3 Ñ .
8
3œ"
La definizione di modello statistico si estende in modo ovvio alla struttura multivariata.
Supponiamo che la funzione di ripartizione J Ðxà )Ñ relativa al vettore casuale k sia specificata
a meno di un insieme di parametri ) − @ e che in corrispondenza di J Ðxà )Ñ esista una funzione
di densità o di probabilità congiunta 0 Ðxà )Ñ. Dunque, se 08 Ðx" ß á ß x8 à )Ñ è la funzione di
densità o di probabilità congiunta relativa a J8 Ðx" ß á ß x8 à )Ñ e se il campionamento è casuale,
allora il modello statistico multivariato è dato da
08 À 08 Ðx" ß á ß x8 à )Ñ œ $ 0 Ðx3 à )ÑŸ ,
8
Y) œ
3œ"
dove ) − @. Infine, lo spazio campionario risulta
V8 œ . f8ß) ,
) −@
dove f8ß) œ f) ‚ á ‚ f) e f) è il supporto di 0 Ðxà )Ñ.
Capitolo 6
113
Esempio 6.1.1. Nella statistica inferenziale univariata esistono numerosi modelli statistici
alternativi a quello relativo ad un campionamento casuale da una variabile casuale normale.
Come è stato visto nei precedenti capitoli, questi modelli vengono ampiamente applicati e per
essi sono disponibili numerose procedure inferenziali ben collaudate e di facile utilizzo. Al
contrario, nella statistica multivariata il modello relativo ad un campionamento casuale da un
vettore normale multivariato, ovvero da k µ R. Ð.ß DÑ, svolge un ruolo veramente
fondamentale e spesso costituisce l'unico modello disponibile. Questo modello può essere
espresso come
08 À 08 Ðx" ß á ß x8 à .ß DÑ œ $ detÐ#1DÑ"Î# exp” 
8
Y .ßD œ
3œ"
"
Ðx3  .ÑT D" Ðx3  .Ñ•Ÿ
#
dove . − ‘. e D  !. La notazione D  ! serve ad indicare che la matrice D è definita
positiva. Dal momento che la matrice di varianza-covarianza contiene solo Ò. Ð.  "ÑÎ#Ó
parametri distinti, in questo modello sono presenti Ò.  . Ð.  "ÑÎ#Ó parametri in totale. Inoltre,
lo spazio parametrico è dato dal cartesiano di ‘. con lo spazio costituito dall'insieme delle
matrici simmetriche definite positive di ordine . .
…
6.1.2. Il vettore medio campionario e la matrice di varianza-covarianza campionaria. La
definizione di statistica data nella §1.2.1 si applica in modo immediato al presente contesto
multivariato. Dato un modello statistico Y) , si definisce come statistica un vettore di
trasformazioni misurabili a 5 componenti
TÀ V8 Ä ‘5
che non dipende da ) , mentre un valore t œ TÐx" ß á ß x8 Ñ è detto realizzazione campionaria di
T relativa alla matrice campionaria Ðx" ß á ß x8 Ñ.
È opportuno ora considerare in maggiore dettaglio le generalizzazioni multivariate delle
statistiche media e varianza campionaria. Si consideri dunque un modello statistico Y) relativo
ad un campionamento casuale dal vettore casuale k per cui esistono il vettore medio
EÐk Ñ œ . e la matrice di varianza-covarianza VarÐk Ñ œ D. La realizzazione campionaria del
vettore medio campionario è data
–
Î B" Ñ
–x œ
ã
,
–. Ò
ÏB
dove
–4 œ "
B
8
8
B43 ,
3œ"
rappresenta la media campionaria relativa alle 8 determinazioni della variabile casuale \4 . Il
vettore medio campionario può anche essere scritto come combinazione lineare delle 8
osservazioni campionarie, ovvero
–x œ "
8
8
x3 .
3œ"
Da un punto di vista probabilistico, –x è dunque una realizzazione del vettore casuale
"
–
k œ
8
8
k3 ,
3œ"
ottenuto dalla combinazione lineare dei vettori casuali Ðk" ß á ß k8 Ñ. Di conseguenza
114
L'inferenza multivariata
8
"
–
EÐk Ñ œ
8
EÐk3 Ñ œ . ,
3œ"
e tenendo presente l'indipendenza dei vettori casuali Ðk" ß á ß k8 Ñ, risulta
"
–
VarÐk Ñ œ #
8
8
VarÐk3 Ñ œ
3œ"
"
D.
8
–
Esempio 6.1.2. Dato un campione casuale da k µ R. Ð.ß DÑ, dal momento che k è una
combinazione lineare di vettori casuali indipendenti ed ugualmente distribuiti k3 µ R. Ð.ß DÑ,
–
in base alla proprietà i) della §A.4.1, si ha k µ R. Ð.ß 8" DÑ, ovvero i risultati ottenuti in
questa sezione risultano verificati.
…
La realizzazione campionaria della matrice di varianza-covarianza campionaria è data
Î =""
ã
Sœ
Ï =. "
á
ä
á
=". Ñ
ã
,
Ò
=..
ovvero una matrice quadrata di ordine . , simmetrica e positiva semidefinita, il cui generico
elemento di posto Ð4ß 6Ñ risulta
=46 œ
"
8
8
–4 ÑÐB63  B
–6 Ñ .
ÐB43  B
3œ"
In altri termini, gli elementi della diagonale di S sono le varianze delle determinazioni di ogni
singola variabile casuale, mentre gli altri elementi sono le covarianze tra le determinazioni di
ogni coppia di variabili casuali. La matrice S può essere anche espressa come
"
Sœ
8
8
Ðx3  –xÑÐx3  –xÑT
3œ"
e di conseguenza la matrice di varianza-covarianza campionaria è data della matrice casuale
fœ
"
8
8
–
–
Ðk3  k ÑÐk3  k ÑT .
3œ"
Al fine di derivare le proprietà della matrice di varianza-covarianza campionaria, risulta
conveniente esprimere S nel modo seguente
Sœ
œ
"
8
"
8
8
3œ"
8
ÒÐx3  .Ñ  Жx  .ÑÓÒÐx3  .Ñ  Жx  .ÑÓT
Ðx3  .ÑÐx3  .ÑT  Жx  .ÑЖx  .ÑT .
3œ"
Dunque, la matrice di varianza-covarianza campionaria è data da
fœ
Di conseguenza si ha
"
8
8
3œ"
–
–
Ðk3  .ÑÐk3  .ÑT  Ðk  .ÑÐk  .ÑT .
Capitolo 6
115
EÐf Ñ œ
"
8
"
œ
8
8
–
–
EÖÐk3  .ÑÐk3  .ÑT ×  EÖÐk  .ÑÐk  .ÑT ×
3œ"
8
3œ"
81
–
VarÐk3 Ñ  VarÐk Ñ œ
D.
8
Esempio 6.1.3. Dato un campione casuale da k µ R. Ð.ß DÑ, si consideri i vettori scarto
–
W 3 œ k3  k œ
8
-34 k4 ,
4œ"
dove le costanti -34 sono definite nell'Esempio 1.2.5. Dal momento che
–
k œ
8
. 4 k4 ,
4œ"
dove di nuovo le costanti .4 sono definite nell'Esempio 1.2.5, in analogia con il medesimo
–
esempio sulla base della proprietà ii) della §A.4.1, i vettori casuali W3 e k sono indipendenti.
Di conseguenza, essendo
"
fœ
8
8
W3 W3T ,
3œ"
–
una trasformata dei vettori scarto, allora anche f e k sono indipendenti. Inoltre,
dall'espressione della matrice di varianza-covarianza si ottiene
8
–
–
Ðk3  .ÑÐk3  .ÑT œ 8f  8Ðk  .ÑÐk  .ÑT .
3œ"
Tenendo presente che k3 µ R. Ð.ß DÑ sono indipendenti, dalla §A.4.2 si ha
8
Ðk3  .ÑÐk3  .ÑT µ [. ÐDß 8Ñ ,
3œ"
–
mentre, essendo k µ R. Ð.ß 8" DÑ, si ha
–
–
8Ðk  .ÑÐk  .ÑT µ [. ÐDß "Ñ .
–
Dal momento che f e k sono indipendenti, per la proprietà i) della §A.4.2, si deve concludere
che
8f µ [. ÐDß 8  "Ñ .
Dunque i risultati di questa sezione sono confermati, dal momento che in base alla §A.4.2 si ha
EÐf Ñ œ
"
81
EÐ8f Ñ œ
D.
8
8
…
6.1.3. La funzione di verosimiglianza con matrici campionarie. Dato un modello statistico Y)
relativo ad un campionamento casuale, una volta che la matrice campionaria Ðx" ß á ß x8 Ñ è stata
osservata, è immediato estendere il concetto di funzione di verosimiglianza al caso multivariato.
Di nuovo la funzione di verosimiglianza è la funzione PÀ @ Ä ‘ ∪ Ö!× data da
116
L'inferenza multivariata
PÐ)Ñ œ PÐ)à x" ß á ß x8 Ñ œ -08 Ðx" ß á ß x8 à )Ñ œ - $ 0 Ðx3 à )Ñ , ) − @ ,
8
3œ"
mentre la funzione di log-verosimiglianza è data da
8
6Ð)Ñ œ 6Ð)à x" ß á ß x8 Ñ œ ln - 
ln 0 Ðx3 à )Ñ , ) − @ .
3œ"
Esempio 6.1.4. Dato un campione casuale da k µ R. Ð.ß DÑ, la verosimiglianza risulta
PÐ.ß DÑ œ - $ detÐ#1D)"Î# expœ 
8
3œ"
œ - detÐDÑ8Î# exp

"
#
8
3œ"
"
Ðx3  .ÑT D" Ðx3  .Ñ
#
Ðx3  .ÑT D" Ðx3  .ÑŸ , . − ‘. ß D  ! .
Si ha
8
8
T
"
trÒD" Ðx3  .ÑÐx3  .ÑT Ó
Ðx3  .Ñ D Ðx3  .Ñ œ
3œ"
3œ"
œ tr–D"
8
3œ"
Ðx3  .ÑÐx3  .ÑT —
œ trÖD Ò8S  8Жx  .ÑЖx  .ÑT Ó×
œ 8 trÐD" SÑ  8 trÒD" Жx  .ÑЖx  .ÑT Ó
œ 8 trÐD" SÑ  8Жx  .ÑT D" Жx  .Ñ ,
"
dove si è tenuta presente la relazione ottenuta nella §6.1.2. Dunque, risulta infine
8
8
PÐ.ß DÑ œ - detÐDÑ8Î# exp’  trÐD" S)  Жx  .ÑT D" Жx  .Ñ“ .
#
#
Inoltre, la log-verosimiglianza è data da
8
8
8
6Ð.ß DÑ œ ln -  ln detÐDÑ  trÐD" SÑ  Жx  .ÑT D" Жx  .Ñ .
#
#
#
…
6.2. La stima per punti con osservazioni multivariate
6.2.1. Gli stimatori con matrici campionarie e le relative proprietà. I concetti considerati nel
Capitolo 2 si estendono in modo ovvio al contesto multivariato. Dunque, dato un modello
statistico Y) relativo ad un campionamento casuale, il procedimento di stima per punti fa
corrispondere ad ogni matrice campionaria Ðx" ß á ß x8 Ñ − V8 un valore ) − @ per mezzo dello
stimatore, che risulta di nuovo definito come
~
K À V8 Ä @ .
Di conseguenza, la realizzazione campionaria dello stimatore, ovvero la stima, è data da
~
~
) œ KÐx" ß á ß x8 Ñ.
Per quanto riguarda le condizioni di regolarità date nella §2.1.2, se si considera un modello
statistico Y) relativo ad un campionamento casuale, la condizione a) si riduce a richiedere che le
distribuzioni 0 Ðxà )Ñ specificate dal modello statistico siano distinte per valori distinti di ) − @,
Capitolo 6
117
mentre la condizione b) rimane inalterata. Inoltre, la condizione c) si riduce all'esistenza delle
derivate
`
0 Ðxà )Ñ
`)
e
`#
0 Ðxà )Ñ
` )` )T
per ogni ) − @ e per ogni x − f) (a meno di insiemi di probabilità nulla), mentre la condizione
d) risulta
(
`
`
0 Ðxà )Ñ . / œ
( 0 Ðxà )Ñ . /
` ) f)
f) ` )
e
(
`#
`#
x
/
0
Ð
à
)
Ñ
.
œ
( 0 Ðxà )Ñ . / .
T
` ) ` ) T f)
f) ` ) ` )
La definizione di correttezza e di coerenza di una stimatore rimangono inalterate nel contesto
~
multivariato, ovvero si dice che lo stimatore K è corretto per ) se
~
EÐKÑ œ ) ,
per ogni ) − @, mentre se Y8ß) è un modello statistico per ogni 8, allora si dice che lo stimatore
~
K8 è coerente per ) se
~ :
K 8 Ä )! ,
dove )! è il vero valore del parametro nella popolazione.
In modo ovvio si può estendere anche il concetto di vettore di funzioni punteggio, ovvero nel
caso di campionamento casuale si ha
8
s 8 Ð ) à x" ß á ß x8 Ñ œ s 8 Ð ) Ñ œ
sÐ)à x3 Ñ ,
3œ"
dove
sÐ) à x3 Ñ œ sÐ)Ñ œ
`
ln 0 Ðx3 à )Ñ ,
`)
è il vettore delle funzioni punteggio relative all'i-esima osservazione campionaria. In questo
caso la matrice di informazione di Fisher può essere espressa come
I8 Ð) Ñ œ 8VarÒsÐ)à k ÑÓ œ  8E”
`
sÐ)à k Ñ• œ 8IÐ)Ñ ,
`)
dove IÐ) Ñ œ VarÒsÐ)à k ÑÓ è la matrice di informazione di Fisher relativa ad una sola
´ risulta dunque
osservazione campionaria. Il limite inferiore di Rao-Cramer
"
~
VarÐKÑ IÐ)Ñ" ,
8
~
per cui l'efficienza di uno stimatore K corretto per ) è data da
~
~
effÐKÑ œ detÒVarÐKÑI8 Ð)ÑÓ" .
118
L'inferenza multivariata
~
Per quanto riguarda la sufficienza nel contesto multivariato, uno stimatore K è detto
sufficiente per ) se per ogni Ðx" ß á ß x8 Ñ − V8 e Ðy" ß á ß y8 Ñ − V8 si ha
~
~
KÐx" ß á ß x8 Ñ œ KÐy" ß á ß y8 Ñ Ê PÐ)à x" ß á ß x8 Ñ º PÐ)à y" ß á ß y8 Ñ
per ogni ) − @. In questo caso il criterio di fattorizzazione di Neyman richiede che
~
08 Ðx" ß á ß x8 à )Ñ œ 28 Ðx" ß á ß x8 Ñ1Ð)à )Ñ .
Esempio 6.2.1. Dato un campione casuale da k µ R. Ð.ß I. Ñ, ovvero data una versione ridotta
del modello statistico dell'Esempio 6.1.1, allora risulta
08 À 08 Ðx" ß á ß x8 à .Ñ œ $ Ð#1Ñ8Î# exp” 
8
Y. œ
3œ"
"
Ðx3  .ÑT Ðx3  .Ñ•Ÿ .
#
dove . − ‘. . In questo caso la verosimiglianza è data da
8
PÐ.Ñ œ - exp’  Жx  .ÑT Жx  .Ñ“ ,
#
per cui il vettore delle funzioni punteggio risulta
s 8 Ð . à x" ß á ß x8 Ñ œ
`
8
’ln -  Жx  .ÑT Жx  .Ñ“ œ 8Жx  .Ñ ,
`.
#
mentre la matrice d'informazione di Fisher è data da
I8 Ð.Ñ œ  Eœ
`
–
Ò8Ðk  .ÑÓ
T
`.
œ 8 I. .
´ risulta
Di conseguenza, il limite inferiore di Rao-Cramer
~Ñ VarÐ.
"
I. ,
8
–
–
–
per cui essendo EÐk Ñ œ . e VarÐk Ñ œ 8" I. in base ai risultati della §6.1.2, allora k è uno
stimatore efficiente per .. Inoltre è immediato verificare mediante il criterio di fattorizzazione
–
che k è anche sufficiente.
…
6.2.2. Gli stimatori di massima verosimiglianza con matrici campionarie. Se si considera un
modello statistico Y) relativo ad un campionamento casuale, data la matrice campionaria
Ðx" ß á ß x8 Ñ si dice stima di massima verosimiglianza di ) quel valore s
) − @ tale che
PÐs
)Ñ œ max PÐ)Ñ ,
)−@
che costituisce ovviamente una condizione equivalente a
6Ðs
)Ñ œ max 6Ð)Ñ .
)−@
sÐx" ß á ß x8 Ñ dello
La stima di massima verosimiglianza è la realizzazione campionaria s
)œK
s. Inoltre, se ) può essere ripartito in due componenti
stimatore di massima verosimiglianza K
T
T T
) œ Ð)E ß )F Ñ , tali che )E − @E e )F − @F , la verosimiglianza profilo relativa a )E risulta
P: Ð)E Ñ œ P: Ð)E à x" ß á ß x8 Ñ œ max PÐ)E ß )F Ñ .
)F −@F
Capitolo 6
119
Supponiamo ora che siano soddisfatte le condizioni di regolarità sul modello statistico e che
per semplicità lo stima di massima verosimiglianza coincida con l'unica soluzione ottenuta
dall'equazione di verosimiglianza
s 8 Ð ) à x" ß á ß x8 Ñ œ
`
6Ð)à x" ß á ß x8 Ñ œ ! .
`)
In questo caso, sulla base dei risultati si può facilmente dimostrare che lo stimatore di massima
verosimiglianza è coerente per ), ovvero si ha
:
s8 Ä
K
)! ,
dove )! è il vero valore del parametro nella popolazione. Inoltre, se l'informazione di Fisher
IÐ) Ñ è definita positiva, allora si ha anche
.
s 8  )! Ñ Ä
È8ÐK
R5 Ö!ß IÐ)! Ñ" × .
Esempio 6.2.2. Dato un campione casuale da k µ R. Ð.ß DÑ, si vuole determinare la stima di
massima verosimiglianza di . e D. Dall'Esempio 6.1.4 si ha
8
8
8
6Ð.ß DÑ œ ln -  ln detÐDÑ  trÐD" SÑ  Жx  .ÑT D" Жx  .Ñ
#
#
#
8
8
"
Ÿ ln -  ln detÐDÑ  trÐD SÑ œ 6Жxß DÑ œ max 6Ð.ß DÑ .
#
#
.−‘.
Nella precedente espressione si è tenuto presente che D  !, per cui anche D"  !, in modo
tale che la forma quadratica Жx  .ÑT D" Жx  .Ñ è definita positiva e quindi raggiunge il
minimo quando . œ –x.
Per D  ! si ha
 ln detÐDÑ  trÐD" DÑ Ÿ  ln detÐDÑ  . ,
dove D  ! è una matrice quadrata di costanti di ordine . . Al fine di dimostrare la precedente
disugualianza, si noti che dalle assunzioni fatte si ha anche D" D  !, per cui la matrice D" D
ha autovalori Ðα" ß á ß α. Ñ tali che α4  !. Dunque
 ln detÐDÑ  trÐD" DÑ œ ln detÐDÑ  ln detÐDÑ  ln detÐDÑ  trÐD" DÑ
œ  ln detÐDÑ  ln detÐD" DÑ  trÐD" DÑ
œ  ln detÐDÑ  ln $ α4 
.
.
4œ"
4œ"
α4
.
œ  ln detÐDÑ 
Ðln α3  α3 Ñ Ÿ  ln detÐDÑ  . ,
4œ"
dove si è tenuto presente che
ln α4  α4 Ÿ  " .
Adoperando la disugualianza con D œ S, si ha
8
8
6Жxß DÑ œ ln -  ln detÐDÑ  trÐD" SÑ
#
#
8
8.
Ÿ ln -  ln detÐSÑ 
œ 6Жxß SÑ œ max 6Ð.ß DÑ .
#
#
.−‘. ßD!
120
L'inferenza multivariata
Dunque Жxß SÑ costituisce la stima di massima verosimiglianza di Ð.ß DÑ, per cui lo stimatore di
–
massima verosimiglianza è dato da Ðk ß f Ñ. Tenendo presente i risultati dell'Esempio 6.1.3 si ha
–
–
inoltre che k µ R. Ð.ß 8" DÑ e 8f µ [. ÐDß 8  "Ñ e che k e f sono indipendenti. Si può
–
verificare che Ðk ß f Ñ è asintoticamente corretto, coerente e sufficiente.
…
Esempio 6.2.3. Dato un campione casuale da k µ R. Ð.ß DÑ, si vuole determinare la stima di
massima verosimiglianza degli autovalori e degli autovettori di D. Dunque, se D œ >A>T dove
> è una matrice ortogonale di ordine . e A œ diagÐ-" ß á ß -. Ñ, supponendo senza perdita di
generalità che -" á -. , allora l'obiettivo è quello di ottenere la stima di massima
verosimiglianza di A e >.
Nel caso in cui tutti gli autovalori sono distinti, ovvero se -" Á á Á -. , allora la
rappresentazione di D è unica e gli autovalori e gli autovettori sono funzioni biunivoche di D.
Di conseguenza, a meno di matrici campionarie di probabilità nulla, la matrice di varianzacovarianza campionaria ammette una rappresentazione unica S œ GLGT , dove G è una matrice
ortogonale di ordine . , mentre L œ diagÐ6" ß á ß 6. Ñ e Ð6" ß á ß 6. Ñ sono gli autovalori campionari
di S che senza perdita di generalità possono essere scelti come 6" á 6. . In base alla
proprietà di equivarianza della stima di massima verosimiglianza, allora le stime di massima
verosimiglianza di A e > risultano rispettivamente L e G.
Quando invece solo i primi / autovalori sono distinti, ovvero se -" Á á Á -/ e
-/" œ á œ -. œ -, allora la rappresentazione di D non è unica e la proprietà di equivarianza
non può essere applicata. In questo caso, tenendo presente l'Esempio 6.1.4, la logverosimiglianza può essere espressa come
8
8
8
6Ð.ß Aß >Ñ œ ln -  ln detÐAÑ  trÐ>A" >T GLGT Ñ  Жx  .ÑT >A" >T Жx  .Ñ
#
#
#
e massimizzando in maniera analoga all'Esempio 6.2.1 si ha
8
8
6Ð.ß Aß >Ñ Ÿ ln -  ln detÐAÑ  trÐ>A" >T GLGT Ñ œ 6Жxß Aß >Ñ œ max 6Ð.ß Aß >Ñ .
#
#
.−‘.
Si ha A œ diagÐA" ß -I./ Ñ con A" œ diagÐ-" ß á ß -/ Ñ. Inoltre, sia >" la matrice di ordine
Ð. ‚ /Ñ costituita dai primi / autovettori di > e sia ># la matrice di ordine Ò. ‚ Ð.  /ÑÓ
costituita dai restanti Ð.  /Ñ autovettori di >. Analogamente, sia L" œ diagÐ6" ß á ß 6/ Ñ, sia G"
la matrice di ordine Ð. ‚ /Ñ costituita dai primi / autovettori di G e sia G# la matrice di ordine
Ò. ‚ Ð.  /ÑÓ costituita dai restanti Ð.  /Ñ autovettori di G. Di conseguenza, dalla precedente
espressione si ha
8
8
"
T
T
6Жxß Aß >Ñ œ ln -  ln detÒdiagÐA" ß -I./ ÑÓ  trÒ>diagÐA"
" ß - I. / Ñ> GLG Ó
#
#
8
8Ð.  /Ñ
œ ln -  ln detÐA" Ñ 
ln #
#
8
8
T
T
 trÒ>diagÐA"
trÒ>diagÐ!ß I./ Ñ>T GLGT Ó
" ß !Ñ> GLG Ó 
#
#8
8Ð.  /Ñ
œ ln -  ln detÐA" Ñ 
ln #
#
8
8
T
T
 trÐ>" A"
trÒdiagÐ!ß I./ ÑGLGT Ó .
" >" GLG Ñ 
#
#Dal momento che risulta
–
trÒdiagÐ!ß I./ ÑGLGT Ó œ trÒGT diagÐ!ß I./ ÑGLÓ œ trÒdiagÐ!ß I./ ÑLÓ œ Ð.  /Ñ6 ,
–
dove 6 œ Ð.  /Ñ"
.
4œ/" 64 ,
allora si ha
Capitolo 6
121
–
8
8
8Ð.  /Ñ
8Ð.  /Ñ6
" T
T
–
6Ðxß Aß >Ñ œ ln -  ln detÐA" Ñ  trÐA" >" GL G>" Ñ 
ln - 
.
#
#
#
#s# di ordine
La precedente espressione non dipende da ># e quindi qualsiasi matrice >
Ò. ‚ Ð.  /ÑÓ le cui colonne sono ortogonali costituisce la stima di massima verosimiglianza di
s# œ G# . Inoltre, tenendo presente che gli
># anche se solitamente per convenzione si adotta >
"
elementi sulla diagonale di A" sono in ordine decrescente, quelli sulla diagonale di L sono in
ordine crescente e che GT >" è una matrice le cui colonne sono ortogonali, allora
T
T
"
trÐA"
" >" GLG >" Ñ trÐA" L" Ñ ,
e l'identità viene ottenuta quando >" œ G" (vedi Muirhead, 1982). Dunque,
–
8
8
8Ð.  /Ñ
8Ð.  /Ñ6
6Жxß Aß >Ñ Ÿ ln -  ln detÐA" Ñ  trÐA"
L
Ñ

ln

"
"
#
#
#
#sÑ œ max 6Ð.ß Aß >Ñ ,
œ 6Жxß Aß >
.−‘. ß>−
s œ Ð G" ß >
s# Ñ, mentre  rappresenta il gruppo delle matrici ortogonali di ordine . .
dove >
Applicando opportunamente alla precedente espressione la disugualianza ottenuta nell'Esempio
–
6.2.2 e quella ottenuta nell'Esempio 3.1.2 rispettivamente con D œ L" e . œ 6, si ha
sÑ Ÿ ln -  8 ln detÐL" Ñ  8/  8Ð.  /Ñ ln–6  8Ð.  /Ñ
6Жxß Aß >
#
#
#
#
8
8Ð.  /Ñ – 8.
ln 6 
œ ln -  ln detÐL" Ñ 
#
#
#
8
8
.
–
œ ln -  ln detÒdiagÐL" ß 6 I./ ÑÓ 
#
#
sß >
sÑ œ
œ 6Жxß A
max
6Ð.ß Aß >Ñ ,
.−‘. ßA−ƒ" ß>−
s œ diagÐL" ß–6 I./ Ñ, mentre ƒ" rappresenta il gruppo delle matrici diagonali di ordine . i
dove A
cui ultimi Ð.  /Ñ elementi sulla diagonale sono uguali. Dunque, si deve concludere che le stime
di massima verosimiglianza dei primi / autovalori di D sono date dai primi / autovalori di S,
–
mentre la stima dei restanti Ð.  /Ñ autovalori coincidenti di D è data dalla media aritmetica 6
dei corrispondenti autovalori di S. Inoltre, le stime di massima verosimiglianza dei primi /
autovettori di D sono date dai primi / autovettori di S, mentre le stime di massima
verosimiglianza dei restanti Ð.  /Ñ autovettori non sono uniche, anche se solitamente per
convenzione si adottano gli ultimi Ð.  /Ñ autovettori di S.
Infine, si noti che risulta molto complicato determinare la distribuzione degli stimatori di
massima verosimiglianza degli autovalori e degli autovettori (vedi Muirhead, 1982).
…
6.3. La verifica di ipotesi con osservazioni multivariate
6.3.1. Il test del rapporto delle verosimiglianze con matrici campionarie. Si consideri un
modello statistico Y) relativo ad un campionamento casuale e il sistema di ipotesi L! À ) − @!
contro L" À ) − @" . Il test del rapporto delle verosimiglianze è basato sulla statistica test V la cui
realizzazione campionaria è data da
max PÐ)à x" ß á ß x8 Ñ
<œ
) −@!
max PÐ)à x" ß á ß x8 Ñ
) −@
La regione critica del test è data da g" œ Ö<À < Ÿ <α ×, dove
.
122
L'inferenza multivariata
sup Pr) ÐV Ÿ <α Ñ œ α ,
) −@!
mentre, avendo osservato il valore campionario <, il livello di significatività osservato del test è
dato da
α9== œ sup Pr) ÐV Ÿ <Ñ .
) −@!
Se inoltre si considera il sistema di ipotesi L! À ) œ )! contro L" À ) Á )! , supponendo
verificate le condizioni della §4.2.3 per ottenere la normalità per grandi campioni degli stimatori
di massima verosimiglianza, allora se L! è vera risulta
.
 # ln V8 Ä ;#5 .
Di conseguenza, la regione critica per grandi campioni del test basato sul rapporto delle
verosimiglianze è data da
g8ß" œ Ö<À  # ln < ;#5ß"α × ,
mentre, per un dato valore campionario <, il livello di significatività osservato per grandi
campioni risulta
α8ß9== œ PrÐ;#5  # ln <Ñ .
T T
Se si suppone infine che ) œ Ð)ET ß )F
Ñ , dove )E è un vettore a Ð5  2Ñ componenti e )F è un
vettore a 2 componenti e si considera il sistema di ipotesi L! À )E œ )!E contro L" À )E Á )!E ,
allora se L! è vera risulta
.
 # ln V8 Ä ;#52 .
Dunque, la regione critica per grandi campioni del test basato sul rapporto delle verosimiglianze
è data da
g8ß" œ Ö<À  # ln < ;#52ß"α × ,
mentre per un dato valore campionario <, il livello di significatività osservato per grandi
campioni risulta
α8ß9== œ PrÐ;#52  # ln <Ñ .
Nelle prossime sezioni vengono considerate alcune applicazioni del test del rapporto delle
verosimiglianze quando si dispone di matrici campionarie provenienti da popolazioni Normali
multivariate.
6.3.2. Il test di Hotelling. Dato un campione casuale da k µ R. Ð.ß DÑ, si supponga di voler
verificare il sistema di ipotesi L! À . œ .! contro L" : . Á .! . Si ha
@ œ ÖÐ.ß DÑÀ . − ‘. ß D  !×
e
@! œ ÖÐ.ß DÑÀ . œ .! ß D  !× .
Dai risultati dell'Esempio 6.2.2, è immediato ricavare che
max 6Ð.ß DÑ œ 6Жxß SÑ .
Ð.ßDÑ−@
Inoltre, si ha
Capitolo 6
123
8
ln detÐDÑ 
#
8
œ ln -  ln detÐDÑ 
#
8
œ ln -  ln detÐDÑ 
#
6Ð.! ß DÑ œ ln - 
8
8
trÐD" SÑ  Жx  .! ÑT D" Жx  .! Ñ
#
#
8
8
"
trÐD SÑ  trÒD" Жx  .! ÑЖx  .! ÑT Ó
#
#
8
"
trÖD ÒS  Жx  .! ÑЖx  .! ÑT Ó× ,
#
per cui adoperando nella precedente espressione la disugualianza ottenuta nell'Esempio 6.2.2
con D œ S  Жx  .! ÑЖx  .! ÑT , si ottiene
8
8.
ln detÒS  Жx  .! ÑЖx  .! ÑT Ó 
#
#
œ 6Ò.! ß S  Жx  .! ÑЖx  .! ÑT Ó œ max 6Ð.ß DÑ .
6Ð.! ß DÑ Ÿ ln - 
Ð.ßDÑ−@!
Tenendo presente che per le proprietà dei determinanti si ha
detÒS  Жx  .! ÑЖx  .! ÑT Ó œ detÐSÑÒ"  Жx  .! ÑT S" Жx  .! ÑÓ
allora
8
8.
6Ò.! ß S  Жx  .! ÑЖx  .! ÑT Ó œ ln -  lnÖdetÐSÑÒ"  Жx  .! ÑT S" Жx  .! ÑÓ× 
#
#
8
8
2
8.
,
œ ln -  ln detÐSÑ  lnŒ" 

#
#
8"
#
dove 2 œ Ð8  "ÑЖx  .! ÑT S" Жx  .! Ñ. Di conseguenza, la determinazione campionaria di V
risulta
< œ expÖ6Ò.! ß S  Жx  .! ÑЖx  .! ÑT Ó  6Жxß SÑ× œ Œ" 
2
8"
8Î#
.
Se L! è vera, 2 è la determinazione campionaria di una statistica L distribuita come una X.ß8"
di Hotelling dal momento che
–
–
–
–
L œ Ð8  "ÑÐk  .! ÑT f " Ðk  .! Ñ œ Ð8  "ÑÈ8Ðk  .! ÑT Ð8f Ñ" È8Ðk  .! Ñ
–
e che inoltre È8Ðk  .! Ñ µ R. Ð!ß DÑ e 8f µ [. ÐDß 8  "Ñ sono indipendenti. Tenendo
presente le proprietà della X di Hotelling date nella §A.4.2 si ha inoltre
Lµ
Ð8  "Ñ.
J.ß8. .
8.
Si noti che < è una funzione monotona decrescente di 2 e quindi i test costruiti su V e L sono
equivalenti. Dal momento che rifiutare L! per piccole determinazioni di V è equivalente a
rifiutare L! per determinazioni elevate di L , la regione critica del test risulta di conseguenza
g" œ œ2À 2 Ð8  "Ñ.
J.ß8.ß"α
8.
.
Se si è osservato il valore campionario 2 , il livello di significatività osservato risulta infine
α9== œ PrœJ.ß8. 8.
2
Ð8  "Ñ.
.
Anche se la distribuzione della statistica test è nota per campioni finiti, per grandi campioni
quando L! è vera la quantità
124
L'inferenza multivariata
 # ln < œ 8 lnŒ" 
2
8"
,
.
è la determinazione di una statistica  # ln V8 Ä ;#. , in quanto vi sono Ò.  . Ð.  "ÑÎ#Ó
parametri in totale, di cui Ò. Ð.  "ÑÎ#Ó da stimare sotto ipotesi di base.
Questa struttura di verifica di ipotesi può essere impiegata quando si dispone di dati appaiati,
in maniera analoga a quanto visto nella §4.3.6. Si supponga di considerare due matrici
campionarie Ðx"" ß á ß x"8 Ñ e Ðx#" ß á ß x#8 Ñ, relative ad un gruppo di 8 soggetti su cui sono state
osservate . variabili casuali prima e dopo un trattamento. Analogamente alla §4.3.6, l'obiettivo è
quello di valutare l'efficacia del trattamento. Dunque, si costruisce la nuova matrice campionaria
Ðd" ß á ß d8 Ñ, dove d3 œ x#3  x"3 , e si suppone che provenga da W µ R Ð.ß DÑ. La verifica
dell'efficacia del trattamento si riduce a considerare il sistema di ipotesi L! À . œ ! contro
L" À . Á ! e di conseguenza possono essere applicate le procedure di verifica di ipotesi discusse
in questa sezione.
Esempio 6.3.1. Per confrontare due tipi di vernice anticorrosione, sono stati verniciati 15 pezzi
di tubo di uguale lunghezza con la prima vernice e altri 15 sempre di uguale lunghezza con la
seconda vernice. Successivamente, i tubi sono stati sepolti per un certo tempo a coppie di due in
15 differenti locazioni. Su ogni tubo sono state rilevate successivamente due variabili legate alla
corrosione, ovvero la massima profondità delle macchie di corrosione e il numero di tali
macchie, e le relative osservazioni sono state riportate nella Tavola 6.3.1.
Tavola 6.3.1. Massima profondità (in millesimi di pollice) e numero di macchie di corrosione.
prima vernice
locazione profondità numero
"
($
$"
#
%$
"*
$
%(
##
%
&$
#'
&
&)
$'
'
%(
$!
(
&#
#*
)
$)
$'
*
'"
$%
"!
&'
$$
""
&'
"*
"#
$%
"*
"$
&&
#'
"%
'&
"&
"&
(&
")
seconda vernice
profondità numero
&"
$&
%"
"%
%$
"*
%"
#*
%(
$%
$#
#'
#%
"*
%$
$(
&$
#%
&#
#(
&(
"%
%%
"*
&(
$!
%!
(
')
"$
differenza
profondità numero
##
%
#
&
%
$
"#
$
""
#
"&
%
#)
"!
&
"
)
"!
%
'
"
&
 "!
!
#
%
#&
)
(
&
Fonte: Kramer e Jensen (1969)
Si vuole determinare se le due vernici sono ugualmente efficaci nel prevenire la corrosione,
ovvero si vuole verificare il sistema di ipotesi L! À . œ ! contro L" À . Á !. Dal momento che
per questi dati si può verificare che
)Þ!!!!
–
dœŒ
$Þ!''(
e
SœŒ
""$Þ%''( "&Þ*$$$
"&Þ*$$$ #!Þ$#)*
,
allora si ha 2 œ "!Þ)")*. Dunque il livello di significatività osservato risulta
Capitolo 6
125
α9== œ PrÐJ#ß"$ &Þ!#$"Ñ œ !Þ!#%# .
Dato che la significatività osservata è piuttosto bassa, si deve concludere che le due vernici
hanno diverse prestazioni, dal momento che si può respingere L! ad ogni livello di
significatività α  !Þ!#%#. Si ha inoltre  # ln < œ )Þ&))# e dunque
α8ß9== œ PrÐ;## )Þ&))#Ñ œ !Þ!"$' ,
…
un risultato che conferma le conclusioni precedenti.
6.3.3. Il test per la verifica di una matrice di varianza-covarianza diagonale a blocchi. Dato
un campione casuale da k µ R. Ð.ß DÑ, si supponga di voler verificare il sistema di ipotesi
L! À D œ D! œ diagÐD"" ß D## Ñ contro L" : D  !, dove D"" è la matrice di varianza-covarianza
relativa alle prime / componenti Ð\" ß á ß \/ Ñ del vettore casuale k , mentre D## è la matrice di
varianza-covarianza relativa alle restanti Ð.  /Ñ componenti Ð\/ ß \/" ß á ß \. Ñ del vettore
casuale k . Questa ipotesi di base implica l'indipendenza dei due gruppi di componenti. Si ha
@ œ ÖÐ.ß DÑÀ . − ‘. ß D  !×
e
@! œ ÖÐ.ß DÑÀ . − ‘. ß D œ D! œ diagÐD"" ß D## Ñ× .
Dai risultati dell'Esempio 6.2.2, è immediato ricavare che
max 6Ð.ß DÑ œ 6Жxß SÑ .
Ð.ßDÑ−@
Inoltre, si ha
8
ln detÐD! Ñ 
#
8
Ÿ ln -  ln detÐD! Ñ 
#
6Ð.ß D! Ñ œ ln - 
8
8 –
trÐD"
Ðx  .ÑT D" Жx  .Ñ
! SÑ 
#
#
8
–
trÐD"
! SÑ œ 6Ðxß D! Ñ œ max. 6Ð.ß D! Ñ ,
#
.−‘
dal momento che Жx  .ÑT D" Жx  .Ñ ! (vedi Esempio 6.2.2). Tenendo presente che
SœŒ
S""
S#"
S"#
S##
,
dove S"" è la matrice di varianza-covarianza campionaria relativa alle prime / componenti del
vettore casuale k , S## è la matrice di varianza-covarianza campionaria relativa alle restanti
Ð.  /Ñ componenti, mentre S"# œ ST#" è la matrice delle covarianze fra le prime / componenti e
le restanti Ð.  /Ñ componenti, allora
8
8
6Жxß D! Ñ œ ln -  ln detÒdiagÐD"" ß D## ÑÓ  trÒdiagÐD"" ß D## Ñ" SÓ
#
#
8
8
"
œ ln -  lnÒdetÐD"" ÑdetÐD## ÑÓ  trÒdiagÐD"
"" S"" ß D## S## ÑÓ
#
#
8
8
8
8
"
œ ln -  ln detÐD"" Ñ  trÐD"" S"" Ñ  ln detÐD## Ñ  trÐD"
## S## Ñ .
#
#
#
#
Adoperando nella precedente espressione due volte la disugualianza ottenuta nell'Esempio 6.2.2,
rispettivamente con D œ S"" e D œ S## , si ottiene
126
L'inferenza multivariata
8
8/ 8
8Ð.  /Ñ
6Жxß D! Ñ Ÿ ln -  ln detÐS"" Ñ 
 ln detÐS## Ñ 
#
#
#
#
8
8.
œ ln -  ln detÒdiagÐS"" ß S## ÑÓ 
œ 6Ò–xß diagÐS"" ß S## ÑÓ œ max 6Ð.ß DÑ .
#
#
Ð.ßDÑ−@!
Di conseguenza, la determinazione campionaria di V risulta
< œ expÖ6Ò–xß diagÐS"" ß S## ÑÓ  6Жxß SÑ× œ ”
detÐS)
•
detÐS"" ÑdetÐS## Ñ
8Î#
œ -8Î# ,
dove
-œ
detÐS)
.
detÐS"" ÑdetÐS## Ñ
Per le proprietà dei determinanti si ha
detÐSÑ œ detÐS"" ÑdetÐS##  S#" S"
"" S"# Ñ ,
da cui
-œ
detÐS##  S#" S"
detÐEÑ
"" S"# Ñ
œ
,
detÐS## Ñ
detÐE  HÑ
"
dove E œ 8ÐS##  S#" S"
"" S"# Ñ e H œ 8S#" S"" S"# . Dal momento che 8f µ [. ÐDß 8  "Ñ,
allora per la proprietà ii) della §6.3.6, E e H sono le determinazioni campionarie di due matrici
casuali X µ [./ ÐD## ß 8  "  /Ñ e [ µ [./ ÐD## ß /Ñ indipendenti. Dunque, se L! è vera, è la determinazione campionaria della statistica
Lœ
detÐX Ñ
,
detÐX  [Ñ
distribuita come una L./ß8"/ß/ di Wilks. Inoltre, < è una funzione monotona crescente di - e
quindi i test costruiti su V e L sono equivalenti. Dal momento che rifiutare L! per piccole
determinazioni di V è equivalente a rifiutare per piccole determinazioni di L, la regione critica
del test è data da
g" œ Ö-À - Ÿ L./ß8"/ß/ßα × .
Se si è osservato il valore campionario -, il livello di significatività osservato risulta infine
α9== œ PrÐL./ß8"/ß/ Ÿ -Ñ .
Anche se la distribuzione della statistica test è nota per campioni finiti, per grandi campioni,
quando L! è vera, la quantità
 # ln < œ 8 ln”
detÐS"" ÑdetÐS## Ñ
•,
detÐS)
.
è la determinazione di una statistica  # ln V8 Ä ;#/Ð./Ñ , in quanto vi sono Ò.  . Ð.  "ÑÎ#Ó
parametri in totale, di cui Ò.  /Ð/  "ÑÎ#  Ð.  /ÑÐ.  /  "ÑÎ#Ó da stimare sotto ipotesi di
base. Di conseguenza, la regione critica per grandi campioni è data da
g8ß" œ Ö<À  # ln < ;/#Ð./Ñß"α × ,
mentre la significatività osservata per grandi campioni risulta
Capitolo 6
127
α8ß9== œ PrÐ;/#Ð./Ñ  # ln <Ñ .
Esempio 6.3.2. Sono state considerate 25 famiglie in cui erano presenti coppie di fratelli. Su
ogni fratello di ogni coppia sono state rilevate la lunghezza e il diametro della testa, ottenendo le
osservazioni della Tavola 6.3.1.
Tavola 6.3.2. Lunghezza e diametro della testa di fratelli (in cm).
famiglia
"
#
$
%
&
'
(
)
*
"!
""
"#
"$
"%
"&
"'
"(
")
"*
#!
#"
##
#$
#%
#&
primo fratello
lunghezza diametro
"*"
"&&
"*&
"%*
")"
"%)
")$
"&$
"('
"%%
#!)
"&(
")*
"&!
"*(
"&*
"))
"&#
"*#
"&!
"(*
"&)
")$
"%(
"(%
"&!
"*!
"&*
"))
"&"
"'$
"$(
"*&
"&&
")'
"&$
")"
"%&
"(&
"%!
"*#
"&%
"(%
"%$
"('
"$*
"*(
"'(
"*!
"'$
secondo fratello
lunghezza diametro
"(*
"%&
#!"
"&#
")&
"%*
"))
"%*
"("
"%#
"*#
"&#
"*!
"%*
")*
"&#
"*(
"&*
")(
"&"
")'
"%)
"(%
"%(
")&
"&#
"*&
"&(
")(
"&)
"'"
"$!
")$
"&)
"($
"%)
")#
"%'
"'&
"$(
")&
"&#
"()
"%(
"('
"%$
#!!
"&)
")(
"&!
Fonte: Frets (1921)
Si vuole verificare se le misurazioni relative al primo fratello sono indipendenti dalle quelle
relative al secondo fratello, ovvero si vuole verificare il sistema di ipotesi
L! À D œ diagÐD"" ß D## Ñ contro L" : D  !, dove D"" è la matrice di varianza-covarianza
relativa alle componenti Ð\" ß \# Ñ, mentre D## è la matrice di varianza-covarianza relativa alle
restanti componenti Ð\$ ß \% Ñ. Risulta
Î ")&Þ(# Ñ
"&"Þ"# Ó
–x œ Ð
Ð
Ó.
")$Þ)%
Ï "%*Þ#% Ò
e
Inoltre si ha
Î *"Þ%)"'
Ð &!Þ(&$'
SœÐ
''Þ)(&#
Ï %%Þ#'(#
&!Þ(&$'
&#Þ")&'
%*Þ#&*#
$$Þ'&"#
''Þ)(&#
%*Þ#&*#
*'Þ((%%
&%Þ#()%
%%Þ#'(# Ñ
$$Þ'&"# Ó
Ó.
&%Þ#()%
%$Þ##%% Ò
128
L'inferenza multivariata
S"" œ Œ
*"Þ%)"'
&!Þ(&$'
&!Þ($$'
&#Þ")&)
*'Þ((%%
S## œ Œ
&%Þ#()%
&%Þ#()%
%$Þ##%%
e
.
Dal momento che detÐS) œ "!#&#&, detÐS"" Ñ œ "#$'Þ') e detÐS## Ñ œ #"*)Þ!*, allora risulta
- œ !Þ$((#. Tenendo presenti i risultati della §A.4.2, il livello di significatività osservato è dato
da
α9== œ PrÐL#ß##ß# Ÿ !Þ$((#Ñ œ PrÐJ%ß%# 'Þ&*'%Ñ ¶ ! .
Dal momento che la significatività osservata estremamente bassa, si deve concludere che i due
gruppi di variabili non sono indipendenti. Inoltre si ha  # ln < œ 'Þ&*'% e dunque
α8ß9== œ PrÐ;#% #%Þ$((Ñ ¶ ! ,
…
un risultato che conferma le conclusioni precedenti.
6.3.4. Il test per la verifica di una matrice di varianza-covarianza diagonale. Dato un
campione casuale da k µ R. Ð.ß DÑ, si supponga di voler verificare il sistema di ipotesi
L! À D œ D! œ diagÐ5"" ß á ß 5.. Ñ contro L" : D  !. Questa ipotesi di base implica
l'indipendenza delle componenti del vettore k . Si ha
@ œ ÖÐ.ß DÑÀ . − ‘. ß D  !×
e
@! œ ÖÐ.ß DÑÀ . − ‘. ß D œ D! œ diagÐ5"" ß á ß 5.. Ñ× .
Dai risultati dell'Esempio 6.2.2, si ricava che
max 6Ð.ß DÑ œ 6Жxß SÑ .
Ð.ßDÑ−@
In completa analogia con la §6.3.3 si ha
6Ð.ß D! Ñ Ÿ 6Жxß D! Ñ œ max 6Ð.ß D! Ñ .
.−‘.
Inoltre, tenendo presente la disugualianza ottenuta nell'Esempio 3.1.2 si ha
8
8
6Жxß D! Ñ œ ln -  ln detÒdiagÐ5"" ß á ß 5.. ÑÓ  trÒdiagÐ5"" ß á ß 5.. Ñ" SÓ
#
#
.
.
=44
=44
8
8
8 .
œ ln -  ln$ 544 
œ ln - 
Œ  ln 544 
# 4œ"
# 4œ" 544
# 4œ"
544
Ÿ ln - 
8
#
.
Ð  ln =44  "Ñ œ ln - 
4œ"
8
8.
ln detÒdiagÐSÑÓ 
#
#
œ 6Ò–xß diagÐSÑÓ œ max 6Ð.ß DÑ ,
Ð.ßDÑ−@!
per cui la determinazione campionaria di V risulta
< œ expÖ6Ò–xß diagÐSÑÓ  6Жxß SÑ× œ œ
detÒdiagÐSÑÓ
detÐS)
8Î#
.
Capitolo 6
129
In questo caso è complesso ottenere la distribuzione esatta di V o di una sua trasformata.
Tuttavia, per grandi campioni, quando L! è vera, la quantità
 # ln < œ 8 lnœ
detÒdiagÐSÑÓ
detÐS)
.
è la determinazione di una statistica  # ln V8 Ä ;#.Ð."ÑÎ# , in quanto vi sono in totale
Ò.  . Ð.  "ÑÎ#Ó parametri, di cui #. da stimare sotto ipotesi di base. Di conseguenza, la
regione critica per grandi campioni è data da
g8ß" œ Ö<À  # ln < ;.# Ð."ÑÎ#ß"α × ,
mentre la significatività osservata per grandi campioni risulta
α8ß9== œ PrÐ;.# Ð."ÑÎ#  # ln <Ñ .
6.3.5. Il test per la verifica della sfericità. Dato un campione casuale da k µ R. Ð.ß DÑ, si
supponga di voler verificare il sistema di ipotesi L! À D œ D! œ 5I. contro L" À D  !. Questa
ipotesi di base implica l'indipendenza e l'omoschedasticità delle componenti del vettore k e per
questo motivo è detta ipotesi di sfericità . Si ha
@ œ ÖÐ.ß DÑÀ . − ‘. ß D  !×
e
@! œ ÖÐ.ß DÑÀ . − ‘. ß D œ D! œ 5I. × .
Dai risultati dell'Esempio 6.2.2, si ricava che
max 6Ð.ß DÑ œ 6Жxß SÑ .
Ð.ßDÑ−@
In completa analogia con la §6.3.3 risulta
6Ð.ß D! Ñ Ÿ 6Жxß D! Ñ œ max 6Ð.ß D! Ñ .
.−‘.
Inoltre, tenendo presente la disugualianza ottenuta nell'Esempio 3.1.2 si ha
8.
8
8.
8.
6Жxß D! Ñ œ ln - 
ln 5 
trÐSÑ Ÿ ln - 
ln 5
s
#
#5
#
#
8
8.
œ ln -  ln detÐ5
œ 6Жxß 5
s I. Ñ 
s I. Ñ œ max 6Ð.ß DÑ ,
#
#
Ð.ßDÑ−@!
dove 5
s œ . " trÐSÑ. La determinazione campionaria di V risulta dunque
5
s.
–
–
< œ expÒ6Ðxß 5
s I. Ñ  6Ðxß SÑÓ œ –
detÐS) —
8Î#
.
In questo caso è complesso ottenere la distribuzione esatta di V o di una sua trasformata.
Tuttavia, per grandi campioni, quando L! è vera, la quantità
5
s.
 # ln < œ 8 ln–
,
detÐS) —
130
L'inferenza multivariata
.
è la determinazione di una statistica  # ln V8 Ä ;#Ð.#ÑÐ."ÑÎ# , in quanto vi sono in totale
Ò.  . Ð.  "ÑÎ#Ó parametri, di cui Ð.  "Ñ da stimare sotto ipotesi di base. Di conseguenza, la
regione critica per grandi campioni è data da
g8ß" œ Ö<À  # ln < ;#Ð.#ÑÐ."ÑÎ#ß"α × ,
mentre la significatività osservata per grandi campioni risulta
α8ß9== œ PrÐ;#Ð.#ÑÐ."ÑÎ#  # ln <Ñ .
6.3.6. Il test per la verifica dell'omogeneità degli ultimi Ð.  /Ñ autovalori. Dato un
campione casuale da k µ R. Ð.ß DÑ, supponiamo che k œ l  X , dove l µ R. Ð.ß FÑ e
X µ R. Ð!ß 5# I. Ñ sono vettori casuali indipendenti. Inoltre, supponiamo che <ÐFÑ œ /  . ,
ovvero il vettore casuale l è degenere. Questa situazione campionaria si può verificare in
pratica quando, pur essendo il vettore casuale l degenere, a causa di errori stocastici di misura
X , il vettore casuale risultante k non appare degenere. In questo caso, pur essendo solo / le
variabili che descrivono il fenomeno, si può essere indotti a considerarne . , rendendo
inutilmente complessa l'analisi statistica.
Se A e > rappresentano rispettivamente la matrice diagonale degli autovalori e la matrice
degli autovettori di D, allora risulta D œ >A>T . Tenendo presente l'indipendenza di l e X , si
ha la seguente ulteriore rappresentazione di D
D œ F  5# I. œ >?>T  5# >>T œ >Ð?  5# I. Ñ>T ,
dove ? rappresenta la matrice diagonale degli autovalori di F. Quindi, risulta che
A œ ?  5# I. . Tuttavia, solo i primi / autovalori di F sono non nulli, per cui
? œ diagÐ?" ß !Ñ ,
dove ?" œ diagÐ$" ß á ß $/ Ñ, ovvero
A œ diagÐA" ß -I./ Ñ ,
dove A" œ diagÐ-" ß á ß -/ Ñ œ diagÐ$"  5# ß á ß $/  5# Ñ mentre - œ 5 # .
Al fine di decidere se esistono componenti ridondanti nel vettore casuale k , si deve dunque
verificare il sistema di ipotesi L! À D œ >diagÐA" ß -I./ Ñ>T contro L" À D œ >A>T . Tenendo
presente la notazione dell'Esempio 6.2.3, si ha
@ œ ÖÐ.ß Aß >ÑÀ . − ‘. ß A − ƒß > − ×
e
@! œ ÖÐ.ß DÑÀ Ð.ß Aß >ÑÀ . − ‘. ß A − ƒ" ß > − × .
Sulla base dei risultati dell'Esempio 6.2.3 si ha dunque
8
8.
6Ð.ß Aß >Ñ œ 6Жxß Lß GÑ œ ln -  ln detÐLÑ 
,
#
#
.−‘. ßA−ƒß>−
max
mentre
max
.−‘. ßA−ƒ" ß>−
sß >
sÑ .
6Ð.ß Aß >Ñ œ 6Жxß A
La determinazione campionaria di V risulta
Capitolo 6
131
–
detÒdiagÐL" ß 6I./ ÑÓ
–
–
s
s
< œ expÒ6Ðxß Aß >Ñ  6Ðxß Lß GÑÓ œ œ
detÐLÑ
8Î#
–
6
œ Œ~
6
8Ð./ÑÎ#
~
/
dove 6 œ Ð#.4œ"
64 Ñ"ÎÐ./Ñ rappresenta la media geometrica degli ultimi Ð.  /Ñ autovalori
campionari. In questo caso è complesso ottenere la distribuzione esatta di V o di una sua
trasformata. Tuttavia, per grandi campioni, quando L! è vera, la quantità
–
6
 # ln < œ 8Ð.  /Ñ lnŒ ~ ,
6
.
è la determinazione di una statistica  # ln V8 Ä ;#Ð./#ÑÐ./"ÑÎ# . Infatti, sotto ipotesi di base
D è determinata da / autovalori distinti, un autovalore coincidente ed / autovettori a .
componenti corrispondenti agli autovalori distinti, i quali sono inoltre vincolati da Ò/Ð/  "ÑÎ#Ó
condizioni di ortonormalità. Dunque, considerando anche il vettore delle medie, sotto ipotesi di
base vi sono Ò.  /  "  ./  /Ð/  "ÑÎ#Ó parametri in totale. Inoltre, sotto ipotesi alternativa
D è determinata da . autovalori e . autovettori, i quali sono inoltre vincolati da Ò. Ð.  "ÑÎ#Ó
condizioni di ortonormalità. Di conseguenza, vi sono Ò.  .  . #  . Ð.  "ÑÎ#Ó œ
Ò.  . Ð.  "ÑÎ#Ó parametri in totale. La regione critica per grandi campioni è dunque data da
g8ß" œ Ö<À  # ln< ;#Ð./#ÑÐ./"ÑÎ#ß"α × ,
mentre la significatività osservata per grandi campioni risulta
α8ß9== œ PrÐ;#Ð./#ÑÐ./"ÑÎ#  # ln <Ñ .
6.3.6. Il test di Hotelling a due campioni. Si supponga di considerare due campioni casuali
indipendenti Ðx"" ß á ß x"8" Ñ e Ðx#" ß á ß x#8# Ñ rispettivamente dai vettori casuali k" µ R. Ð." ß DÑ
e k# µ R. Ð.# ß DÑ, ovvero si suppone l'omoschedasticità dei due vettori casuali. Sia inoltre
8 œ #6œ" 86 la numerosità campionaria globale. In questo caso, il modello statistico è dato da
Y." ß.# ßD œ œ08 À 08 Ðx"" ß á ß x"8" ß x#" ß á ß x#87 à ." ß .# ß DÑ œ
œ $$ detÐ#1DÑ"Î# exp” 
#
86
6œ" 3œ"
"
Ðx63  .6 ÑT D" Ðx63  .6 Ñ•
#
.
dove ." ß .# − ‘. e D  !. Si vuole verificare il sistema di ipotesi L! À ." œ .# œ . contro
L" À .1 Á .2 . Si ha
@ œ ÖÐ." ß .# ß DÑÀ ." ß .# − ‘. ß D  !×
e
@! œ ÖÐ." ß .# DÑÀ ." œ .# ß D  !× .
Se –x6 e S6 rappresentano rispettivamente le realizzazioni campionarie del vettore medio
–
campionario k 6 e della matrice di varianza-covarianza campionaria f6 per l'6-esimo campione,
allora la funzione di log-verosimiglianza è data da
132
L'inferenza multivariata
#
6Ð." ß .# ß DÑ œ ln - 
6œ"
œ ln - 
’
86
86
86
ln detÐDÑ 
trÐD" S6 Ñ  Жx6  .6 ÑT D" Жx6  .6 Ñ“
#
#
#
8
8
"
ln detÐDÑ  trÐD" WÑ 
#
#
#
#
86 Жx6  .6 ÑT D" Жx6  .6 Ñ ,
6œ"
dove
Wœ
"
8
#
86 S6 .
6œ"
In maniera analoga all'Esempio 6.2.2, adoperando la disugualianza del medesimo esempio con
D œ W , si ha
8
8
6Ð." ß .# ß DÑ Ÿ ln -  ln detÐDÑ  trÐD" WÑ œ 6Жx" ß –x# ß DÑ œ max 6Ð." ß .# ß DÑ
#
#
." ß.# −‘.
8
8.
Ÿ ln -  ln detÐWÑ 
œ 6Жx" ß –x# ß WÑ œ max 6Ð." ß .# ß DÑ .
#
#
Ð." ß.# ßDÑ−@
Inoltre, tenendo presente che se L! è vera si dispone in effetti di un unico campione da
R. Ð.ß DÑ, si ottiene
6Ð. ß .ß DÑ Ÿ 6Жxß –xß SÑ œ
max 6Ð." ß .# ß DÑ ,
Ð." ß.# ßDÑ−@ !
dove
–x œ "
8
#
86 –x6
6œ"
e
86
#
"
Sœ
8
Ðx63  –xÑÐx63  –xÑT .
6œ" 3œ"
Si ha
"
Sœ
8
œ
œ
"
8
"
8
#
86
6œ" 3œ"
# 86
6œ" 3œ"
#
ÒÐx63  –x6 Ñ  Жx6  –xÑÓÒÐx63  –x6 Ñ  Жx6  –xÑÓT
"
Ðx63  –x6 ÑÐx63  –x6 ÑT 
8
86 S6 
6œ"
dove si è tenuto presente che
"
8
#
86
Жx6  –xÑЖx6  –xÑT
6œ" 3œ"
86 Жx6  –xÑЖx6  –xÑT œ W  B ,
6œ"
86
3œ" Ðx63
Bœ
#
 –x6 Ñ œ ! e dove si è posto
"
8
#
86 Жx6  –xÑЖx6  –xÑT .
6œ"
La precedente relazione è evidentemente una generalizzazione della relazione ottenuta nella
§4.3.4, ovvero costituisce la scomposizione della matrice di varianza-covarianza totale S nella
matrice di varianza-covarianza all'interno dei gruppi W e nella matrice di varianza-covarianza
fra i gruppi B. È facile verificare che
Capitolo 6
133
Bœ
8" 8# –
Ðx#  –x" ÑЖx#  –x" ÑT .
8#
Dunque,
8
8
"
6Жxß –xß SÑ œ ln -  ln detÐSÑ  trÐS" WÑ 
#
#
#
œ ln - 
8
8
"
ln detÐSÑ  trÐS" WÑ 
#
#
#
8
œ ln -  ln detÐSÑ 
#
8
œ ln -  ln detÐSÑ 
#
8
œ ln -  ln detÐSÑ 
#
#
6œ"
#
86 Жx6  –xÑT S" Жx6  –xÑ
86 trÒS" Жx6  –xÑЖx6  –xÑT Ó
6œ"
#
8
"
"
"
trÐS WÑ  tr–S
86 Жx6  –xÑЖx6  –xÑT —
#
#
6œ"
8
8
trÐS" WÑ  trÐS" BÑ
#
#
8
8
8.
trÒS" ÐW  BÑÓ œ ln -  ln detÐSÑ 
.
#
#
#
Di conseguenza, la determinazione campionaria di V è data da
< œ expÒ6Жxß –xß SÑ  6Жx" ß –x# ß WÑÓ
œ exp’ 
8Î#
8
8
detÐWÑ
8Î#
ln detÐSÑ  ln detÐWÑ“ œ ”
• œ- ,
#
#
detÐW  BÑ
dove
-œ
detÐWÑ
.
detÐW  BÑ
Le matrici B e W sono le determinazioni campionarie di due matrici casuali U e j
indipendenti. Questo risultato è una generalizzazione dell'Esempio 6.1.3, in quanto le statistiche
U e j sono trasformate rispettivamente dei vettori medi campionari e delle matrici di varianzacovarianza campionarie relative a matrici campionarie indipendenti. Inoltre, dal momento che
#
8j œ
86 f6 ,
6œ"
dove le matrici casuali 86 f6 µ [. ÐDß 86  "Ñ sono indipendenti in quanto i campioni sono
indipendenti, per la proprietà 3) della §A.4.2, si ha 8j µ [. ÐDß 8  #Ñ. Essendo
8f œ 8j  8U
e 8f µ [. ÐDß 8  "Ñ, ancora per la proprietà i) della §A.4.2 si deve necessariamente
concludere che 8U µ [. ÐDß "Ñ. Dunque, se L! è vera, - è la determinazione campionaria della
statistica
Lœ
detÐj Ñ
,
detÐj  U Ñ
distribuita come una L di Wilks con Ð8  #Ñ e " gradi di libertà. Inoltre < è una funzione
monotona crescente di - e quindi i test costruiti su V e L sono equivalenti. Dunque, dal
momento che rifiutare L! per piccole determinazioni di V è equivalente a rifiutare per piccole
determinazioni di L, la regione critica del test è data da
g" œ Ö-À - Ÿ L.ß8#ß"ßα × .
Se si è osservato il valore campionario -, il livello di significatività osservato risulta infine
134
L'inferenza multivariata
α9== œ PrÐL.ß8#ß" Ÿ -Ñ .
Partendo dall'espressione di <, si può ottenere una formulazione alternativa della statistica test.
Infatti, tenendo presente la rappresentazione di B, si ha
<œ”
detÐW  BÑ
œ ÒdetÐW" ÑdetÐW  BÑÓ8Î# œ detÐI.  W" BÑ8Î#
•
detÐWÑ
8Î#
8" 8 #
œ det’I.  # W" Жx#  –x" ÑЖx#  –x" ÑT “
8
8Î#
8Î#
8" 8 # –
2
" –
T
–
–
œ ’"  # Ðx#  x" Ñ W Ðx#  x" Ñ“
œ Œ" 
,
8
8#
8Î#
dove
2œ
8" 8# Ð8  #Ñ –
Ðx#  –x" ÑT W" Жx#  –x" Ñ .
8#
La quantità È8" 8# Î8Жx#  –x" Ñ è la determinazione campionaria di un vettore casuale
Ê
8" 8# –
–
Ðk #  k " Ñ µ R. Ð!ß DÑ ,
8
–
–
per la proprietà i) della §A.4.1, dal momento che k " e k # sono indipendenti in quanto i
–
campioni sono indipendenti e È8Ðk 6  .Ñ µ R. Ð!ß DÑ. Inoltre, il precedente vettore casuale è
indipendente da j in quanto le due statistiche sono trasformate rispettivamente dei vettori medi
campionari e delle matrici di varianza-covarianza campionarie relative a matrici campionarie
indipendenti. Dunque, se L! è vera, 2 è la determinazione campionaria di una statistica L
distribuita come una X.ß8# di Hotelling dal momento che
8" 8# Ð8  #Ñ –
–
–
–
Ðk #  k " ÑT j " Ðk #  k " Ñ
#
8
8" 8# –
8" 8 # –
–
–
œ Ð8  #ÑÊ
Ðk #  k " ÑT Ð8j Ñ" Ê
Ðk #  k " Ñ .
8
8
Lœ
Tenendo presente le proprietà della statistica di Hotelling si ha inoltre
Lµ
Ð8  #Ñ.
J.ß8." .
8."
La quantità < è una funzione monotona decrescente di 2 e quindi i test costruiti su V e L sono
equivalenti. Dal momento che rifiutare L! per piccole determinazioni di V è equivalente a
rifiutare L! per determinazioni elevate di L , la regione critica del test risulta di conseguenza
g" œ œ2À 2 Ð8  #Ñ.
J.ß8."ß"α
8."
.
Se si è osservato il valore campionario 2 , il livello di significatività osservato risulta infine
α9== œ PrœJ.ß8." 8."
2
Ð8  #Ñ.
.
Anche se la distribuzione della statistica test è nota per campioni finiti, per grandi campioni,
quando L! è vera, la quantità
 # ln < œ 8 lnŒ" 
2
8#
,
Capitolo 6
135
.
è la determinazione di una statistica  # ln V8 Ä ;#. , in quanto vi sono Ò#.  . Ð.  "ÑÎ#Ó
parametri in totale, di cui Ò.  . Ð.  "ÑÎ#Ó da stimare sotto ipotesi di base.
Esempio 6.3.3. Sono stati considerati 20 atleti di valore internazionale di cui 12 fondisti e 8
maratoneti. Su ogni atleta è stato misurato la massa grassa, la massa magra, il VO2 durante lo
sforzo massimale, la concentrazione di acido lattico durante uno sforzo sub-massimale e il VO2
durante lo sforzo sub-massimale e le osservazioni sono state riportate nella Tavola 6.3.3. Per
inciso, si noti che il VO2 costituisce una misura dell'efficienza aerobica di un atleta.
Tavola 6.3.3. Caratteristiche fisiologiche dei fondisti e dei maratoneti.
fondisti
"
#
$
%
&
'
(
)
*
"!
""
"#
massa
grassa
)Þ$
$Þ$
#Þ*
"Þ%
(Þ"
$Þ#
%Þ"
"Þ)
%Þ!
$Þ)
%Þ(
!Þ*
massa
magra
'&Þ)
&(Þ'
&*Þ*
&'Þ'
&*Þ#
&)Þ*
'&Þ)
'(Þ'
%*Þ'
'#Þ&
&%Þ&
'!Þ"
VO2
max
&Þ((
%Þ&"
%Þ)#
%Þ$)
&Þ$!
%Þ*'
&Þ%"
&Þ#*
%Þ$$
&Þ'!
%Þ'(
&Þ!%
acido
lattico
$!
$$
%'
$(
#'
#%
"*
$#
$*
"'
#%
$"
VO2
maratoneti
submax
%Þ("
"
%Þ"&
#
%Þ#!
$
$Þ**
%
%Þ#*
&
%Þ!(
'
%Þ&(
(
%Þ%%
)
$Þ&$
%Þ(*
$Þ*'
%Þ"#
massa
grassa
&Þ&
%Þ)
#Þ"
#Þ)
"Þ%
#Þ!
&Þ)
"Þ*
massa
magra
&)Þ(
'!Þ#
&$Þ(
'"Þ&
&&Þ'
&*Þ$
&&Þ&
'%Þ#
VO2
max
&Þ!(
%Þ(%
%Þ!%
%Þ((
%Þ$*
%Þ$(
%Þ%(
%Þ)%
acido
lattico
"(
$%
$)
%!
%%
"*
#(
#*
VO2
submax
%Þ$#
%Þ!!
$Þ%!
%Þ#!
$Þ**
$Þ("
$Þ)&
%Þ"!
Fonte: Pollock, Jackson e Pate (1980)
Si vuole verificare se i due gruppi di atleti hanno simili caratteristiche fisiologiche, ovvero si
vuole verificare il sistema di ipotesi L! À ." œ .# œ . contro L" À ." Á .# . Si ha
Î $Þ(*"( Ñ
Ð &*Þ)%"( Ó
Ó
–x" œ Ð
Ð &Þ!!'( Ó
Ð
Ó
#*Þ(&!!
Ï %Þ#$&! Ò
e
Î $Þ#)(& Ñ
Ð &)Þ&)(& Ó
Ó
–x# œ Ð
Ð %Þ&)'$ Ó .
Ð
Ó
$"Þ!!!!
Ï $Þ*%'$ Ò
Inoltre, risulta
Î
Ð
Ð
S" œ Ð
Ð
%Þ$!&)
"Þ!'%&
!Þ%%('
 %Þ'(("
Ï !Þ##'$
e
"Þ!'%&
#%Þ!%*"
"Þ)(""
 "$Þ*%(*
"Þ%("#
!Þ%%('
"Þ)(""
!Þ#!*%
 #Þ"'%#
!Þ"$*)
 %Þ'(("
 "$Þ*%(*
 #Þ"'%#
'(Þ!#!)
 "Þ%'(*
!Þ##'$ Ñ
"Þ%("# Ó
Ó
!Þ"$*) Ó
Ó
 "Þ%'(*
!Þ""%% Ò
136
L'inferenza multivariata
Î #Þ()'"
Ð  !Þ%')*
Ð
S# œ Ð !Þ#$$$
Ð
 'Þ*$(&
Ï !Þ"&!!
 !Þ%')*
"!Þ')""
!Þ("&$
 'Þ$(&!
!Þ&%*)
!Þ#$$$
!Þ("&$
!Þ!*%"
 "Þ!'!!
!Þ!()$
 'Þ(&*$
 'Þ$(&!
 "Þ!'!!
)$Þ&!!!
 !Þ$*"$
!Þ$'"*
"Þ%!))
!Þ"'$$
 "Þ(##&
!Þ""&#
 &Þ&)"#
 "!Þ*"))
 "Þ(##&
($Þ'"#&
 "Þ!$($
Dalle precedenti espressioni risulta
Î
Ð
Ð
WœÐ
Ð
$Þ'*(*
!Þ%&"#
!Þ$'"*
 &Þ&)"#
Ï !Þ"*&)
e
Î
Ð
Ð
BœÐ
Ð
!Þ!'"!
!Þ"&")
!Þ!&!*
 !Þ"&"$
Ï !Þ!$%*
!Þ%&"#
")Þ(!"*
"Þ%!))
 "!Þ*"))
"Þ"!#(
!Þ"&")
!Þ$((&
!Þ"#'&
 !Þ$('$
!Þ!)'*
!Þ!&!*
!Þ"#'&
!Þ!%#%
 !Þ"#'"
!Þ!#*"
 !Þ"&"$
 !Þ$('$
 !Þ"#'"
!Þ$(&!
 !Þ!)''
!Þ"&!! Ñ
!Þ&%*) Ó
Ó
!Þ!()$ Ó .
Ó
 !Þ$*"$
!Þ!(%& Ò
!Þ"*&) Ñ
"Þ"!#( Ó
Ó
!Þ""&# Ó
Ó
 "Þ!$(#
!Þ!*)% Ò
!Þ!$%* Ñ
!Þ!)'* Ó
Ó
!Þ!#*" Ó ,
Ó
 !Þ!)''
!Þ!#!! Ò
per cui - œ !Þ&%**. Di conseguenza il livello di significatività osservato è dato da
α9== œ PrÐL&ß")ß" Ÿ !Þ&%**Ñ œ PrÐJ"!ß#) #Þ#*#"Ñ œ !Þ!%"! .
Visto il livello di significatività osservata, vi è una certa indicazione a rifiutare l'ipotesi di base,
ovvero i due gruppi di atleti sembrano differire sulla base delle caratteristiche fisiologiche. Si ha
inoltre  # ln < œ ""Þ*&"& e di conseguenza la significatività osservata per grandi campioni
risulta
α8ß9== œ PrÐ;#& ""Þ*'"&Ñ œ !Þ!$&$ ,
…
un risultato che conferma le conclusioni precedenti.
6.3.7. L'analisi multivariata della varianza. Si supponga di considerare 7 campioni casuali
indipendenti Ðx6" ß á ß x686 Ñ rispettivamente dai vettori casuali k6 µ R. Ð.6 ß DÑ, ovvero da 7
vettori casuali normali omoschedastici. Sia inoltre 8 œ 7
6œ" 86 la numerosità campionaria
globale. Il modello statistico è dato da
Y." ßáß.7 ßD œ œ08 À 08 Ðx"" ß á ß x"8" ß á ß x7" ß á ß x787 à ." ß á ß .7 ß DÑ œ
œ $$ detÐ#1DÑ"Î# exp” 
7 86
6œ" 3œ"
"
Ðx63  .6 ÑT D" Ðx63  .6 Ñ•
#
,
dove .6 − ‘. e D  !. Si vuole verificare il sistema di ipotesi L! À ." œ á œ .7 œ . contro
L" À .6 Á .4 , b6 Á 4 œ "ß á ß 7. Dunque, si ha
@ œ ÖÐ." ß á ß .7 ß DÑÀ .6 − ‘. ß D  !ß 6 œ "ß á ß 7×
e
@! œ ÖÐ." ß á ß .7 ß DÑÀ ." œ á œ .7 ß D  !× .
Capitolo 6
137
Se –x6 e S6 rappresentano rispettivamente le realizzazioni campionarie del vettore medio
–
campionario k 6 e della matrice di varianza-covarianza campionaria f6 per l'l-esimo campione,
estendendo in maniera ovvia i risultati della §6.3.6, la funzione di log-verosimiglianza è data da
8
8
"
6Ð." ß á ß .7 ß DÑ œ ln -  ln detÐDÑ  trÐD" WÑ 
#
#
#
7
86 Жx6  .6 ÑT D" Жx6  .6 Ñ ,
6œ"
dove
Wœ
"
8
7
86 S6 .
6œ"
In maniera analoga alla §6.3.6, si ha
8
8
6Ð." ß á ß .7 ß DÑ Ÿ ln -  ln detÐDÑ  trÐD" WÑ
#
#
œ 6Жx" ß á ß –x7 ß DÑ œ max
6Ð." ß á ß .7 ß DÑ
." ßáß.7 −‘.
8
8.
ln detÐWÑ 
œ 6Жx" ß á ß –x7 ß WÑ
#
#
max
6Ð." ß á ß .7 ß DÑ .
Ÿ ln - 
œ
Ð." ßáß.7 ßDÑ−@
Inoltre, tenendo presente che se L! è vera si dispone in effetti di un unico campione da una
R. Ð.ß DÑ, allora si ottiene
6Ð. ß á ß .ß DÑ Ÿ 6Жxß á ß –xß SÑ œ
max
6Ð." ß á ß .7 ß DÑ ,
Ð." ßáß.7 ßDÑ−@ !
dove
–x œ "
8
7
86 –x6
6œ"
e
"
Sœ
8
7
86
Ðx63  –xÑÐx63  –xÑT .
6œ" 3œ"
In completa analogia con la §6.3.6 si ha S œ W  B, dove
Bœ
"
8
7
86 Жx6  –xÑЖx6  –xÑT .
6œ"
Dunque,
8
8.
6Жxß á ß –xß SÑ œ ln -  ln detÐSÑ 
.
#
#
Di conseguenza, la determinazione campionaria di V è data da
< œ expÒ6Жxß á ß –xß SÑ  6Жx" ß á ß –x7 ß WÑÓ
8Î#
8
8
detÐWÑ
8Î#
œ exp’  ln detÐSÑ  ln detÐWÑ“ œ ”
• œ- ,
#
#
detÐW  BÑ
dove
138
L'inferenza multivariata
-œ
detÐWÑ
.
detÐW  BÑ
In maniera analoga alla §6.3.6, B e W sono le determinazioni campionarie di due matrici casuali
U e j indipendenti. Inoltre, dal momento che
7
8j œ
86 f6 ,
6œ"
dove le matrici casuali 86 f6 µ [. ÐDß 86  "Ñ sono indipendenti in quanto i campioni sono
indipendenti, per la proprietà i) della §A.4.1, si ha 8j µ [. ÐDß 8  7Ñ. Dal momento che
risulta
8f œ 8j  8U
e che 8f µ [. ÐDß 8  "Ñ, ancora per la proprietà i) della §A.4.1 si deve necessariamente
concludere che 8U µ [. ÐDß 7  "Ñ. Dunque, se L! è vera, - è la determinazione campionaria
della statistica
Lœ
detÐj Ñ
,
detÐj  U Ñ
distribuita come una L di Wilks con Ð8  7Ñ e Ð7  "Ñ gradi di libertà. Inoltre < è una funzione
monotona crescente di - e quindi i test costruiti su V e L sono equivalenti. Dal momento che
rifiutare L! per piccole determinazioni di V è equivalente a rifiutare per piccole determinazioni
di L, la regione critica del test è data da
g" œ Ö-À - Ÿ L.ß87ß7"ßα × .
Se si è osservato il valore campionario -, il livello di significatività osservato risulta infine
α9== œ PrÐL.ß87ß7" Ÿ -Ñ .
Anche se in questo caso la distribuzione della statistica test è nota per campioni finiti, per
grandi campioni, quando L! è vera, la quantità
 # ln < œ  8 ln - ,
.
è la determinazione di una statistica  # ln V8 Ä ;#Ð7"Ñ. , in quanto è facile verificare che vi
sono in totale Ò7.  . Ð.  "ÑÎ#Ó parametri, di cui Ò.  . Ð.  "ÑÎ#Ó da stimare sotto ipotesi di
base.
Esempio 6.3.4. Tre gruppi di pesci, ognuno dei quali era composto da 12 pesci, sono stati
cucinati con tre diversi metodi di cottura. Successivamente, alcuni giudici hanno assaggiato
ciascun pesce e hanno assegnato un punteggio sulla base di 4 variabili, ovvero l'aroma (A), il
sapore (S), la consistenza (C) e il grado di umidità (U). Nella Tavola 6.3.4 sono riportati i
punteggi medi dei giudici per ogni pesce e ogni metodo di cottura.
Capitolo 6
139
Tavola 6.3.4. Punteggi dei giudici per i tre metodi di cottura dei pesci.
metodo 1
1
#
$
%
&
'
(
)
*
"!
""
"#
A
&Þ%
&Þ#
'Þ"
%Þ)
&Þ!
&Þ(
'Þ!
%Þ!
&Þ(
&Þ'
&Þ)
&Þ$
B
'Þ!
'Þ#
&Þ*
&Þ!
&Þ(
'Þ"
'Þ!
&Þ!
&Þ%
&Þ#
'Þ"
&Þ*
C
'Þ$
'Þ!
'Þ!
%Þ*
&Þ!
'Þ!
&Þ)
%Þ!
%Þ*
&Þ%
&Þ#
&Þ)
D
'Þ(
&Þ)
(Þ!
&Þ!
'Þ&
'Þ'
'Þ!
&Þ!
&Þ!
&Þ)
'Þ%
'Þ!
metodo 2
"
#
$
%
&
'
(
)
*
"!
""
"#
A
&Þ!
%Þ)
$Þ*
%Þ!
&Þ'
'Þ!
&Þ#
&Þ$
&Þ*
'Þ"
'Þ#
&Þ"
B
&Þ$
%Þ*
%Þ!
&Þ"
&Þ%
&Þ&
%Þ)
&Þ"
'Þ"
'Þ!
&Þ(
%Þ*
C
&Þ$
%Þ#
%Þ%
%Þ)
&Þ"
&Þ(
&Þ%
&Þ)
&Þ(
'Þ"
&Þ*
&Þ$
D
'Þ&
&Þ'
&Þ!
&Þ)
'Þ#
'Þ!
'Þ!
'Þ%
'Þ!
'Þ#
'Þ!
%Þ)
metodo 3
"
#
$
%
&
'
(
)
*
"!
""
"#
A
%Þ)
&Þ%
%Þ*
&Þ(
%Þ#
'Þ!
&Þ"
%Þ)
&Þ$
%Þ'
%Þ&
%Þ%
B
&Þ!
&Þ!
&Þ"
&Þ#
%Þ'
&Þ$
&Þ#
%Þ'
&Þ%
%Þ%
%Þ!
%Þ#
C
'Þ&
'Þ!
&Þ*
'Þ%
&Þ$
&Þ)
'Þ#
&Þ(
'Þ)
&Þ(
&Þ!
&Þ'
D
(Þ!
'Þ%
'Þ&
'Þ%
'Þ$
'Þ%
'Þ&
&Þ(
'Þ'
&Þ'
&Þ*
&Þ&
Fonte: Baten, Tack e Baeder (1958)
Si vuole verificare se i metodi di cottura non differiscono sulla base dei punteggi assegnati
dai giudici, ovvero si vuole verificare il sistema di ipotesi L! À ." œ .# œ .$ œ . contro
L" À .6 Á .4 , b6 Á 4 œ "ß #ß $. Si ha
Î &Þ$)$$ Ñ
&Þ(!)$ Ó
–x" œ Ð
Ð
Ó
&Þ%%"(
Ï &Þ*)$$ Ò
e
mentre
Inoltre
e
mentre
Î &Þ#&)$ Ñ
&Þ#$$$ Ó
–x# œ Ð
Ð
Ó,
&Þ$!)$
Ï &Þ)(&! Ò
Î %Þ*(&! Ñ
%Þ)$$$ Ó
–x$ œ Ð
Ð
Ó.
&Þ*!)$
Ï 'Þ#$$$ Ò
Î !Þ$"$"
Ð !Þ"%"!
S" œ Ð
!Þ#$**
Ï !Þ#""%
!Þ"%"!
!Þ"(*"
!Þ#"!&
!Þ#!*$
!Þ#$**
!Þ#"!&
!Þ%!%"
!Þ##**
!Þ#""% Ñ
!Þ#!*$ Ó
Ó
!Þ#***
!Þ%%%( Ò
Î !Þ&$%"
Ð !Þ$#)*
S# œ Ð
!Þ$%"#
Ï !Þ"(&'
!Þ$#)*
!Þ$!##
!Þ##)*
!Þ"'$$
!Þ$%"#
!Þ##)*
!Þ$#%"
!Þ"%((
!Þ"(&' Ñ
!Þ"'$$ Ó
Ó,
!Þ"%((
!Þ#%&# Ò
140
L'inferenza multivariata
Î !Þ#(!#
Ð !Þ"()$
S$ œ Ð
!Þ"%"*
Ï !Þ"!"(
!Þ"()$
!Þ"*$*
!Þ"($*
!Þ"%*(
!Þ"%"*
!Þ"($*
!Þ#$*"
!Þ"$)*
!Þ"!"( Ñ
!Þ"%*( Ó
Ó.
!Þ"$)*
!Þ"*!' Ò
!Þ#"'"
!Þ##&"
!Þ#!%%
!Þ"(%"
!Þ#%"!
!Þ#!%%
!Þ$##%
!Þ"*&&
!Þ"'#* Ñ
!Þ"(%" Ó
Ó
!Þ"*&&
!Þ#*$& Ò
Dalle precedenti espressioni risulta
Î !Þ$(#&
Ð !Þ#"'"
WœÐ
!Þ#%"!
Ï !Þ"'#*
e
Î
Ð
BœÐ
!Þ!#*#
!Þ!&)*
 !Þ!$)#
Ï  !Þ!#""
!Þ!&)*
!Þ"#)!
 !Þ!'&!
 !Þ!$%&
 !Þ!$)#
 !Þ!'&!
!Þ!''#
!Þ!$)&
 !Þ!#"" Ñ
 !Þ!$%& Ó
Ó,
!Þ!$)&
!Þ!##& Ò
per cui - œ !Þ##!!. Di conseguenza il livello di significatività osservato risulta
α9== œ PrÐL%ß$$ß# Ÿ !Þ##!!Ñ œ PrÐJ)ß'! )Þ%*!"Ñ ¶ ! .
Dato che la significatività osservata estremamente bassa, si deve concludere che i tre metodi di
cottura differiscono sostanzialmente. Inoltre  # ln < œ &%Þ&!!) e dunque si ha
α8ß9== œ PrÐ;#) &%Þ&!!)Ñ ¶ ! ,
…
un risultato che conferma le conclusioni precedenti.
6.3.8. Il test per la verifica della omoschedasticità. Si supponga di considerare 7 campioni
casuali indipendenti Ðx6" ß á ß x686 Ñ rispettivamente dai vettori casuali k6 µ R. Ð.6 ß D6 Ñ. Sia
inoltre 8 œ 7
6œ" 86 la numerosità campionaria globale. In questo caso, il modello statistico è
dato da
Y." ßáß.7 ßD" ßáßD7 œ œ08 À 08 Ðx"" ß á ß x"8" ß á ß x7" ß á ß x787 à ." ß á ß .7 ß D" ß á ß D7 Ñ
œ $$ detÐ#1D6 Ñ"Î# exp” 
7 86
6œ" 3œ"
"
Ðx63  .6 ÑT D"
6 Ðx63  .6 Ñ•
#
.
dove .6 − ‘. e D6  !. Si vuole verificare il sistema di ipotesi L! À D" œ á œ D7 œ D
contro L" À D6 Á D4 , b6 Á 4 œ "ß á ß 7. Si ha
@ œ ÖÐ." ß á ß .7 ß D" ß á ß D7 ÑÀ .6 − ‘. ß D6  !ß 6 œ "ß á ß 7×
e
@! œ ÖÐ." ß á ß .7 ß D" ß á ß D7 ÑÀ .6 − ‘. ß D" œ á œ D7 œ D  !× .
Se –x6 e S6 rappresentano rispettivamente le realizzazioni campionarie del vettore medio
–
campionario k 6 e della matrice di varianza-covarianza campionaria f6 per l'l-esimo campione,
allora la funzione di log-verosimiglianza è data da
Capitolo 6
141
6Ð." ß á ß .7 ß D" ß á ß D7 Ñ œ
7
86
86
86 –
–
œ ln - 
Ðx6  .6 ÑT D"
’  ln detÐD6 Ñ  trÐD"
6 S6 Ñ 
6 Ðx6  .6 Ñ“ .
#
#
#
6œ"
–
–
Tenendo presente che ogni Жx6  .6 ÑT D"
6 Ðx6  .6 Ñ raggiunge il minimo per .6 œ x6 e
adoperando nella precedente espressione la disugualianza ottenuta nell'Esempio 6.2.2 in maniera
ripetuta con D œ S6 , si ottiene
7
6Ð." ß á ß .7 ß D" ß á ß D7 Ñ Ÿ ln - 
6œ"
š
86
86
ln detÐD6 Ñ 
trÐD"
6 S6 Ñ›
#
#
œ 6Жx" ß á ß –x7 ß D" ß á ß D7 Ñ
7
86
86 .
Ÿ ln - 
œ  ln detÐS6 Ñ 
#
#
6œ"
œ ln - 
"
#
7
86 ln detÐS6 Ñ 
6œ"
8.
#
œ 6Жx" ß á ß –x7 ß S" ß á ß S7 Ñ
œ
max
6Ð." ß á ß .7 ß D" ß á ß D7 Ñ .
Ð." ßáß.7 ßD" ßáßD7 Ñ−@
Inoltre, se L! è vera, allora si ha
6Ð." ß á ß .7 ß Dß á ß DÑ œ
7
œ ln - 
6œ"
œ ln - 
š
86
86
86
ln detÐDÑ  trÐD" S6 Ñ  Жx6  .6 ÑT D" Жx6  .6 Ñ›
#
#
#
8
8
"
ln detÐDÑ  trÐD" WÑ 
#
#
#
7
86 Жx6  .6 ÑT D" Жx6  .6 Ñ .
6œ"
Di conseguenza, adoperando la disugualianza ottenuta nell'Esempio 6.2.2 rispettivamente con
D œ W , si ottiene
8
8
6Ð." ß á ß .7 ß Dß á ß DÑ Ÿ ln -  ln detÐDÑ  trÐD" WÑ œ 6Жx" ß á ß –x7 ß Dß á ß DÑ
#
#
8
8.
Ÿ ln -  ln detÐWÑ 
œ 6Жx" ß á ß –x7 ß Wß á ß WÑ
#
#
œ
max
6Ð." ß á ß .7 ß D" ß á ß D7 Ñ .
Ð." ßáß.7 ßD" ßáßD7 Ñ−@!
Dunque, la determinazione campionaria di V è data da
detÐWÑ
< œ expÒ6Жx" ß á ß –x7 ß Wß á ß WÑ  6Жx" ß á ß –x7 ß S" ß á ß S7 ÑÓ œ $ ”
•
detÐS6 Ñ
6œ"
7
86 Î#
In questo caso è complesso ottenere la distribuzione esatta di V o di una sua trasformata.
Tuttavia, per grandi campioni, quando L! è vera, la quantità
7
 # ln < œ
6œ"
86 ln”
.
detÐWÑ
•,
detÐS6 Ñ
è la determinazione di una statistica  # ln V8 Ä ;#Ð7"Ñ.Ð."ÑÎ# , in quanto vi sono in totale
Ò7.  7. Ð.  "ÑÎ#Ó parametri, di cui Ò7.  . Ð.  "ÑÎ#Ó da stimare sotto ipotesi di base. Di
conseguenza, la regione critica per grandi campioni è data da
142
L'inferenza multivariata
g8ß" œ Ö<À  # ln < ;#Ð7"Ñ.Ð."ÑÎ#ß"α × ,
mentre la significatività osservata risulta
α8ß9== œ PrÐ;#Ð7"Ñ.Ð."ÑÎ#  # ln <Ñ .
Esempio 6.3.5. Con gli stessi dati dell'Esempio 6.3.4 si vuole verificare il sistema di ipotesi
L! À D" œ D# œ D$ contro L" À D6 Á D4 , b6 Á 4 œ "ß #ß $. In questo caso è facile verificare che
 # ln < œ "(Þ(($$ e di conseguenza il livello di significatività osservato per grandi campioni
risulta
α8ß9== œ PrÐ;##! "(Þ(($$Ñ œ !Þ'!#$ .
Questo valore è un valore elevato di α8ß9== che porta dunque ad accettare dunque l'ipotesi di
omoschedasticità.
…
6.3.9. La regressione lineare multivariata. Supponiamo che la matrice campionaria
Ðy" ß á ß y8 Ñ sia la determinazione di un insieme di vettori casuali indipendenti Ðl" ß á ß l8 Ñ, tali
che l3 µ R. Ða  Bz3 ß DÑ, dove a è un vettore di parametri di ordine . , B è una matrice di
parametri di ordine Ð. ‚ /Ñ, mentre Ðz" ß á ß z8 Ñ costituisce una matrice di quantità note e fisse
di ordine Ð/ ‚ 8Ñ. Ovviamente, in questo caso il campionamento non è casuale ed è immediato
verificare che questa struttura campionaria costituisce una estensione multivariata del modello di
regressione lineare. Analogamente all'Esempio 1.1.8, si suppone che la parametrizzazione sia
fatta in modo tale che
–z œ "
8
8
z3 œ ! .
3œ"
In questo caso il modello statistico è dato da
YaßBßD œ œ08 À 08 Ðy" ß á ß y8 à aß Bß DÑ œ
œ $ detÐ#1DÑ"Î# exp” 
8
3œ"
"
Ðy3  a  Bz3 ÑT D" Ðy3  a  Bz3 Ñ•
#
dove a − ‘. ß B − ‘./ ß D  !. Si vuole verificare il sistema di ipotesi L! À B œ ! contro
L" À B Á !. Si ha
@ œ ÖÐaß Bß DÑÀ a − ‘. ß B − ‘./ ß D  !×
e
@! œ ÖÐaß Bß DÑÀ B œ !ß a − ‘. ß D  !× .
La log-verosimiglianza può essere espressa come
8
"
6Ðaß Bß DÑ œ ln -  detÐDÑ 
#
#
8
Ðy3  a  Bz3 ÑT D" Ðy3  a  Bz3 Ñ .
3œ"
Si indichi rispettivamente con –y e SC il vettore medio campionario e la matrice di varianzacovarianza campionaria relative a Ðy" ß á ß y8 Ñ e con SD la matrice di varianza-covarianza
relativa a Ðz" ß á ß z8 Ñ. Sia inoltre
Capitolo 6
143
SDC œ
"
8
8
3œ"
"
Ðz3  –zÑÐy3  –yÑT œ
8
8
z3 y3T
3œ"
la matrice di covarianza relativa a Ðz" ß á ß z8 Ñ e Ðy" ß á ß y8 Ñ, mentre sia SCD œ STDC . Si ha
8
Ðy3  a  Bz3 ÑT D" Ðy3  a  Bz3 Ñ œ
3œ"
8
œ
3œ"
8
œ
ÒÐy3  –yÑ  Bz3  Жy  aÑÓT D" ÒÐy3  –yÑ  Bz3  Жy  aÑÓ
trÖD" ÒÐy3  –yÑ  Bz3  Жy  aÑÓÒÐy3  –yÑ  Bz3  Жy  aÑÓT ×
3œ"
œ 8 trÖD" ÒSC  BSD BT  Жy  aÑЖy  aÑT  SCD BT  BSDC × ,
8
8
–
dove è stato tenuto presente che
3œ" z3 œ ! e
3œ" Ðy3  yÑ œ !. Inoltre, sommando e
sottraendo la matrice SCD S"
D SDC nella precedente espressione e raccogliendo opportunamente si
ha
8
Ðy3  a  Bz3 ÑT D" Ðy3  a  Bz3 Ñ œ
3œ"
T
"
" T
–
–
œ 8 trÖD" ÒSC  SCD S"
D SDC  ÐB  SCD SD ÑSD ÐB  SCD SD Ñ  Ðy  aÑÐy  aÑ ×
"
"
" T
œ 8 trÒD" ÐSC  SCD S"
D SDC ÑÓ  8 trÒD ÐB  SCD SD ÑSD ÐB  SCD SD Ñ Ó
 8Жy  aÑT D" Жy  aÑ ,
Dunque, si ottiene infine
8
8
detÐDÑ  ÖtrÒD" ÐSC  SCD S"
D SDC ÑÓ
#
#
T " –
" T
–
 trÒD" ÐB  SCD S"
D ÑSD ÐB  SCD SD Ñ Ó  Ðy  aÑ D Ðy  aÑ× .
6Ðaß Bß DÑ œ ln - 
Sulla base di questi risultati, si ha dunque
8
8
sß DÑ ,
6Ðaß Bß DÑ Ÿ ln -  detÐDÑ  trÒD" ÐSC  SCD S"
aß B
D SDC ÑÓ œ 6Ðs
#
#
s œ SCD S"
dove sa œ –y e B
D che ovviamente costituiscono le stime di massima verosimiglianza di
a e B. Nella precedente espressione si è tenuto presente che D  ! e dunque anche D"  !, in
modo tale che la forma quadratica Жy  aÑT D" Жy  aÑ è definita positiva e quindi raggiunge il
minimo quando a œ –y. Nella stessa espressione si è notato che, essendo SD definita positiva in
" T
quanto matrice di varianza-covarianza, allora la matrice ÐB  SCD S"
è
D ÑSD ÐB  SCD SD Ñ
" T
definita positiva e quindi anche la matrice D" ÐB  SCD S"
Ñ
S
Ð
B

S
S
Ñ
è
definita
D
CD D
D
positiva. Di conseguenza, la traccia di questa matrice è maggiore o uguale a ! e raggiunge
quindi il minimo in corrispondenza della matrice nulla, ovvero quando B  SCD S"
D œ !.
Tenendo presente la disugualianza ottenuta nell'Esempio 6.2.2 con D œ SC  SCD S"
D SDC , si
ottiene dunque
sß DÑ Ÿ ln - 
6Ðsaß B
8
8.
sß EÑ œ max 6Ðaß Bß DÑ ,
detÐSC  SCD S"
œ 6Ðsaß B
D SDC Ñ 
#
#
ÐaßBßDÑ−@
dove E œ SC  SCD S"
D SDC è la stima di massima verosimiglianza di D. È facile dimostrare che
144
L'inferenza multivariata
Eœ
"
8
8
s 3 ÑÐy3  sa  Bz
s 3 ÑT
Ðy3  sa  Bz
3œ"
e dunque in effetti E costituisce la matrice delle medie degli scarti al quadrato dei valori
s 3 . Di conseguenza, in maniera analoga alla §4.3.8, la
osservati y3 dai valori stimati sa  Bz
matrice E rappresenta la matrice di varianza-covarianza residua.
Tenendo presente le note fatte in precedenza, si ha inoltre che
8
8
6Ðaß !ß DÑ œ ln -  detÐDÑ  ÒtrÐD" SC Ñ  Жy  aÑT D" Жy  aÑÓ
#
#
8
8.
Ÿ ln -  detÐSC Ñ 
œ 6Жyß !ß SC Ñ œ max 6Ðaß Bß DÑ .
#
#
ÐaßBßDÑ−@!
In maniera analoga alla §4.3.8, si noti che si ha la seguente scomposizione
SC œ E  H ,
dove H œ SCD S"
D SDC rappresenta la matrice di varianza-covarianza spiegata dal modello lineare.
Di conseguenza, si ha anche E œ SC  SCD S"
D SDC . La determinazione campionaria di V è
dunque data da
detÐSC  SCD S"
D SDC Ñ
sß EÑÓ œ ”
< œ expÒ6Жyß !ß SC Ñ  6Ðsaß B
•
detÐSC Ñ
8Î#
œ -8Î#
dove
-œ
detÐSC  SCD S"
detÐEÑ
D SDC Ñ
œ
.
detÐSC Ñ
detÐE  HÑ
Dal momento che 8fC µ [. ÐDß 8  "Ñ, per la proprietà iii) della §A.4.2, E e H sono le
determinazioni campionarie di due matrici casuali 8X µ [. ÐDß 8  "  /Ñ e 8[ µ [. ÐDß /Ñ
indipendenti. Dunque, se L! è vera, - è la determinazione campionaria della statistica
Lœ
detÐX Ñ
,
detÐX  [Ñ
distribuita come una L.ß8"/ß/ di Wilks. Inoltre, < è una funzione monotona crescente di - e
quindi i test costruiti su V e L sono equivalenti. Dunque, dal momento che rifiutare L! per
piccole determinazioni di V è equivalente a rifiutare per piccole determinazioni di L, la regione
critica del test è data da
g" œ Ö-À - Ÿ L.ß8"/ß/ßα × .
Avendo osservato il valore campionario -, il livello di significatività osservato risulta infine
α9== œ PrÐL.ß8"/ß/ Ÿ -Ñ .
Anche se in questo caso la distribuzione della statistica test è nota per campioni finiti, per
grandi campioni, quando L! è vera, la quantità
 # ln < œ 8 ln”
detÐSC  SCD S"
D SDC Ñ
•,
detÐSC Ñ
.
è la determinazione di una statistica  # ln V8 Ä ;#./ , in quanto vi sono Ò.  ./  . Ð.  "ÑÎ#Ó
parametri in totale, di cui Ò.  . Ð.  "ÑÎ#Ó da stimare sotto ipotesi di base. Di conseguenza, la
regione critica per grandi campioni è data da
Capitolo 6
145
#
g8ß" œ Ö<À  # ln < ;./
ß"α × ,
mentre la significatività osservata risulta
#
α8ß9== œ PrÐ;./
 # ln <Ñ .
Esempio 6.3.6. Sono stati condotti 19 esperimenti che riguardavano una certa reazione chimica.
Le variabili tenute sotto controllo sono state la temperatura, la concentrazione e il tempo. Si
vuole verificare che esiste una relazione lineare di queste variabili con le variabili di risposta
della reazione chimica, ovvero la quantità di materiale iniziale non trasformato, la quantità di
materiale iniziale trasformato e la quantità di sottoprodotto non desiderato. Le osservazioni
relative agli esperimenti sono riportati nella Tavola 6.3.5.
Tavola 6.3.5. Risultati degli esperimenti relativi alle reazioni chimiche.
Esperimento
"
#
$
%
&
'
(
)
*
"!
""
"#
"$
"%
"&
"'
"(
")
"*
variabili di risposta
non trasformato trasformato sottoprodotto
%"Þ&
%&Þ*
""Þ#
$$Þ)
&$Þ$
""Þ#
#(Þ(
&(Þ&
"#Þ(
#"Þ(
&)Þ)
"'Þ!
"*Þ*
'!Þ'
"'Þ#
"&Þ!
&)Þ!
##Þ'
"#Þ#
&)Þ'
#%Þ&
%Þ$
&#Þ%
$)Þ!
"*Þ$
&'Þ*
#"Þ$
'Þ%
&&Þ%
$!Þ)
$(Þ'
%'Þ*
"%Þ(
")Þ!
&(Þ$
##Þ#
#'Þ$
&&Þ!
")Þ$
*Þ*
&)Þ*
#)Þ!
#&Þ!
&!Þ$
##Þ"
"%Þ"
'"Þ"
#$Þ!
"&Þ#
'#Þ*
#!Þ(
"&Þ*
'!Þ!
##Þ"
"*Þ'
'!Þ'
"*Þ$
variabili sotto controllo
temperatura concentrazione tempo
"'#
#$Þ!
$Þ!
"'#
#$Þ!
)Þ!
"'#
$!Þ!
&Þ!
"'#
$!Þ!
)Þ!
"(#
#&Þ!
&Þ!
"(#
#&Þ!
)Þ!
"(#
$!Þ!
&Þ!
"(#
$!Þ!
)Þ!
"'(
#(Þ&
'Þ&
"((
#(Þ&
'Þ&
"&(
#(Þ&
'Þ&
"'(
$#Þ&
'Þ&
"'(
##Þ&
'Þ&
"'(
#(Þ&
*Þ&
"'(
#(Þ&
$Þ&
"((
#!Þ!
'Þ&
"((
#!Þ!
'Þ&
"'!
$%Þ!
(Þ&
"'!
$%Þ!
(Þ&
Fonte: Box e Youle (1955)
Si vuole verificare se esiste o meno una relazione lineare fra le variabili di risposta e le
variabili sotto controllo, ovvero si vuole verificare il sistema di ipotesi L! À B œ ! contro
L" À B Á !. Si ha
SD œ
e
Î
$'Þ'$("
 ""Þ&$"*
Ï  !Þ#"!&
Î
*%Þ!(!"

#(Þ!'&!
SC œ
Ï  &&Þ*#"%
mentre
 ""Þ&$"*
"(Þ!!&&
"Þ"&(*
 #(Þ!'&!
#"Þ!(("
&Þ%(*&
 !Þ#"!& Ñ
"Þ"&(*
#Þ&#'$ Ò
 &&Þ*#"% Ñ
&Þ%(*& ,
%#Þ)))) Ò
146
L'inferenza multivariata
SCD
Î  $*Þ(%!(
""Þ##&#
œ
Ï ##Þ)')"
Risulta quindi
sœ
B
Î  "Þ&%'!
!Þ%!%'
Ï !Þ*"$*
Î
%Þ#"*(
 "Þ"%#$
Eœ
Ï  $Þ%'*'
mentre
 'Þ*('$ Ñ
#Þ)'&) .
$Þ('$# Ò
Î #!Þ"()* Ñ
sa œ &'Þ$$')
Ï #!Þ()%# Ò
e
Inoltre si ha
 )Þ*))#
"Þ&"%$
'Þ!*#%
Î
)*Þ)&!%
 #&Þ*##(
Hœ
Ï  &#Þ%&")
 "Þ%#&'
!Þ#*$!
!Þ)**&
 #Þ#$(% Ñ
"Þ!$$) .
"Þ"&$& Ò
 "Þ"%#$
"$Þ"#*'
 *Þ%%(#
 $Þ%'*' Ñ
 *Þ%%(# ,
"#Þ"')$ Ò
 #&Þ*##(
(Þ*%(&
"%Þ*#'(
 &#Þ%&") Ñ
"%Þ*#'( ,
$!Þ(#!% Ò
per cui - œ !Þ!$$#. Di conseguenza il livello di significatività osservato risulta
α9== œ PrÐL$ß"&ß$ Ÿ !Þ!$$#Ñ ¶ ! .
Dato che la significatività osservata è estremamente bassa, si deve concludere che esiste un
legame lineare fra le variabili di risposta e quelle di controllo per la reazione chimica
considerata. Inoltre,  # ln < œ '%Þ(#$# e dunque si ha
α8ß9== œ PrÐ;#* '%Þ(#$#Ñ ¶ ! ,
un risultato che conferma le conclusioni precedenti.
…
6.4. Le regioni di confidenza con osservazioni multivariate
6.4.1. Le regioni di confidenza con matrici campionarie. Se Y) è un modello statistico
relativo ad un campionamento casuale, allora si definisce quantità pivot T la trasformata
T À V8 ‚ @ Ä ‘ ,
tale che T œ T Ðk" ß á ß k8 à )Ñ ha una distribuzione che non dipende da ). Se F § ‘ è un
insieme tale che
Pr) ÖT Ðk" ß á ß k8 à )Ñ − F× œ "  α ,
e se IÐk" ß á ß k8 Ñ § ‘5 è un insieme casuale tale che per ogni )
ÖÐx" ß á ß x8 ÑÀ T Ðx" ß á ß x8 à )Ñ − F× Í ÖÐx" ß á ß x8 ÑÀ ) − IÐx" ß á ß x8 Ñ× ,
allora IÐx" ß á ß x8 Ñ è detta regione di confidenza per ) al livello di confidenza Ð"  αÑ.
Capitolo 6
147
Anche nel caso multivariato si può dimostrare che esiste un legame fra la regione di
confidenza e la regione di accettazione del test per il sistema di ipotesi L! À ) œ )! contro
L" À ) Á )! . Nel caso che si costruisca regioni di confidenza a partire dal test del rapporto delle
verosimiglianze si può verificare che la regione di confidenza IÐx" ß á ß x8 Ñ al livello di
confidenza Ð"  αÑ è data da tutti i valori di ) − @ per cui la verosimiglianza PÐ)à x" ß á ß x8 Ñ è
maggiore di
-α œ <α max PÐ)à x" ß á ß x8 Ñ ,
)−@
T T
dove Pr) ÐV Ÿ <α Ñ œ α. Inoltre, se si ha ) œ Ð)ET ß )F
Ñ , dove )E è un parametro a Ð5  2Ñ
componenti, si verifica che la regione di confidenza IÐx" ß á ß x8 Ñ al livello di confidenza
Ð"  αÑ è data da tutti i valori di )E − @E per cui la verosimiglianza profilo P: Ð)E à x" ß á ß x8 Ñ
è maggiore di -α .
6.4.2. Gli ellissoidi di confidenza. Dato un campione casuale da k µ R. Ð.ß DÑ, si vuole
costruire una regione di confidenza per .. Se si considera il sistema di ipotesi L! À . œ .!
contro L" : . Á .! dalla §6.3.2 è noto che la regione di accettazione per il test del rapporto delle
verosimiglianze è data da
k! œ œÐx" ß á ß x8 ÑÀ Жx  .ÑT S" Жx  .Ñ 
.
J.ß8.ß"α
8.
.
Di conseguenza, la regione di confidenza per . al livello di confidenza Ð"  αÑ è data da
T "
œ.À Ð.  –xÑ S Ð.  –xÑ 
.
J.ß8.ß"α
8.
,
ovvero dall'insieme dei punti contenuti in un ellissoide di centro –x con direzioni degli assi date
dagli autovettori di S e con lunghezza degli assi pari a #Èα4 . J.ß8.ß"α ÎÐ8  . Ñ, dove α4 è il
j-esimo autovalore di S. Questa regione di confidenza è detto ellissoide di confidenza del vettore
medio.
Esempio 6.4.1. Su 31 ciliegi del parco nazionale di Allegheny in Pennsylvania sono state
misurate rispettivamente l'altezza e il volume, ottenendo in questa maniera le osservazioni della
Tavola 6.4.1.
Tavola 6.4.1. Altezza e volume dei ciliegi (in piedi e piedi cubi).
ciliegio
"
#
$
%
&
'
(
)
*
"!
""
"#
"$
"%
"&
"'
altezza
(!
'$
)"
''
)!
(*
('
(&
)&
("
()
(%
((
)#
)!
)(
volume ciliegio
"!Þ$
"(
"!Þ#
")
")Þ)
"*
"&Þ'
#!
##Þ'
#"
#%Þ#
##
#"Þ%
#$
"*Þ"
#%
$$Þ)
#&
#&Þ(
#'
$%Þ&
#(
$'Þ$
#)
%#Þ'
#*
&&Þ(
$!
&"Þ&
$"
((Þ!
altezza
'&
(#
)$
(&
(&
('
'*
(%
)'
'%
)!
(#
)"
)!
)!
volume
"!Þ$
"'Þ%
"*Þ(
")Þ#
"*Þ*
#"Þ!
#"Þ$
##Þ#
#(Þ%
#%Þ*
$"Þ(
$)Þ$
&&Þ%
&)Þ$
&"Þ!
Fonte: Ryan, Joiner e Ryan (1985)
148
L'inferenza multivariata
Risulta
–x œ Œ ('Þ!!!!
$!Þ"("!
e
SœŒ
$*Þ#*!$
'!Þ'$)(
'!Þ'$)(
#'"Þ%)''
.
Dunque, i due autovalori di S sono dati da #$Þ)")* e #('Þ*&)!, mentre gli autovettori di S sono
Ð!Þ#%(#ß !Þ*'*!Ñ e Ð!Þ*'*!ß  !Þ#%(#Ñ. Di conseguenza, una ellisse di confidenza per Ð." ß .# Ñ
al livello di confidenza del *&% è centrata in Ð('Þ!!ß $!Þ"(Ñ ed ha gli assi in direzione degli
autovettori di lunghezze pari a %Þ'('! e "&Þ*%%*. Il diagramma di dispersione e il grafico
dell'ellissi di confidenza sono riportati in Figura 6.4.1.
…
70
60
50
40
30
20
10
65
70
75
80
85
Figura 6.4.1. Ellissi di confidenza per Ð." ß .# Ñ al livello di confidenza del *&%.
Appendice
A.1. Alcune distribuzioni continue
A.1.1. Le famiglie di posizione e scala. Nelle prossime sezioni vengono presentate a grandi
linee le caratteristiche di alcune distribuzioni continue di uso frequente (per approfondimenti
sulle distribuzioni continue univariate si può consultare i due manuali di Johnson e Kotz, 1972,
vol. I e II). Nel seguito una variabile casuale ^ viene analizzata nella sua forma standard. La
funzione di ripartizione e la funzione di densità di ^ vengono indicate rispettivamente con
J^ ÐDÑ e 0^ ÐDÑ.
A partire da una variabile casuale standard ^ , attraverso la trasformazione lineare
\ œ -  $^ ,
dove - − ‘ e $ − ‘ , si può generare la cosiddetta famiglia (di distribuzioni) di posizione e di
scala. Questa famiglia è caratterizzata appunto dai parametri di posizione - e di scala $ .
La variabile casuale non standard \ possiede funzione di ripartizione e funzione di densità
date da
J\ ÐBÑ œ J^ Œ
B$
e
0\ ÐBÑ œ
"
B0^ Œ
$
$
.
Inoltre, supponendo EÐ^ # Ñ  ∞, risulta
. œ EÐ\Ñ œ -  $ EÐ^Ñ
e
5# œ VarÐ\Ñ œ $ # VarÐ^Ñ .
In particolare, se EÐ^Ñ œ ! e VarÐ^Ñ œ ", i parametri di posizione e di scala coincidono
rispettivamente con la media e lo scarto quadratico medio. Per evidenziare questa proprietà, nel
seguito si adottano i simboli . e 5 al posto di - e $ . Infine, i parametri rimanenti di una
distribuzione sono detti parametri di forma.
A.1.2. La distribuzione Normale. La variabile casuale ^ è detta Normale standard se possiede
la funzione di densità 0^ ÐDÑ œ 9ÐDÑ, dove
9ÐDÑ œ
"
"
expŒ  D #
È#1
#
.
Il grafico della funzione di densità 9ÐDÑ è riportato in Figura A.1.1. La funzione di ripartizione
di ^ viene indicata con FÐDÑ e non può essere ottenuta in forma analitica.
I momenti della Normale standard risultano
EÐ^ < Ñ œ œ
!
" ‚ $ ‚ á ‚ Ð<  "Ñ
< dispari
, < œ "ß #ß á .
< pari
150
Appendice
0.4
0.3
0.2
0.1
0
−3
−2
−1
0
1
2
3
Figura A.1.1. Funzione di densità della Normale standard.
Di conseguenza, si ha EÐ^Ñ œ ! e VarÐ^Ñ œ ". Quindi, per la Normale non standard \ i
parametri di posizione e di scala coincidono con la media . e con lo scarto quadratico medio 5.
Per indicare che ^ è Normale standard si adotta la notazione ^ µ R Ð!ß "Ñ, mentre se \ è
Normale non standard si scrive \ µ R Ð.ß 5# Ñ. Il quantile di ordine α della Normale standard
viene indicato con Dα .
Per la Normale valgono le seguenti tre proprietà (vedi Fattorini, 1994):
i) Se \ µ R Ð.ß 5# Ñ, allora
] œ +  ,\ µ R Ð+  , .ß , # 5# Ñ ,
dove + e , sono costanti.
ii) Se Ð\" ß á ß \5 Ñ è un vettore di variabili casuali indipendenti tale che \3 µ R Ð.3 ß 53# Ñ, allora
5
] œ
5
Ð+3  ,3 \3 Ñ µ R
3œ"
5
,3# 53#
Ð+3  ,3 .3 Ñß
3œ"
,
3œ"
dove Ð+" ß á ß +5 Ñ e Ð," ß á ß ,5 Ñ sono vettori di costanti.
iii) Se Ð\" ß á ß \5 Ñ è un vettore di variabili casuali indipendenti tale che \3 µ R Ð.ß 5# Ñ, allora
le variabili casuali
5
]" œ
5
- 3 \ 3 , ]# œ
3œ"
.3 \ 3 ,
3œ"
dove Ð-" ß á ß -5 Ñ e Ð." ß á ß .5 Ñ sono vettori di costanti, sono indipendenti se e solo se
5
- 3 .3 œ ! .
3œ"
A.1.3. La distribuzione Uniforme. La variabile casuale ^ è detta Uniforme standard se
possiede la funzione di densità
0^ ÐDÑ œ IÐ!ß"Ñ ÐDÑ .
Il grafico della funzione di densità di ^ è riportato in Figura A.1.2.
La funzione di ripartizione di ^ risulta
J^ ÐDÑ œ D IÐ!ß"Ñ ÐDÑ  IÒ"ß∞Ñ ÐDÑ .
I momenti della Uniforme standard sono dati da
Appendice
151
EÐ^ < Ñ œ
"
, < œ "ß #ß á .
<"
Di conseguenza, risulta EÐ^Ñ œ "Î# e VarÐ^Ñ œ "Î"#.
1.2
1
0.8
0.6
0.4
0.2
0
− 0.5
0
0.5
1
1.5
Figura A.1.2. Funzione di densità della Uniforme standard.
Per indicare che ^ è Uniforme standard si adotta la notazione ^ µ Y Ð!ß "Ñ, mentre se \ è
Uniforme non standard si scrive \ µ Y Ð-ß -  $ Ñ. La parametrizzazione in termini di - e -  $
si usa per evidenziare che il supporto della variabile casuale non standard \ risulta Ð-ß -  $ Ñ.
A.1.4. La distribuzione Gamma. La variabile casuale ^ è detta Gamma standard se possiede la
funzione di densità
0^ ÐDÑ œ
"
D :" expÐ  DÑ IÐ!ß∞Ñ ÐDÑ ,
>Ð:Ñ
dove : − ‘ è un parametro di forma. Per : œ " la variabile casuale ^ è detta Esponenziale
standard. I grafici delle funzioni di densità di ^ per alcuni : sono riportati in Figura A.1.3.
1
0.8
0.6
0.4
0.2
0
0
1
2
3
4
5
6
7
Figura A.1.3. Funzioni di densità della Gamma standard per : œ "ß #ß $.
La funzione di ripartizione di ^ è ottenibile in forma chiusa solo se : è intero, nel qual caso
J^ ÐDÑ œ –"  expÐ  DÑ
I momenti della Gamma standard risultano
:"
3œ!
D3
IÐ!ß∞Ñ ÐDÑ , : −  .
—
3x
152
Appendice
EÐ^ < Ñ œ
>Ð:  <Ñ
, < œ "ß #ß á .
>Ð:Ñ
Di conseguenza, si ha EÐ^Ñ œ : e VarÐ^Ñ œ :.
Per indicare che ^ è Gamma standard con parametro di forma : si adopera la notazione
^ µ KÐ!ß "à :Ñ, mentre se \ è Gamma non standard si scrive \ µ KÐ-ß $ à :Ñ. La Esponenziale
standard ^ viene indicata invece con la notazione ^ µ IÐ!ß "Ñ, mentre se \ è Esponenziale
non standard si scrive \ µ IÐ-ß 5Ñ, dal momento che in questo caso il parametro di scala
coincide con lo scarto quadratico medio.
Per la Gamma valgono le seguenti due proprietà (vedi Fattorini, 1994):
i) Se \ µ KÐ-ß $ à :Ñ, allora
] œ +  ,\ µ KÐ+  -,ß , $ à :Ñ ,
dove + e , sono costanti.
ii) Se Ð\" ß á ß \5 Ñ è un vettore di variabili casuali indipendenti con \3 µ KÐ-ß $ à :3 Ñ, allora
5
5
\3 µ K - ß $ à
] œ
3œ"
:3
.
3œ"
A.1.5. La distribuzione Beta. La variabile casuale ^ è detta Beta standard se possiede la
seguente funzione di densità
>Ð:  ;Ñ :"
D Ð"  DÑ;" IÐ!ß"Ñ ÐDÑ ,
>Ð:Ñ>Ð;Ñ
0^ ÐDÑ œ
dove : − ‘ e ; − ‘ sono parametri di forma. Se : œ ; œ ", la Beta standard si riduce alla
Uniforme standard. I grafici della funzione di densità di ^ per alcuni valori di : e ; sono
riportati nelle Figure A.1.4 e A.1.5.
La funzione di ripartizione di ^ può essere ottenuta solo se : e ; sono interi, nel qual caso
:;"
J^ ÐDÑ œ
3œ:
Œ
:;"
3
D 3 Ð"  DÑ:;"3 IÐ!ß"Ñ ÐDÑ  IÒ"ß∞Ñ ÐDÑ , : −  , ; −  .
Per la Beta standard si ha
EÐ^ < Ñ œ
>Ð:  ;Ñ>Ð:  <Ñ
, < œ "ß #ß á ,
>Ð:Ñ>Ð:  ;  <Ñ
da cui
EÐ^Ñ œ
:
:;
e
VarÐ^Ñ œ
:;
.
Ð:  ;Ñ# Ð:  ;  "Ñ
Per indicare che ^ è Beta standard con parametri di forma : e ; si adotta la notazione
^ µ F/Ð!ß "à :ß ;Ñ, mentre se \ è Beta non standard si scrive \ µ F/Ð-ß -  $ à :ß ;Ñ. La
parametrizzazione in termini di - e -  $ viene impiegata per evidenziare che il supporto della
variabile casuale non standard \ risulta Ð-ß -  $ Ñ.
Appendice
153
2
1.5
1
0.5
0
0
0.2
0.4
0.6
0.8
1
Figura A.1.4. Funzioni di densità della Beta standard per Ð:ß ;Ñ œ Ð!.$ß !.$Ñß Ð".$ß !.(Ñß Ð!.(ß ".$Ñ.
2
1.5
1
0.5
0
0
0.2
0.4
0.6
0.8
1
Figura A.1.5. Funzioni di densità della Beta standard per Ð:ß ;Ñ œ Ð#ß #Ñß Ð#ß %Ñß Ð%ß #Ñ.
A.1.6. La distribuzione di Cauchy. La variabile casuale ^ è detta di Cauchy standard se
possiede la seguente funzione di densità
0^ ÐDÑ œ
"
.
1Ð"  D # Ñ
Il grafico della funzione di densità di ^ è riportato in Figura A.1.6.
0.3
0.2
0.1
0
−4
−2
0
2
4
Figura A.1.6. Funzione di densità della Cauchy standard.
La funzione di ripartizione di ^ risulta
J^ ÐDÑ œ
"
"
 tan" ÐDÑ .
# 1
154
Appendice
La Cauchy standard non possiede momenti di alcun ordine. Per indicare che ^ è Cauchy
standard si adotta la notazione ^ µ GÐ!ß "Ñ, mentre se \ è Cauchy non standard \ µ GÐ-ß $ Ñ.
A.1.7. La distribuzione di Laplace. La variabile casuale ^ è detta di Laplace standard se
possiede la seguente funzione di densità
0^ ÐDÑ œ
"
expÐ  ± D ± Ñ .
#
Il grafico della funzione di densità di ^ è riportato in Figura A.1.7.
0.5
0.4
0.3
0.2
0.1
0
−4
−2
0
2
4
Figura A.1.7. Funzione di densità della Laplace standard.
La funzione di ripartizione di ^ risulta
J^ ÐDÑ œ
"
"
expÐ  ± D ± Ñ IÐ∞ß!Ó ÐDÑ  Ò#  expÐ  ± D ± ÑÓ IÐ!ß∞Ñ ÐDÑ .
#
#
Per la Laplace standard si ha
EÐ^ < Ñ œ œ
!
>Ð<  "Ñ
< dispari
, < œ "ß #ß á .
< pari
Di conseguenza, risulta EÐ^Ñ œ ! e VarÐ^Ñ œ #. Quindi, per la Laplace non standard il
parametro di posizione coincide con la media .. Per indicare che ^ è Laplace standard si adotta
la notazione ^ µ PÐ!ß "Ñ, mentre se \ è Laplace non standard si scrive \ µ PÐ.ß $ Ñ.
A.1.8. La distribuzione di Weibull. La variabile casuale ^ è detta di Weibull standard se
possiede la seguente funzione di densità
0^ ÐDÑ œ :D :" expÐ  D : Ñ IÐ!ß∞Ñ ÐDÑ ,
dove : − ‘ è un parametro di forma. I grafici della funzione di densità di ^ per alcuni valori
di : sono riportati in Figura A.1.8.
La funzione di ripartizione di ^ risulta
J^ ÐDÑ œ Ò"  expÐ  D : ÑÓ IÐ!ß∞Ñ ÐDÑ .
I momenti della Weibull standard sono dati da
<
EÐ^ < Ñ œ >Œ  " , < œ "ß #ß á .
:
Di conseguenza, risulta
Appendice
155
"
EÐ^Ñ œ >Œ  "
:
e
#
"
VarÐ^Ñ œ >Œ  "  >Œ  "
:
:
#
.
Per indicare che ^ è Weibull standard si adotta la notazione ^ µ [ Ð!ß "à :Ñ, mentre se \ è
Weibull non standard si scrive \ µ [ Ð-ß $ à :Ñ.
1
0.8
0.6
0.4
0.2
0
0
0.5
1
1.5
2
2.5
Figura A.1.8. Funzioni di densità della Weibull standard per : œ ".&ß #.!ß #.&.
A.2. Alcune distribuzioni discrete
A.2.1. Premessa. Nelle prossime sezione vengono analizzate brevemente le caratteristiche di
alcune distribuzioni discrete di importanza fondamentale. Per ulteriori approfondimenti delle
distribuzioni discrete è opportuno consultare il manuale di Johnson e Kotz (1972, vol. IV).
A.2.2. La distribuzione Binomiale. La variabile casuale ^ è detta Binomiale se possiede la
seguente funzione di probabilità
8
:^ ÐDÑ œ Š ‹ :D Ð"  :Ñ8D IÖ!ß"ßáß8× ÐDÑ ,
D
dove : − Ð!ß "Ñ e 8 −  . I grafici della funzione di probabilità di ^ per alcuni valori di : e 8
sono riportati in Figura A.2.1.
Per la Binomiale si ha EÐ^Ñ œ 8: e VarÐ^Ñ œ 8:Ð"  :Ñ. Per indicare che ^ è Binomiale si
adotta la notazione ^ µ F3Ð8ß :Ñ.
Per la Binomiale vale la seguente proprietà (vedi Fattorini, 1994):
i) Se Ð^" ß á ß ^5 Ñ è un vettore di variabili casuali indipendenti con ^3 µ F3Ð83 ß :Ñ, allora
5
] œ
5
^3 µ F3
3œ"
83 ß :
.
3œ"
La variabile casuale Binomiale può essere generalizzata al caso multivariato ottenendo la
distribuzione Multinomiale. Il vettore di variabili casuali discrete Ð^" ß á ß ^5 Ñ è detto
Multinomiale se possiede la seguente funzione di probabilità
156
Appendice
8
:Ð^" ßáß^5 Ñ ÐD" ß á ß D5 Ñ œ Œ
D" á D 5
$ :4D4 IE ÐD" ß á ß D5 Ñ ,
5
4œ"
dove
5
Eœ
ÐD" ß á ß D5 ÑÀ D4 −  ß
4œ"
D4 œ 8Ÿ
e Ð:" ß á ß :5 Ñ è un vettore di parametri tale che :4 − Ð!ß "Ñ e che
5
4œ" :3
œ ".
0.25
0.2
0.15
0.1
0.05
0
0
2
4
6
8
10
0
2
4
6
8
10
0.25
0.2
0.15
0.1
0.05
0
Figura A.2.1. Funzioni di probabilità della Binomiale per : œ !Þ$ß !Þ& e 8 œ "!.
Evidentemente, Ð^" ß á ß ^5 Ñ è un vettore degenere di variabili casuali e inoltre sono distinti solo
Ð5  "Ñ parametri nel vettore Ð:" ß á ß :5 Ñ. Si può dimostrare che ^4 µ F3Ð8ß :4 Ñ, mentre
EÐ^4 Ñ œ 8:4 , VarÐ^4 Ñ œ 8:4 Ð"  :4 Ñ e CovÐ^4 ß ^6 Ñ œ  8:4 :6 (vedi Fattorini, 1994). Infine,
per indicare che Ð^" ß á ß ^5 Ñ è Multinomiale si adotta la notazione Ð^" ß á ß ^5 Ñ µ
Q ?Ð8à :" ß á ß :5 Ñ.
A.2.3. La distribuzione di Poisson. La variabile casuale ^ è detta di Poisson se possiede la
seguente funzione di probabilità
:^ ÐDÑ œ expÐ  .Ñ
.D
IÖ!ß"ßá× ÐDÑ ,
Dx
dove . − ‘ . I grafici della funzione di probabilità di ^ per alcuni valori di . sono riportati in
Figura A.2.2.
Per la Poisson si ha EÐ^Ñ œ . e VarÐ^Ñ œ .. Per indicare che ^ è Poisson si adotta la
notazione ^ µ T 9Ð.Ñ.
Appendice
157
0.25
0.2
0.15
0.1
0.05
0
0
2
4
6
8
10
0
2
4
6
8
10
0.2
0.15
0.1
0.05
0
Figura A.2.2. Funzioni di probabilità della Poisson per . œ #ß %.
Per la Poisson vale la seguente proprietà (vedi Fattorini, 1994):
iÑ Se Ð^" ß á ß ^5 Ñ è un vettore di variabili casuali indipendenti tali che ^3 µ T 9Ð.3 Ñ, allora
5
5
] œ
.3
^3 µ T 9
3œ"
.
3œ"
A.2.4. La distribuzione Ipergeometrica. La variabile casuale ^ è detta Ipergeometrica se
possiede la seguente funzione di probabilità
:^ ÐDÑ œ
Q ‰
ˆ QD ‰ˆ R8D
ˆ R8 ‰
IÖmaxÐ!ß8R Q ÑßáßminÐ8ßQ Ñ× ÐDÑ ,
dove 8 −  , Q −  , R −  sono tali che 8 Ÿ R e Q Ÿ R . I grafici della funzione di
probabilità di ^ per alcuni valori di 8, Q e R sono riportati in Figura A.2.3.
Si ha
EÐ^Ñ œ
8Q
R
e
VarÐ^Ñ œ
8Q ÐR  Q ÑÐR  8Ñ
.
R # ÐR  "Ñ
Per indicare che ^ è Ipergeometrica si adotta la notazione ^ µ MÐ8ß Q ß R Ñ.
158
Appendice
0.3
0.25
0.2
0.15
0.1
0.05
0
0
2
4
6
8
10
0
2
4
6
8
10
0.3
0.25
0.2
0.15
0.1
0.05
0
Figura A.2.3. Funzioni di probabilità della Ipergeometrica per Q œ "#ß #!, R œ %! e 8 œ "!.
A.3. Le distribuzioni Chi-quadrato, t e F
A.3.1. Premessa. In questa sezione si considera alcune distribuzioni fondamentali nella
statistica inferenziale connesse alla Normale. Per i dettagli teorici della genesi di queste
distribuzioni si veda Fattorini (1994).
A.3.2. La distribuzione Chi-quadrato. Se Ð^" ß á ß ^8 Ñ è un vettore di variabili casuali
indipendenti tali che ^3 µ R Ð!ß "Ñ, allora la trasformata
8
^3#
Y œ
3œ"
è detta variabile casuale Chi-quadrato con 8 gradi di libertà. Per indicare che Y è Chi-quadrato
con 8 gradi di libertà si adotta la notazione Y µ ;#8 . Dal momento che ;8# µ KÐ!ß #à 8Î#Ñ (vedi
Fattorini, 1994), allora la funzione di densità di Y risulta
0Y Ð?Ñ œ
"
? 8Î#"
?
expŠ  ‹ IÐ!ß∞Ñ Ð?Ñ .
Š ‹
#>Ð8Î#Ñ #
#
I grafici della funzione di densità di Y per alcuni valori di 8 sono riportati in Figura A.3.1.
Per la Chi-quadrato risulta EÐY Ñ œ 8 e VarÐY Ñ œ #8. Si noti che il quantile di ordine α della
Chi-quadrato con 8 gradi di libertà viene indicato con ;#8ßα .
Per la Chi-quadrato vale la seguente proprietà (vedi Fattorini, 1994):
i) Se ÐY" ß á ß Y5 Ñ è un vettore di variabili casuali indipendenti con Y3 µ ;#83 , allora
Appendice
159
5
Y3 µ ;#8 ,
] œ
3œ"
dove 8 œ
5
3œ" 83 .
0.5
0.4
0.3
0.2
0.1
0
0
2
4
6
8
Figura A.3.1. Funzioni di densità della Chi-quadrato per 8 œ "ß $ß &.
A.3.3. La distribuzione > di Student. Se ^ µ R Ð!ß "Ñ e Y µ ;#8 sono indipendenti, allora la
trasformata
X œ
^
ÈY Î8
è detta variabile casuale > di Student con 8 gradi di libertà. Per indicare che X è > di Student con
8 gradi di libertà si adotta la notazione X µ >8 . Si può dimostrare la funzione di densità di X
risulta (vedi Fattorini, 1994)
>#
>ÒÐ8  "ÑÎ#Ó
0X Ð>Ñ œ
"
È81 >Ð8Î#Ñ Œ
8
Ð8"ÑÎ#
.
I grafici della funzione di densità di X per alcuni valori di 8 sono riportati in Figura A.3.2.
0.4
0.3
0.2
0.1
0
−4
−2
0
2
4
Figura A.3.2. Funzioni di densità della > di Student per 8 œ "ß $ß "!.
Per 8 œ " la > di Student si riduce alla Cauchy standard. Per la > di Student si ha inoltre
EÐX Ñ œ ! e VarÐX Ñ œ 8ÎÐ8  #Ñ (se 8  #). Il quantile di ordine α della > di Student con 8
.
gradi di libertà viene indicato con >8ßα . Infine, per 8 Ä ∞ risulta >8 Ä R Ð!ß "Ñ (vedi Fattorini,
1994).
160
Appendice
A.3.4. La distribuzione J di Snedecor. Se Y µ ;#7 e Z µ ;8# sono indipendenti, allora la
trasformata
J œ
Y Î7
Z Î8
è detta variabile casuale J di Snedecor con 7 e 8 gradi di libertà. Per indicare che J è J di
Snedecor con 7 e 8 gradi di libertà si adotta la notazione J µ J7ß8 . Si può dimostrare la
funzione di densità di J risulta (vedi Fattorini, 1994)
0J Ð0 Ñ œ
>ÒÐ7  8ÑÎ#ÓÐ7Î8Ñ7Î# 7Î#"
70
0
Œ" 
>Ð7Î#Ñ>Ð8Î#Ñ
8
Ð78ÑÎ#
IÐ!ß∞Ñ Ð0 Ñ .
I grafici della funzione di densità di J per alcuni valori di 7 e 8 sono riportati in Figura
A.3.3.
0.8
0.6
0.4
0.2
0
0
1
2
3
4
Figura A.3.3. Funzioni di densità della J di Snedecor per Ð7ß 8Ñ œ Ð%ß %Ñß Ð"#ß "#Ñ.
Per la J di Snedecor risulta rispettivamente
EÐJ Ñ œ
8
8#
se 8  # e
VarÐJ Ñ œ
#8# Ð7  8  #Ñ
7Ð8  #Ñ# Ð8  %Ñ
se 8  %. Il quantile di ordine α della J di Snedecor con 7 e 8 gradi di libertà viene indicato
con J7ß8ßα . Infine, si ha >8 œ ÈJ"ß8 e F/Ð!ß "à 8Î#ß 7Î#Ñ œ 8ÎÐ8  7J7ß8 Ñ.
A.4. Alcune distribuzioni multivariate
A.4.1. La distribuzione Normale multivariata. La variabile casuale Normale può essere
generalizzata al caso multivariato. Si dice che il vettore di variabili casuali k œ Ð\" ß á ß \. ÑT
è Normale multivariato se possiede funzione di densità congiunta
0k ÐxÑ œ detÐ#1DÑ"Î# exp” 
"
Ðx  .ÑT D" Ðx  .Ñ• ,
#
dove . − ‘. e D  ! è una matrice simmetrica definita positiva di ordine . .
La Normale multivariata possiede vettore medio EÐk Ñ œ . e matrice di varianza-covarianza
VarÐk Ñ œ D. Per indicare che k è Normale multivariata si adotta la notazione k µ R. Ð.ß DÑ.
Appendice
161
I grafici della funzione di densità di k per . œ # e alcuni valori di . e D sono riportati nelle
Figure A.4.1, A.4.2 e A.4.3.
Per la Normale multivariata valgono le seguenti due proprietà (vedi Muirhead, 1982):
i) Se Ðk" ß á ß k5 Ñ sono vettori di variabili casuali indipendenti tali che k3 µ R. Ð.3 ß D3 Ñ, allora
5
lœ
5
Ð+3  ,3 k3 Ñ µ R.
3œ"
5
Ð+3  ,3 .3 Ñß
3œ"
3œ"
,3# D3 Ÿ ,
dove Ð+" ß á ß +5 Ñ e Ð," ß á ß ,5 Ñ sono vettori di costanti.
3
2
0.15
1
0.1
0
0.05
−1
2
0
0
−2
2
−2
0
−3
−2
−3
−2
−1
0
1
2
3
2
3
Figura A.4.1. Funzione di densità (con grafico di contorno) di una
!
" !
Normale multivariata R# Ð.ß DÑ con . œ Œ
eDœŒ
.
!
! "
3
2
0.1
1
0.08
0.06
2
0.04
0.02
0
0
0
−1
−2
2
−2
0
−2
−3
−3
−2
−1
0
1
Figura A.4.2. Funzione di densità (con grafico di contorno) di una
!
# "
Normale multivariata R# Ð.ß DÑ con . œ Œ
eDœŒ
.
!
" #
162
Appendice
3
2
0.1
1
0.08
0
0.06
2
0.04
−1
0.02
0
0
−2
2
−2
0
−3
−2
−3
−2
−1
0
1
2
3
Figura A.4.3. Funzione di densità (con grafico di contorno) di una
!
# "
Normale multivariata R# Ð.ß DÑ con . œ Œ
eDœŒ
.
!
"
#
ii) Se k" ß á ß k5 sono vettori di variabili casuali indipendenti tali che k3 µ R. Ð.3 ß D3 Ñ, allora i
vettori di variabili casuali
5
l" œ
5
-3 k3 , l# œ
3œ"
. 3 k3 ,
3œ"
dove Ð-" ß á ß -5 Ñ e Ð." ß á ß .5 Ñ sono vettori di costanti, sono indipendenti se e solo se
5
- 3 .3 œ ! .
3œ"
A.4.2. La distribuzione di Wishart. Se Ðk" ß á ß k8 Ñ
casualiindipendenti tali che k3 µ R. Ð!ß DÑ, allora la trasformata
sono vettori di variabili
8
k3 k3T
`œ
3œ"
è detta matrice casuale di Wishart con 8 gradi di libertà e parametro D. Per indicare che ` è
matrice casuale di Wishart si adotta la notazione ` µ [. Ð8ß DÑ. Se 8  . , allora ` risulta
quasi certamente positiva definita con funzione di densità congiunta
0` ÐMÑ œ
detÐ#DÑ8Î#
"
detÐMÑÐ8."ÑÎ# exp”  trÐD" MÑ• , M  ! ,
>. Ð8Î#Ñ
#
dove >. Ð8Î#Ñ œ 1.Ð."ÑÎ% #.4œ" >ÒÐ8  4  "ÑÎ#Ó. Se D œ I. e . œ ", allora la [. Ð8ß DÑ si
riduce alla ;#8 . Inoltre, risulta EÐMÑ œ D.
Per la distribuzione di Wishart valgono le seguenti proprietà (vedi Muirhead, 1982):
i) Se Ð`" ß á ß `5 Ñ sono matrici casuali indipendenti con `3 µ [. Ð83 ß DÑ, allora
Appendice
163
5
lœ
`3 µ [. Ð8ß DÑ ,
3œ"
dove 8 œ 53œ" 83 .
ii) Se ` µ [. Ð8ß DÑ con D œ diagÐD"" ß D## Ñ dove D"" è di ordine / e D## è di ordine
Ð.  /Ñ e se
`œŒ
`""
`#"
`"#
`##
,
allora
X œ `##  `#" `"
"" `"# µ [./ ÐD## ß 8  /Ñ
e
[ œ `#" `"
"" `"# µ [./ ÐD## ß /Ñ ,
sono indipendenti.
iii) Se `B œ 83œ" k3 k3T µ [. Ð8ß DÑ e se Ðz" ß á ß z8 Ñ costituisce una matrice di coefficienti
di ordine Ð/ ‚ 8Ñ tale che 83œ" z3 œ !, allora
X œ `B  `BD M"
D `DB µ [. ÐDß 8  /Ñ
e
[ œ `BD M"
D `DB µ [. ÐDß /Ñ ,
sono indipendenti, dove `BD œ `TDB œ 83œ" k3 z3T e MD œ 83œ" z3 z3T .
Una trasformata della matrice casuale di Wishart è la variabile casuale X di Hotelling. Se il
vettore casuale k µ R. Ð!ß DÑ e la matrice casuale ` µ [. Ð8ß DÑ sono indipendenti, allora la
trasformata
L œ 8k T `" k
è detta variabile casuale X di Hotelling con 8 gradi di libertà. Per indicare che L è X di
Hotelling si adotta la notazione L µ X.ß8 . Si può dimostrare (vedi Muirhead, 1982) che fra la X
di Hotelling e la J di Snedecor esiste la seguente relazione
X.ß8 œ
8.
J.,8." .
8.1
Evidentemente, per . œ " si ha >8 œ ÈX"ß8 .
Una ulteriore trasformata della matrice casuale di Wishart è la variabile casuale L di Wilks.
Se le matrici casuali `" µ [. Ð7ß DÑ e `# µ [. Ð8ß DÑ sono indipendenti, allora la
trasformata
Lœ
detÐ`" Ñ
detÐ`"  `# Ñ
è detta L di Wilks con 7 e 8 gradi di libertà. Per indicare questa trasformata si adotta la
notazione L µ L.ß7ß8 . Si può dimostrare (vedi Muirhead, 1982) che per la variabile casuale
L.ß7ß8 di Wilks vale la seguente relazione
L.ß7ß8 œ $ F/Œ!ß "à
8
3œ"
7.3 .
ß
#
#
,
164
Appendice
dove le variabili casuali beta nel prodotto sono indipendenti. Come casi particolari della
precedente relazione si ha inoltre
L.ß7ß" œ F/Œ!ß "à
7." .
ß
#
#
œ
7."
7  .  "  .J.ß7."
e
L.ß7ß# œ F/Ð!ß "à 7  .  "ß .Ñ# œ Œ
mentre
L"ß7ß8 œ F/Š!ß "à
7."
7  .  "  .J#.ß#7#.#
#
,
7 8
7
ß ‹œ
# #
7  8J8ß7
e
L#ß7ß8
7"
œ F/Ð!ß "à 7  "ß 8Ñ œ Œ
7  "  8J#8ß#7#
#
#
.
Infine, il quantile di ordine α della L di Wilks con 7 e 8 gradi di libertà viene indicato con
L.ß7ß8ßα .
Bibliografia
Bibliografia di base
Agresti, A. (1995) An introduction to categorical data analysis, Wiley, New York.
Azzalini, A. (1996) Statistical inference, Chapman and Hall, London.
Brown, L.D. (1986) Fundamentals of statistical exponential families, with applications in
statistical decision theory, Institute of Mathematical statistics, Hayward, CA.
Fattorini, L. (1994) Lezioni di calcolo delle probabilità, Nuova Immagine, Siena.
Fattorini, L. (1997) Introduzione alla statistica, Stamperia della Facoltà di Economia, Università
di Siena, Siena.
Ferguson, T.S. (1996) A course in large sample theory, Chapman and Hall, London.
Johnson, N.L. e Kotz, S. (1972) Distributions in statistics, vol. I-IV, Wiley, New York.
Lehmann, E.L. (1983) The theory of point estimation, Wiley, New York.
Muirhead, R.J. (1982) Aspects of multivariate statistical theory, Wiley, New York.
Rao, C.R. (1973) Linear statistical inference and its applications, Wiley, New York.
Seber, G.A.F. (1977) Linear regression analysis, Wiley, New York.
Wilks, S.S. (1962) Mathematical statistics, Wiley, New York.
Riferimenti bibliografici
Angus, J.E. (1982) Goodness-of-fit tests for exponentiality based on a loss-of-memory type
functional equation, Journal of Statistical Planning and Inference 6, 241-251.
Baten, W.D., Tack, P.I. e Baeder H.A. (1958) Testing for differences between methods of
preparing ish by use of a discriminant function, Industrial Quality Control 14, 6-10.
Bissel, A.F. (1972) A negative binomial model with varying element sizes, Biometrika 59, 435441.
Bhatia, M.L., Manchanda, S.C. e Roy, S.B. (1969) Coronary haemodinamic studies in chronic
severe anaemia, British Heart Journal 31, 365-374.
Box, G.E.P. e Youle, P.V. (1955) The exploration of response surfaces: an example of the link
between the fitted surface and the basic mechanism of the system, Biometrics 11, 287-323.
Dalal, S.R., Fowlkes, E.B. e Hoadley, B. (1989) Risk analysis of the space shuttle: prechallenger prediction of failure, Journal of the American Statistical Association 84, 945-957.
Dubois, C. (1970) Lowie's selected papers in antrophology, University of California Press,
California.
Dunsmore, I.R. e Daly, F. (1987) M345 Statistical methods, Unit 9: categorical data, The Open
University, Milton Keynes.
Frets, G.P. (1921) Heredity of head form in man, Genetica 3, 193-384.
Kendall, D.G. (1951) Some problems in the theory of queues, Journal of the Royal Statistical
Society, Serie B 13, 151-185.
Kramer, F. e Jensen, K. (1969) Fundamentals of multivariate analysis, Part II. Inference about
two treatments, Journal of Quality Technology 2, 32-40.
McArthur, J.W. (1931) Linkage studies with the tomato III. Fifteen factors in six groups,
Transaction of the Royal Canadian Institute 18, 1-19.
Norton, P.G e Dunn, E.V. (1985) Snoring as a risk factor for disease: an epidemiological survey,
British Medical Journal 291, 630-632.
166
Bibliografia
Odum, E.P. e Pontin, A.J. (1961) Population density of the underground ant Lasius Flavus, as
determined by tagging with T $# , Ecology 42, 186-188.
Pollock, M.L., Jackson, A.S. e Pate, R.R. (1980) Discriminant analysis of phisiological
differences between good and elite runners, Research Quarterly 51, 521-532.
Romano, A. (1977) Applied statistics for science and industry, Allyn and Bacon, Boston.
Ryan, T.A. Jr, Joiner, B.L. e Ryan, B.F. (1985) The Minitab student handbook, Duxbury Press,
Boston.
Seber, G.A.F. (1973) The estimation of animal abundance, Griffin, London.
Selvin, S. (1991) Statistical analysis of epidemiological data, Oxford University Press, New
York.
Till, R. (1974) Statistical methods for the earth scientist, McMillan, London.
Van Oost, B.A., Veldhayzen, B., Timmermans, A.P.M. e Sixma, J.J. (1983) Increased urinary " thromboglobulin excretion in diabets assayed with a modified RIA kit-technique, Thrombosis
and Haemostasis 9, 18-20.
Williams, E.J. (1959) Regression analysis, Wiley, New York.