Elementi di statistica inferenziale classica Lucio Barabesi Indice 1 Il campionamento 1.1 Il modello statistico 1.2 Le statistiche 1.3 La verosimiglianza statistica 1 1 4 9 2 La stima per punti 2.1 Introduzione 2.2 Gli stimatori corretti 2.3 Gli stimatori coerenti 2.4 Gli stimatori efficienti 2.5. Gli stimatori sufficienti 19 19 21 22 23 33 3 Le stime di massima verosimiglianza 3.1 Il metodo della massima verosimiglianza 3.2 Le proprietà degli stimatori di massima verosimiglianza 3.3 Le proprietà degli stimatori di massima verosimiglianza per grandi campioni 3.4 Alcune esemplificazioni del metodo della massima verosimiglianza 41 41 51 53 60 4 La verifica di ipotesi 4.1 Il test statistico 4.2 Il test del rapporto delle verosimiglianze 4.3 Alcune applicazioni del test del rapporto delle verosimiglianze 67 67 71 77 5 La stima per intervalli 5.1 Gli intervalli di confidenza 5.2 La stima per intervalli con grandi campioni 5.3 Le regioni di confidenza 5.4 Alcuni esempi di intervalli di confidenza 99 99 104 107 109 6 L'inferenza multivariata 6.1 Il campionamento con osservazioni multivariate 6.2 La stima per punti con osservazioni multivariate 6.3 La verifica di ipotesi con osservazioni multivariate 6.4 Le regioni di confidenza con osservazioni multivariate 112 112 116 121 146 Appendice A.1 Alcune distribuzioni continue A.2 Alcune distribuzioni discrete A.3 Le distribuzioni Chi-quadrato, > ed J A.4 Alcune distribuzioni multivariate 149 149 155 158 160 Bibliografia 165 Capitolo 1 Il campionamento 1.1. Il modello statistico 1.1.1. Il campione. Si supponga che un esperimento casuale abbia prodotto un vettore di osservazioni ÐB" ß á ß B8 Ñ. Questo vettore è detto campione, mentre la quantità 8 è detta numerosità campionaria. Ogni campione, una volta osservato, costituisce un risultato acquisito. Tuttavia, prima del rilevamento, il campione è un vettore di variabili casuali Ð\" ß á ß \8 Ñ con una funzione di ripartizione congiunta J8 ÐB" ß á ß B8 Ñ. Se ogni osservazione viene ottenuta nelle medesime condizioni sperimentali e se il campionamento è effettuato in modo da assicurare anche l'indipendenza delle osservazioni, il campione è la realizzazione di un vettore di variabili casuali indipendenti e ugualmente distribuite. In questo caso, il campione è detto casuale e questa è la situazione campionaria a cui verrà fatto riferimento più spesso nel seguito. Se il campionamento è casuale, la funzione di ripartizione congiunta di Ð\" ß á ß \8 Ñ risulta J8 ÐB" ß á ß B8 Ñ œ $ J ÐB3 Ñ , 8 3œ" dove J ÐBÑ è la funzione di ripartizione marginale comune alle \3 . Dunque, la funzione di ripartizione congiunta di Ð\" ß á ß \8 Ñ dipende solamente da J ÐBÑ. Di conseguenza, un campione casuale può essere pensato convenientemente come un insieme di 8 realizzazioni indipendenti di una variabile casuale \ con funzione di ripartizione J ÐBÑ. 1.1.2. Il modello statistico classico. L'informazione relativa all'esperimento casuale è interamente contenuta nella funzione di ripartizione congiunta J8 ÐB" ß á ß B8 Ñ. L'insieme delle funzioni di ripartizione ammissibili per l'esperimento casuale delimita una classe Y detta modello statistico. Obiettivo dell'inferenza statistica è quello di fare affermazioni sulla distribuzione di Y che ha effettivamente generato il campione ÐB" ß á ß B8 Ñ sulla base del campione stesso. L'inferenza sarà maggiormente accurata quanto più è possibile delimitare la classe Y , compatibilmente con la condizione che Y contenga effettivamente la distribuzione che ha generato il campione. Nella statistica inferenziale classica si assume nota la morfologia funzionale delle funzioni di ripartizione congiunte del modello statistico e si assume che queste siano dello stesso tipo a meno di un insieme di parametri. Se ) è un vettore di 5 parametri in uno spazio parametrico @ © ‘5 , tale che J8 ÐB" ß á ß B8 à )Ñ è una funzione di ripartizione congiunta per ogni ) − @, allora il modello statistico classico dipende solamente da ), ovvero Y) œ ÖJ8 À J8 ÐB" ß á ß B8 à )Ñ − c) × , dove c) è una famiglia parametrica di funzioni di ripartizione congiunte. L'obiettivo dell'inferenza si riduce a fare affermazioni su )! − @ il “vero valore” del parametro della distribuzione in Y) che ha generato il campione ÐB" ß á ß B8 Ñ. Quando si adotta un campionamento casuale, il modello statistico dipende solo dalla struttura delle funzioni di ripartizione marginali. Se J ÐBà )Ñ è una funzione di ripartizione per ogni ) − @, nel caso di un campionamento casuale il modello statistico classico risulta 2 Il campionamento J8 À J8 ÐB" ß á ß B8 à )Ñ œ $ J ÐB3 à )ÑŸ . 8 Y) œ 3œ" Esempio 1.1.1. Dato un campione casuale da \ µ R Ð.ß 5# Ñ, il modello statistico dipende dal vettore di parametri ) œ Ð.ß 5ÑT con @ œ ‘ ‚ ‘ , ovvero J8 À J8 ÐB" ß á ß B8 à .ß 5Ñ œ $ FŠ 8 Y.ß5 œ 3œ" B3 . ‹Ÿ . 5 Esempio 1.1.2. Dato un campione casuale da \ µ IÐ!ß 5Ñ, il modello statistico dipende dal parametro ) œ 5 con @ œ ‘ , ovvero J8 À J8 ÐB" ß á ß B8 à 5Ñ œ $ ’" expŠ 8 Y5 œ 3œ" B3 ‹“ IÐ!ß∞Ñ ÐB3 ÑŸ . 5 A meno di casi patologici, si può usualmente supporre che ad ogni funzione di ripartizione J8 ÐB" ß á ß B8 à )Ñ corrisponda una funzione di densità o funzione di probabilità congiunta 08 ÐB" ß á ß B8 à )Ñ. Dunque, per semplicità il modello statistico classico può essere specificato in termini di 08 ÐB" ß á ß B8 à )Ñ, ovvero Y) œ Ö08 À 08 ÐB" ß á ß B8 à )Ñ − c) × , dove c) è una famiglia parametrica di funzioni di densità o funzioni di probabilità congiunte. Nel caso di un campionamento casuale, il modello statistico classico può essere espresso in termini della funzione di densità o della funzione di probabilità 0 ÐBà )Ñ relativa a J ÐBà )Ñ, ovvero 08 À 08 ÐB" ß á ß B8 à )Ñ œ $ 0 ÐB3 à )ÑŸ . 8 Y) œ 3œ" Esempio 1.1.3. Dato un campione casuale da \ µ R Ð.ß 5# Ñ, il modello statistico dell'Esempio 1.1.1 può essere scritto in maniera equivalente come 08 À 08 ÐB" ß á ß B8 à .ß 5Ñ œ $ 8 Y.ß5 œ 3œ" " B3 . 9Š ‹Ÿ . 5 5 Esempio 1.1.4. Dato un campione casuale da \ µ IÐ!ß 5Ñ, il modello statistico dell'Esempio 1.1.2 può essere scritto in maniera equivalente come 08 À 08 ÐB" ß á ß B8 à 5Ñ œ $ 8 Y5 œ 3œ" " B3 expŠ ‹ IÐ!ß∞Ñ ÐB3 ÑŸ . 5 5 1.1.3. Lo spazio campionario. Connesso al concetto di modello statistico vi è quello di spazio campionario, ovvero l'insieme V8 di tutte le possibili realizzazioni del campione compatibili con il modello statistico stesso. Se f8ß) è il supporto di 08 ÐB" ß á ß B8 à )Ñ, allora lo spazio campionario è dato da Capitolo 1 3 V8 œ . f8ß) . ) −@ Nel caso di un campionamento casuale si ha f8ß) œ f) ‚ á ‚ f) , dove f) è il supporto di 0 ÐBà )Ñ. Esempio 1.1.5. Dato un campione casuale da \ µ R Ð.ß "Ñ, il modello statistico dipende dal parametro ) œ . con @ œ ‘, ovvero 08 À 08 ÐB" ß á ß B8 à .Ñ œ $ 9ÐB3 .ÑŸ . 8 Y. œ 3œ" Dal momento che f. œ ‘, allora si ha f8ß. œ ‘ ‚ á ‚ ‘ œ ‘8 . Di conseguenza, lo spazio campionario risulta V8 œ . f8ß. œ ‘8 . .−‘ Esempio 1.1.6. Dato un campione casuale da \ µ IÐ-ß "Ñ, il modello statistico dipende dal parametro ) œ - con @ œ ‘, ovvero 08 À 08 ÐB" ß á ß B8 à -Ñ œ $ expÒ ÐB3 -ÑÓ IÐ!ß∞Ñ ÐB3 -ÑŸ . 8 Y- œ 3œ" Dal momento che f- œ Ð-ß ∞Ñ, allora si ha f8ß- œ Ð-ß ∞Ñ ‚ á ‚ Ð-ß ∞Ñ. Di conseguenza lo spazio campionario risulta V8 œ . f8ß- œ ‘8 . -−‘ 1.1.4. La parametrizzazione. Un modello statistico può avere varie formulazioni equivalenti, ovvero si possono avere diverse parametrizzazioni. Sia gÀ @ Ä I con I © ‘5 una funzione vettoriale biunivoca. Se # œ gÐ)Ñ con # − I , il modello statistico Y) può essere espresso come Y) œ Ö08 À 08 ÐB" ß á ß B8 à )Ñ − c) × œ Ö08 À 08 ÐB" ß á ß B8 à g" Ð#ÑÑ − cg" Ð# Ñ× œ Z# , ovvero Z# e Y) sono modelli statistici equivalenti. La preferenza per una certa parametrizzazione è legata all'interpretazione statistica del parametro scelto. In ogni caso sussiste una certa arbitarietà nella parametrizzazione, che può dipendere anche dalla facilità di trattazione matematica del modello statistico selezionato. Esempio 1.1.7. Dato un campione casuale da \ µ R Ð!ß 5# Ñ, il modello statistico dipende dal parametro ) œ 5 con @ − ‘ , ovvero 08 À 08 ÐB" ß á ß B8 à 5Ñ œ $ 8 Y5 œ 3œ" " B3 9Š ‹Ÿ . 5 5 La trasformazione 8 œ 1Ð5Ñ œ 5# per 5 ! è biunivoca. Quindi, il modello statistico può esserre riparametrizzato in termini della varianza piuttosto che dello scarto quadratico medio, ovvero 4 Il campionamento 08 À 08 ÐB" ß á ß B8 à 8Ñ œ $ 8 Z8 œ 3œ" " B3 9 . È8 È8 Ÿ Generalizzando questo esempio, quando si dispone di un campione casuale da \ µ R Ð.ß 5# Ñ, anche il modello statistico dell'Esempio 1.1.3 può essere scritto in termini della media e della varianza, ovvero 08 À 08 ÐB" ß á ß B8 à .ß 8Ñ œ $ 8 Z.ß8 œ 3œ" " B3 . 9 . È8 È8 Ÿ Per questo modello statistico è conveniente considerare la precedente parametrizzazione, in quanto permette di semplificare la trattazione matematica. Esempio 1.1.8. Si supponga che il campione ÐC" ß á ß C8 Ñ sia la determinazione di un vettore di variabili casuali Ð]" ß á ß ]8 Ñ con componenti indipendenti e tali che ]3 µ R Ðα " A3 ß 5# Ñ. Si assuma inoltre che le componenti del vettore ÐA" ß á ß A8 Ñ siano quantità note e fisse. Il campione non è casuale, in quanto le ]3 non sono ugualmente distribuite. Il modello statistico risultante dipende dal vettore di parametri ) œ Ðαß " ß 5ÑT con @ œ ‘# ‚ ‘ ed è dato da 08 À 08 ÐC" ß á ß C8 à αß " ß 5Ñ œ $ 8 Y α ß" ß 5 œ 3œ" " C3 α " A3 9Œ Ÿ. 5 5 Si può porre – " ÐA3 AÑ – œ + ,D3 , EÐ]3 Ñ œ α " A3 œ α " A – , , œ " e D3 œ A3 A –, mentre A – œ 8" 8 A3 . Questa riformulazione di dove + œ α " A 3œ" EÐ]3 Ñ è conveniente, dal momento che le nuove quantità fisse ÐD" ß á ß D8 Ñ sono tali che –D œ 8" 8 D3 œ !. Inoltre, la trasformazione Ð+ß ,ß 8Ñ œ Ðα " Aß – " ß 5 # Ñ è biunivoca, e 3œ" quindi il modello può essere riparametrizzato come segue 08 À 08 ÐC" ß á ß C8 à +ß ,ß 8Ñ œ $ 8 Z+ß,ß8 œ 3œ" " C3 + ,D3 9 Ÿ, È8 È8 dove Ð+ß ,ß 8Ñ − ‘# ‚ ‘ . Questo modello statistico è fondamentale e costituisce il cosiddetto modello di regressione lineare (vedi Seber, 1977). 1.2. Le statistiche 1.2.1. La definizione di statistica. Piuttosto che considerare il campione originale nella sua interezza può essere conveniente talvolta sintetizzarlo in qualche maniera. Dato un modello statistico Y) , si dice statistica una trasformazione misurabile X À V8 Ä ‘ che non dipende da ) . Un valore > œ X ÐB" ß á ß B8 Ñ è detto realizzazione campionaria di X relativa al campione ÐB" ß á ß B8 Ñ. Prima del rilevamento la statistica X œ X Ð\" ß á ß \8 Ñ è una variabile casuale, la cui distribuzione dipende dal modello statistico considerato. La statistica induce una partizione dello spazio campionario in insiemi del tipo EÐ>Ñ œ ÖÐB" ß á ß B8 ÑÀ ÐB" ß á ß B8 Ñ − V8 ß X ÐB" ß á ß B8 Ñ œ >× , ovvero in insiemi di campioni per cui il relativo valore della statistica risulta costante. Capitolo 1 5 La definizione di statistica può essere estesa ad un vettore di statistiche T, dove TÀ V8 Ä ‘5 è un vettore di trasformazioni misurabili a 5 componenti che non dipende da ) . Esempio 1.2.1. Dato un campione casuale da \ µ R Ð.ß 8Ñ, si consideri la statistica 8 X œ \3 . 3œ" Dal momento che \3 µ R Ð.ß 8Ñ, tenendo presente che X è una somma di variabili casuali indipendenti, in base alla proprietà ii) della §A.1.2 si ottiene che X µ R Ð8.ß 88Ñ. Esempio 1.2.2. Dato un campione casuale \ µ IÐ!ß 5Ñ, si consideri di nuovo la statistica X dell'Esempio 1.2.1. Dal momento che \3 µ IÐ!ß 5Ñ, tenendo presente che X è una somma di variabili casuali indipendenti, in base alla proprietà ii) della §A.1.4 si ha X µ KÐ!ß 5à 8Ñ. 1.2.2. La media campionaria. Dato un modello statistico Y) relativo ad un campionamento casuale da una variabile casuale \ tale che VarÐ\Ñ œ 8 ∞, si consideri la statistica media campionaria, la cui realizzazione campionaria è data da –œ " B 8 8 B3 . 3œ" Da un punto di vista probabilistico, la media campionaria è data dalla variabile casuale " – \œ 8 8 \3 . 3œ" Dal momento che . e 8 sono finiti, si ha " – EÐ\Ñ œ 8 8 EÐ\3 Ñ œ . , 3œ" e, tenendo presente l'indipendenza delle variabili casuali Ð\" ß á ß \8 Ñ, " – VarÐ\Ñ œ # 8 8 VarÐ\3 Ñ œ 3œ" 8 . 8 Esempio 1.2.3. Dato un campione casuale da \ µ R Ð.ß 8Ñ, si consideri la media campionaria – – \ . Dal momento che \3 µ R Ð.ß 8Ñ, tenendo presente che \ è una combinazione lineare di – variabili casuali indipendenti, in base alle proprietà ii) della §A.1.2 si ha \ µ R Ð.ß 8Î8Ñ. – – Risultano quindi verificati i risultati di questa sezione, in quanto EÐ\Ñ œ . e VarÐ\Ñ œ 8Î8. Esempio 1.2.4. Dato un campione casuale da \ µ IÐ!ß 5Ñ, si consideri la media campionaria – – \ . Dal momento che \3 µ IÐ!ß 5Ñ, tenendo presente che \ è una combinazione lineare di – variabili casuali indipendenti, in base alle proprietà ii) della §A.1.4 si ha \ µ KÐ!ß 5Î8à 8Ñ. – – Inoltre, per la proprietà i) della §A.1.4, si ha EÐ\Ñ œ 5 e VarÐ\Ñ œ 5# Î8. Dunque, risultano verificati i risultati di questa sezione, in quanto per la IÐ!ß 5Ñ si ha EÐ\Ñ œ 5 e VarÐ\Ñ œ 5# . 1.2.3. La varianza campionaria. Dato un modello statistico Y) relativo ad un campionamento casuale da una variabile casuale \ tale che VarÐ\Ñ œ 8 ∞, si consideri la statistica varianza campionaria, la cui realizzazione campionaria è data da 6 Il campionamento =# œ " 8 8 – #. ÐB3 BÑ 3œ" Da un punto di vista probabilistico, la varianza campionaria è data dalla variabile casuale " W œ 8 8 # – Ð\3 \Ñ# . 3œ" Al fine di derivare le proprietà della varianza campionaria, risulta conveniente esprimere =# nel modo seguente " = œ 8 8 # œ œ " 8 " 8 – .ÑÓ# ÒÐB3 .Ñ ÐB 3œ" 8 ÐB3 .Ñ# 3œ" 8 8 # – ÐB .Ñ 8 – .Ñ# ÐB3 .Ñ ÐB 3œ" – .Ñ# . ÐB3 .Ñ# ÐB 3œ" Di conseguenza, la varianza campionaria può essere espressa come " W œ 8 8 # – Ð\3 .Ñ# Ð\ .Ñ# . 3œ" Sulla base della precedente relazione, si ottiene che EÐW # Ñ œ " 8 8 3œ" " – EÒÐ\3 .Ñ# Ó EÒÐ\ .Ñ# Ó œ 8 8 3œ" 8" – VarÐ\3 Ñ VarÐ\Ñ œ 8. 8 Piuttosto che la varianza campionaria W # si adotta spesso la cosiddetta varianza campionaria corretta data da W-# œ 8 " W# œ 8" 8" 8 – Ð\3 \Ñ# . 3œ" La varianza campionaria corretta W-# viene spesso preferita a W # , dal momento che gode della proprietà EÐW-# Ñ œ 8. Esempio 1.2.5. Dato un campione casuale da \ µ R Ð.ß 8Ñ, si vuole determinare la distribuzione della varianza campionaria corretta W-# . Si consideri le cosiddette statistiche scarto – H3 œ \ 3 \ œ 8 -34 \4 , 4œ" dove -34 œ 8" " 8" 4Á3 4œ3. Le statistiche scarto sono variabili casuali Normali, essendo combinazioni lineari di variabili casuali Normali indipendenti in base alla proprietà ii) della §A.1.2. Inoltre, dal momento che Capitolo 1 7 8 – \œ .4 \ 4 , 4œ" dove .4 œ " , 8 – anche \ è una combinazione lineare delle medesime variabili casuali Normali indipendenti. Infine, si ha 8 -34 .4 œ 4œ" 8" " " Œ" # 8 8 8 œ! – e dunque H3 e \ sono indipendenti per la proprietà iii) della §A.1.2. Di conseguenza, essendo W-# œ " 8" 8 H3# 3œ" – una trasformata delle statistiche scarto, anche W-# e \ sono indipendenti. Si può dimostrare che questo risultato è valido solo per questo particolare modello statistico (vedi Wilks, 1962). Dividendo ora ambo i membri dell'espressione della varianza corretta per 8 e tenendo presente la relazione ottenuta per W # , si ottiene la seguente relazione – 8 Ð\3 .Ñ# W-# Ð\ .Ñ# œ Ð8 "Ñ . 8 8 8Î8 3œ" Le variabili casuali \3 µ R Ð.ß 8Ñ sono indipendenti e dunque risulta 8 3œ" Ð\3 .Ñ# µ ;#8 8 – (vedi §A.3.2). Inoltre nell'Esempio 1.2.3 è stato verificato che \ µ R Ð.ß 8Î8Ñ, da cui – Ð\ .Ñ# µ ;#" . 8Î8 – Dal momento che W-# e \ sono indipendenti, per la proprietà i) della §A.3.2, in base alle relazioni precedenti si deve concludere che Ð8 "Ñ W-# µ ;#8" . 8 Dunque, si ha E”Ð8 "Ñ W-# W-# œ 8 " , Ð8 "Ñ Var • ” • œ #Ð8 "Ñ 8 8 (vedi §A.3.2), da cui EÐW-# Ñ œ 8 , Var”Ð8 "Ñ – Inoltre, anche W # è indipendente da \ , mentre W-# • œ #Ð8 "Ñ . 8 8 Il campionamento 8W # µ ;#8" , 8 da cui EÐW # Ñ œ 8" #Ð8 "Ñ # 8 , VarÐW # Ñ œ 8 . 8 8# 1.2.4. La statistica ordinata. Dato un modello statistico Y) relativo ad un campionamento casuale da una variabile casuale \ , si consideri il vettore ÐBÐ"Ñ ß á ß BÐ8Ñ Ñ i cui elementi sono gli elementi ordinati del campione ÐB" ß á ß B8 Ñ. Da un punto di vista probabilistico il vettore ÐBÐ"Ñ ß á ß BÐ8Ñ Ñ è la realizzazione campionaria del vettore di statistiche Ð\Ð"Ñ ß á ß \Ð8Ñ Ñ, detto statistica ordinata. Inoltre, la statistica \Ð3Ñ è detta i-esima statistica ordinata. La mediana campionaria è funzione della statistica ordinata. In effetti, se 8 è dispari, ovvero ~ 8 œ #6 " dove 6 è un intero, la mediana campionaria è definita come \ œ \Ð6"Ñ . ~ Alternativamente, se 8 è pari, ovvero 8 œ #6, allora la mediana campionaria \ viene ~ usualmente definita come \ œ Ð\Ð6Ñ \Ð6"Ñ ÑÎ#. Una realizzazione della mediana campionaria ~. viene indicata con B Se la variabile casuale \ da cui si sta campionando è continua, allora la distribuzione della statistica ordinata può essere ottenuta in una forma semplice. La funzione di densità congiunta di Ð\Ð"Ñ ß á ß \Ð8Ñ Ñ risulta (vedi Wilks, 1962) 0Ð\Ð"Ñ ßáß\Ð8Ñ Ñ ÐBÐ"Ñ ß á ß BÐ8Ñ Ñ œ 8x IH ÐBÐ"Ñ ß á ß BÐ8Ñ Ñ $ 0 ÐBÐ3Ñ à )Ñ , 8 3œ" dove H œ ÖÐBÐ"Ñ ß á ß BÐ8Ñ ÑÀ ∞ BÐ"Ñ á BÐ8Ñ ∞×, mentre la funzione di densità marginale di \Ð3Ñ è data da 0\Ð3Ñ ÐBÐ3Ñ Ñ œ 8 Œ 8" 3" J ÐBÐ3Ñ à )Ñ3" Ò" J ÐBÐ3Ñ à )ÑÓ83 0 ÐBÐ3Ñ à )Ñ . Esempio 1.2.6. Dato un campione casuale da \ µ Y Ð!ß $ Ñ, il modello statistico dipende dal parametro ) œ $ con @ œ ‘ , ovvero 08 À 08 ÐB" ß á ß B8 à $ Ñ œ $ 8 Y$ œ 3œ" " B3 IÐ!ß"Ñ Š ‹Ÿ . $ $ Si consideri la massima statistica ordinata, ovvero \Ð8Ñ . Dal momento che il campione è casuale e la variabile casuale da cui si sta campionando è continua, la funzione di densità di \Ð8Ñ risulta 0\Ð8Ñ ÐBÐ8Ñ Ñ œ 8 Š BÐ8Ñ 8" " BÐ8Ñ IÐ!ß"Ñ Š ‹ ‹, $ $ $ ovvero \Ð8Ñ µ F/Ð!ß $ à 8ß "Ñ. Analogamente, \Ð"Ñ µ F/Ð!ß $ à "ß 8Ñ. Esempio 1.2.7. Dato un campione casuale da \ µ Y Ð!ß $ Ñ, supponendo la numerosità campionaria dispari con 8 œ #6 ", si vuole determinare la distribuzione della mediana ~ campionaria \ . Dal momento che il campione è casuale e la variabile casuale da cui si sta ~ campionando è continua, la funzione di densità di \ œ \Ð6"Ñ risulta Capitolo 1 9 ~ 0\~ ÐBÑ ~ #6 B œ Ð#6 "Ñ Œ Œ 6 $ 6 ~ B Œ" $ 6 ~ " B IÐ!ß"Ñ Œ $ $ , ~ ovvero \ µ F/Ð!ß $ à 6 "ß 6 "Ñ. 1.3. La verosimiglianza statistica 1.3.1. La funzione di verosimiglianza. Dato un modello statistico Y) , una volta che il campione ÐB" ß á ß B8 Ñ è stato osservato, la quantità 08 ÐB" ß á ß B8 à )Ñ è funzione solo di ) . Questa funzione rappresenta la (densità di) probabilità di osservare a priori esattamente il campione ÐB" ß á ß B8 Ñ che è stato estratto e contiene tutta l'informazione relativa al campione stesso. Anche una generica funzione del tipo -08 ÐB" ß á ß B8 à )Ñ, con - œ -ÐB" ß á ß B8 Ñ costante positiva che non dipende da ), offre una informazione equivalente a quella fornita da 08 ÐB" ß á ß B8 à )Ñ. Infatti, se si deve scegliere fra due valori ) w e ) ww in @, il criterio fondamentale su cui si basa la preferenza è dato dal rapporto <œ 08 ÐB" ß á ß B8 à ) w Ñ , 08 ÐB" ß á ß B8 à ) ww Ñ che risulta inalterato moltiplicando numeratore e denominatore per una stessa quantità. Si dice funzione di verosimiglianza (o verosimiglianza) la funzione PÀ @ Ä ‘ ∪ Ö!× data da PÐ)Ñ œ PÐ)à B" ß á ß B8 Ñ œ -08 ÐB" ß á ß B8 à )Ñ , ) − @ . La notazione PÐ)à B" ß á ß B8 Ñ viene adottata perchè in alcuni casi si vuole enfatizzare che la verosimiglianza è riferita proprio al campione ÐB" ß á ß B8 Ñ. Molto spesso viene considerata anche la funzione di log-verosimiglianza, data da 6Ð)Ñ œ 6Ð)à B" ß á ß B8 Ñ œ ln PÐ)Ñ œ ln - ln 08 ÐB" ß á ß B8 à )Ñ , ) − @ , con la convenzione che 6Ð)Ñ œ ∞ se PÐ)Ñ œ !. Nel caso di un campionamento casuale la funzione di verosimiglianza risulta PÐ)Ñ œ PÐ)à B" ß á ß B8 Ñ œ - $ 0 ÐB3 à )Ñ , ) − @ , 8 3œ" mentre la funzione di log-verosimiglianza si riduce a 8 6Ð)Ñ œ 6Ð)à B" ß á ß B8 Ñ œ ln - ln 0 ÐB3 à )Ñ , ) − @ . 3œ" È sempre opportuno rappresentare graficamente la verosimiglianza o la log-verosimiglianza, almeno quando 5 œ " o 5 œ #. Se 5 #, è possibile ottenere una rappresentazione grafica parziale della verosimiglianza attraverso il concetto di verosimiglianza profilo. Questo argomento verrà analizzato nella §3.1.1. Dal momento che la scelta di - è arbitraria, per la rappresentazione grafica è conveniente standardizzare la verosimiglianza rispetto al suo massimo (se questo è finito), ovvero scegliere - œ "Îmax)−@ PÐ)Ñ, in modo tale da ottenere una verosimiglianza normata in Ò!ß "Ó. Di seguito viene data una serie di esempi che considerano una gamma di funzioni di verosimiglianza al variare del modello statistico. 10 Il campionamento Esempio 1.3.1. Dato un campione casuale da \ µ R Ð.ß "Ñ, la verosimiglianza risulta PÐ.Ñ œ - $ 9ÐB3 .Ñ œ - $ Ð#1Ñ"Î# exp” 8 8 3œ" 3œ" œ - exp– " ÐB3 .Ñ# • # " ÐB3 .Ñ# — # 3œ" 8 – .Ñ# Ó› , . − ‘ , œ - expš Ò=# ÐB # 8 dove nell'ultimo passaggio si è adoperato la relazione ottenuta nella §1.2.3. Il grafico della – œ " e =# œ # è riportato in Figura 1.3.1. verosimiglianza standardizzata per 8 œ &, B Nella precedente espressione è stato effettuato un abuso di notazione, nel senso che la costante - non è la stessa fra i vari passaggi algebrici. Si adopera questa convenzione per indicare che la costante - contiene una quantità che non dipende dai parametri e nel seguito verrà adottata senza ulteriore commento. Inoltre, la verosimiglianza è stata espressa in funzione delle realizzazioni campionarie delle – statistiche \ e W # , al fine di ottenere un'espressione più compatta. Questo fatto ha importanti risvolti teorici, come sarà visto nei successivi capitoli. Infine, la log-verosimiglianza risulta 8 – .Ñ# Ó , . − ‘ . 6Ð.Ñ œ ln - Ò=# ÐB # 1 0.8 0.6 0.4 0.2 0 − 0.5 0 0.5 1 1.5 2 2.5 – œ " e =# œ # . Figura 1.3.1. Verosimiglianza standardizzata per 8 œ &, B Esempio 1.3.2. Generalizzando l'esempio precedente, dato un campione casuale da \ µ R Ð.ß 8Ñ, tenendo presente i risultati della §1.2.3, si ottiene la seguente verosimiglianza PÐ.ß 8Ñ œ - $ 8 3œ" " B3 . 9 È8 È8 œ - $ Ð#18Ñ"Î# exp” 8 3œ" " ÐB3 .Ñ# • #8 œ - 88Î# exp– " 8 ÐB3 .Ñ# — #8 3œ" 8 # – .Ñ# Ó› , œ - 88Î# expš Ò= ÐB #8 –œ" e dove Ð.ß 8Ñ − ‘ ‚ ‘ . Il grafico della verosimiglianza standardizzata per 8 œ &, B # = œ # è riportato in Figura 1.3.2. Infine, la log-verosimiglianza risulta 8 8 # – .Ñ# Ó , Ð.ß 8Ñ − ‘ ‚ ‘ . 6Ð.ß 8Ñ œ ln - ln 8 Ò= ÐB # #8 Capitolo 1 11 1 0.75 8 0.5 6 0.25 4 0 3 2 2 1 0 −1 – œ " e =# œ # . Figura 1.3.2. Verosimiglianza standardizzata per 8 œ &, B Esempio 1.3.3. Dato un campione casuale da \ µ IÐ!ß 5Ñ, si ha la seguente verosimiglianza PÐ5Ñ œ - $ 8 3œ" – " B3 8B expŠ ‹ IÐ!ß∞Ñ ÐB3 Ñ œ - 58 expŠ ‹ , 5 − ‘ . 5 5 5 – La verosimiglianza è stata espressa in funzione della realizzazione della statistica \ . Il grafico – œ " è riportato in Figura 1.3.3. Infine, la logdella verosimiglianza standardizzata per 8 œ & e B verosimiglianza risulta – 8B 6Ð5Ñ œ ln - 8 ln 5 , 5 − ‘ . 5 1 0.8 0.6 0.4 0.2 0 0 0.5 1 1.5 2 2.5 – œ ". Figura 1.3.3. Verosimiglianza standardizzata per 8 œ & e B Esempio 1.3.4. Dato un campione casuale da \ µ Y Ð!ß $ Ñ, la verosimiglianza risulta PÐ$ Ñ œ - $ 8 3œ" BÐ8Ñ " B3 IÐ!ß"Ñ Š ‹ œ - $ 8 IÐ!ß"Ñ Š ‹ œ - $ 8 IÐBÐ8Ñ ß∞Ñ Ð$ Ñ , $ − ‘ , $ $ $ dal momento che #83œ" IÐ!ß"Ñ ÐB3 Î$ Ñ œ " quando $ B3 per ogni 3, ovvero quando si ha $ BÐ8Ñ . La verosimiglianza è stata espressa in funzione della realizzazione della statistica \Ð8Ñ , ovvero 12 Il campionamento la massima statistica ordinata. Il grafico della verosimiglianza standardizzata per 8 œ & e BÐ&Ñ œ " è riportato in Figura 1.3.4. Infine, la log-verosimiglianza risulta 6Ð$ Ñ œ ln - 8 ln $ ln IÐBÐ8Ñ ß∞Ñ Ð$ Ñ , $ − ‘ . 1 0.8 0.6 0.4 0.2 0 0 0.5 1 1.5 2 2.5 3 Figura 1.3.4. Verosimiglianza standardizzata per 8 œ & e BÐ&Ñ œ ". Esempio 1.3.5. Dato un campione casuale da \ µ F3Ð"ß :Ñ, il modello statistico dipende dal parametro ) œ : con @ œ Ð!ß "Ñ, ovvero 08 À 08 ÐB" ß á ß B8 à :Ñ œ $ :B3 Ð" :Ñ"B3 IÖ!ß"× ÐB3 ÑŸ , 8 Y: œ 3œ" da cui si ottiene la seguente verosimiglianza PÐ:Ñ œ - $ :B3 Ð" :Ñ"B3 IÖ!ß"× ÐB3 Ñ œ -:8B Ð" :Ñ88B , : − Ð!ß "Ñ . 8 – – 3œ" – La verosimiglianza è stata espressa in funzione della realizzazione della media campionaria \ . – œ !.# è riportato in Figura 1.3.5. Il grafico della verosimiglianza standardizzata per 8 œ & e B Infine, la log-verosimiglianza risulta – ln : Ð8 8BÑ – lnÐ" :Ñ , : − Ð!ß "Ñ . 6Ð:Ñ œ ln - 8B 1 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 – œ !.#. Figura 1.3.5. Verosimiglianza standardizzata per 8 œ & e B Capitolo 1 13 Esempio 1.3.6. Dato il modello di regressione lineare dell'Esempio 1.1.8, la verosimiglianza risulta " C3 + ,D3 PÐ+ß ,ß 8Ñ œ - $ 9 È8 È8 3œ" œ - $ Ð#18Ñ"Î# expŒ 8 œ - 88Î# exp– " #8 8 3œ" 8 3œ" C3 + ,D3 #8 ÐC3 + ,D3 Ñ# — , Ð+ß ,ß 8Ñ − ‘# ‚ ‘ . Siano dunque –C e =#C la media e la varianza di ÐC" ß á ß C8 Ñ, mentre sia =#D 8 " œ 8 D3# 3œ" la varianza di ÐD" ß á ß D8 Ñ e =DC 8 " œ 8 D3 C3 3œ" la relativa covarianza (tenendo presente dall'Esempio 1.1.8 che –D œ !). Dunque, si ha 8 8 ÐC3 + ,D3 Ñ# œ 3œ" 3œ" 8 œ – +ÑÓ# ÒÐC3 –CÑ ,D3 ÐC 8 ÐC3 –CÑ# , # 3œ" – +Ñ# #, D3# 8ÐC 3œ" 8 ÐC3 –CÑD3 3œ" – +Ñ# #8,=DC œ 8=#C 8, # =D# 8ÐC œ8 dove è stato tenuto presente che PÐ+ß ,ß 8Ñ œ - 88Î# exp =DC 8Œ,=D =D =#DC # =D =C# 8 3œ" D3 8 3œ" ÐC3 œ!e # – +Ñ# , 8ÐC –CÑ œ !. Di conseguenza, =#DC =DC 8 # = Œ,=D C – # #8 =D =D # – +Ñ# ÐC —Ÿ , con Ð+ß ,ß 8Ñ − ‘# ‚ ‘ . La verosimiglianza è stata espressa in funzione delle realizzazioni delle statistiche " – ] œ 8 8 ]3 , 3œ" e WC# œ " 8 8 – Ð]3 ] Ñ# 3œ" e della statistica WDC Infine, la log-verosimiglianza risulta " œ 8 8 D 3 ]3 . 3œ" 14 Il campionamento =#DC =DC 8 8 # 6Ð+ß ,ß 8Ñ œ ln - ln 8 =C # Œ,=D – # #8 =D =D # – +Ñ# , ÐC — con Ð+ß ,ß 8Ñ − ‘# ‚ ‘ . Esempio 1.3.7. Dato un campione casuale da \ µ IÐ-ß 5Ñ, il modello statistico dipende dal vettore di parametri ) œ Ð-ß 5ÑT con @ œ ‘ ‚ ‘ , ovvero 08 À 08 ÐB" ß á ß B8 à -ß 5Ñ œ $ 8 Y - ß5 œ 3œ" " B3 expŒ IÐ!ß∞Ñ ÐB3 -ÑŸ . 5 5 La verosimiglianza risulta PÐ-ß 5Ñ œ - $ " B3 expŒ IÐ!ß∞Ñ ÐB3 -Ñ 5 5 3œ" –B œ - 58 expŒ 8 IÐ!ß∞Ñ ÐBÐ"Ñ -Ñ 5 –B œ - 58 expŒ 8 IÐ∞ßBÐ"Ñ Ñ Ð-Ñ , Ð-ß 5Ñ − ‘ ‚ ‘ , 5 8 dove si è tenuto conto che #83œ" IÐ!ß∞Ñ ÐB3 -Ñ œ " quando - B3 per ogni 3, ovvero quando si ha - BÐ"Ñ . La verosimiglianza è stata espressa in funzione delle realizzazioni delle statistiche – – œ # e BÐ"Ñ œ " è riportato \ e \Ð"Ñ . Il grafico della verosimiglianza standardizzata per 8 œ &, B in Figura 1.3.6. Infine, la log-verosimiglianza risulta –B 6Ð-ß 5Ñ œ ln - 8 ln 5 8 ln IÐ∞ßBÐ"Ñ Ñ Ð-Ñ , Ð-ß 5Ñ − ‘ ‚ ‘ . 5 1 0.75 4 0.5 3 0.25 2 0 1 0.25 0 25 0.5 0.75 1 0 – œ # e BÐ"Ñ œ ". Figura 1.3.6. Verosimiglianza standardizzata per 8 œ &, B Esempio 1.3.8. Dato un campione casuale \ µ Y Ð-ß - $ Ñ, il modello statistico dipende dal vettore di parametri ) œ Ð-ß $ ÑT con @ œ ‘ ‚ ‘ , ovvero Capitolo 1 15 08 À 08 ÐB" ß á ß B8 à -ß $ Ñ œ $ 8 Y - ß$ œ 3œ" " B3 IÐ!ß"Ñ Œ Ÿ, $ $ da cui PÐ-ß $ Ñ œ - $ 8 3œ" " B3 IÐ!ß"Ñ Œ $ $ œ - $ 8 IÐ!ß"Ñ Œ BÐ"Ñ BÐ8Ñ IÐ!ß"Ñ Œ $ $ œ - $ 8 IÐ∞ßBÐ"Ñ Ñ Ð-ÑIÐBÐ8Ñ ß∞Ñ Ð- $ Ñ , Ð-ß $ Ñ − ‘ ‚ ‘ , dal momento che #83œ" IÐ!ß"Ñ ÒÐB3 -ÑÎ$ Ó œ " quando - B3 - $ per ogni 3, ovvero quando si ha - BÐ"Ñ e - $ BÐ8Ñ . La verosimiglianza è stata espressa in funzione delle realizzazioni delle statistiche \Ð"Ñ e \Ð8Ñ . Il grafico della verosimiglianza standardizzata per 8 œ &, BÐ"Ñ œ " e BÐ&Ñ œ # è riportato in Figura 1.3.7. Infine, la log-verosimiglianza risulta 6Ð-ß $ Ñ œ ln - 8 ln $ ln IÐ∞ßBÐ"Ñ Ñ Ð-Ñ ln IÐBÐ8Ñ ß∞Ñ Ð- $ Ñ , Ð-ß $ Ñ − ‘ ‚ ‘ . 1 0.75 0.5 2 0.25 1.5 0 1 0.25 0 25 0.5 0.75 1 0 Figura 1.3.7. Verosimiglianza standardizzata per 8 œ &, BÐ"Ñ œ " e BÐ&Ñ œ #. Esempio 1.3.9. Dato un campione casuale da \ µ T 9Ð.Ñ, il modello statistico dipende dal parametro ) œ . con @ œ ‘ , ovvero 08 À 08 ÐB" ß á ß B8 à .Ñ œ $ expÐ .Ñ 8 Y. œ 3œ" .B3 IÖ!ß"ßá× ÐB3 ÑŸ . B3 x Di conseguenza, la funzione di verosimiglianza risulta PÐ.Ñ œ - $ expÐ .Ñ 8 3œ" .B3 – IÖ!ß"ßá× ÐB3 Ñ œ - expÐ 8.Ñ.8B , . − ‘ . B3 x – La verosimiglianza è stata espressa in funzione della realizzazione della media campionaria \ . – œ " è riportato in Figura 1.3.8. Il grafico della verosimiglianza standardizzata per 8 œ & e B Infine, la log-verosimiglianza risulta – ln . , . − ‘ . 6Ð.Ñ œ ln - 8. 8B 16 Il campionamento 1 0.8 0.6 0.4 0.2 0 0 0.5 1 1.5 2 2.5 3 – œ ". Figura 1.3.8. Verosimiglianza standardizzata per 8 œ & e B Esempio 1.3.10. Dato un campione casuale da \ µ PÐ.ß "Ñ, il modello statistico dipende dal parametro ) œ . con @ œ ‘, ovvero 08 À 08 ÐB" ß á ß B8 à .Ñ œ $ 8 Y. œ 3œ" " expÐ ± B3 . ± ÑŸ . # In questo caso si ha la seguente verosimiglianza 8 PÐ.Ñ œ - exp 8 ± B3 . ± œ - exp 3œ" ± BÐ3Ñ . ± ,.−‘. 3œ" La verosimiglianza è stata espressa in funzione della realizzazione della statistica ordinata Ð\Ð"Ñ ß á ß \Ð8Ñ Ñ. Nelle Figure 1.3.9 e 1.3.10 è riportato il grafico della verosimiglianza standardizzata per una numerosità pari ed una dispari. Infine, la log-verosimiglianza risulta 8 6Ð.Ñ œ ln - 8 ± B3 . ± œ ln - 3œ" ± BÐ3Ñ . ± , . − ‘ . 3œ" 1 0.8 0.6 0.4 0.2 0 0 2 4 6 Figura 1.3.9. Verosimiglianza standardizzata per 8 œ % e ÐBÐ"Ñ ß BÐ#Ñ ß BÐ$Ñ ß BÐ%Ñ Ñ œ Ð "ß #ß %ß *Ñ. Capitolo 1 17 1 0.8 0.6 0.4 0.2 0 0 2 4 6 8 Figura 1.3.10. Verosimiglianza standardizzata per 8 œ & e ÐBÐ"Ñ ß BÐ#Ñ ß BÐ$Ñ ß BÐ%Ñ ß BÐ&Ñ Ñ œ Ð "ß #ß %ß &ß *Ñ. Esempio 1.3.11. Si consideri la variabile casuale discreta \ con funzione di probabilità 0\ ÐBÑ œ " IÖ"ßáßR × ÐBÑ , R dove R − . Questa variabile casuale è la versione discreta di una Uniforme. Dato un campione casuale, il modello statistico dipende dal parametro ) œ R con @ œ , ovvero 08 À 08 ÐB" ß á ß B8 à R Ñ œ $ 8 YR œ 3œ" " IÖ"ßáßR × ÐB3 ÑŸ . R Di conseguenza, la funzione di verosimiglianza risulta PÐR Ñ œ - $ 8 3œ" " IÖ"ßáßR × ÐB3 Ñ œ -R 8 IÖ"ßáßR × ÐBÐ8Ñ Ñ œ -R 8 IÖBÐ8ÑßBÐ8Ñ"ßá× ÐR Ñ , R con R − , e dove si è tenuto conto che #83œ" IÖ"ßáßR × ÐB3 Ñ œ " quando R B3 per ogni 3, ovvero quando si ha R BÐ8Ñ . La verosimiglianza è definita solo sugli interi positivi, ovvero lo spazio parametrico. Inoltre, la verosimiglianza è stata espressa in funzione della realizzazione della statistica \Ð8Ñ . Il grafico della verosimiglianza standardizzata per 8 œ % e BÐ%Ñ œ # è riportato in Figura 1.3.11. Infine, la log-verosimiglianza risulta 6ÐR Ñ œ ln - 8 ln R ln IÖBÐ8Ñ ßBÐ8Ñ "ßá× ÐR Ñ , R − . 1 0.8 0.6 0.4 0.2 0 2 3 4 5 6 Figura 1.3.11. Verosimiglianza standardizzata per 8 œ % e BÐ%Ñ œ #. 18 Il campionamento Esempio 1.3.12. Si consideri la variabile casuale continua \ con funzione di densità 0\ ÐBÑ œ #B #Ð" BÑ IÐ!ß:Ó ÐBÑ IÐ:ß"Ñ ÐBÑ , : ": dove : − Ð!ß "Ñ. Questa variabile casuale è detta anche Triangolare. In questo caso, dato un campione casuale, il modello statistico dipende dal parametro ) œ : con @ œ Ð!ß "Ñ, ovvero 08 À 08 ÐB" ß á ß B8 à :Ñ œ $ ” 8 Y: œ 3œ" #B #Ð" BÑ IÐ!ß:Ó ÐB3 Ñ IÐ:ß"Ñ ÐB3 Ñ•Ÿ . : ": Di conseguenza, la verosimiglianza risulta PÐ:Ñ œ - $ ” 8 3œ" 8 œ -$” 3œ" #B3 #Ð" B3 Ñ IÐ!ß:Ó ÐB3 Ñ IÐ:ß"Ñ ÐB3 Ñ• : ": #BÐ3Ñ #Ð" BÐ3Ñ Ñ IÐ!ß:Ó ÐBÐ3Ñ Ñ IÐ:ß"Ñ ÐBÐ3Ñ Ñ• . : ": La verosimiglianza è stata espressa in funzione della realizzazione della statistica ordinata Ð\Ð"Ñ ß á ß \Ð8Ñ Ñ. Dalla Figura 1.3.12, si può notare la struttura complessa che può assumere la verosimiglianza per questo modello. 1 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 Figura 1.3.12. Verosimiglianza standardizzata per 8 œ $ e ÐBÐ"Ñ ß BÐ#Ñ ß BÐ$Ñ Ñ œ Ð!.#ß !.%ß !.)Ñ. Capitolo 2 La stima per punti 2.1. Introduzione 2.1.1. La definizione di stimatore. Una volta scelto il modello statistico Y) , un primo obiettivo dell'inferenza è quello di selezionare un valore di ) sulla base del campione osservato. Il procedimento di stima fa corrispondere ad ogni campione ÐB" ß á ß B8 Ñ − V8 un valore ) − @, ~ ovvero considera un vettore di funzioni K a 5 componenti, detto stimatore, tale che ~ K À V8 Ä @ . Uno stimatore è per definizione un vettore di statistiche. La realizzazione campionaria dello ~ ~ stimatore ) œ KÐB" ß á ß B8 Ñ è detta stima. Questo tipo di procedimento di stima è detto per punti perchè ad ogni campione fa corrispondere un punto dello spazio parametrico. ~ In questo capitolo vengono discusse una serie di proprietà desiderabili per uno stimatore K. Tuttavia, anche se lo stimatore gode di proprietà ottimali, si deve sottolineare fin da ora che la ~ stima ) può essere molto differente dal “vero valore” del parametro )! a causa della variabilità ~ campionaria. Dunque, in un procedimento di stima per punti, la stima ) deve sempre essere ~ accompagnata da un indice di “precisione” dello stimatore K nello stimare il vero parametro )! . Questo argomento verrà trattato in maggiore dettaglio nel prossimo capitolo. 2.1.2. I problemi regolari di stima. Al fine di ottenere un procedimento di stima con proprietà desiderabili, è opportuno definire alcune condizioni a cui il modello statistico deve preferibilmente sottostare. Dato un modello statistico Y) , si dice che il problema di stima è regolare se: a) il modello statistico è identificabile, ovvero le distribuzioni 08 ÐB" ß á ß B8 à )Ñ specificate dal modello statistico Y) sono distinte per valori distinti di ) − @; b) lo spazio parametrico @ è un aperto di ‘5 ; c) le derivate ` 08 ÐB" ß á ß B8 à )Ñ `) e `# 08 ÐB" ß á ß B8 à )Ñ ` )` )T esistono per ogni ) − @ e per ogni ÐB" ß á ß B8 Ñ − V8 (a meno di insiemi di probabilità nulla); d) risulta ( ` ` 08 ÐB" ß á ß B8 à )Ñ . / œ ( 08 ÐB" ß á ß B8 à )Ñ . / ` ) V8 V8 ` ) e `# `# ) / 0 ÐB ß á ß B à Ñ . œ ( ( 08 ÐB" ß á ß B8 à )Ñ . / , 8 T 8 " ` ) ` ) T V8 V8 ` ) ` ) 20 La stima per punti dove l'integrazione è da intendersi opportunamente estesa alle componenti del vettore o della matrice e dove una scrittura del tipo ( 18 ÐB" ß á ß B8 Ñ . / V8 va interpretata come integrale di Riemann o come somma su V8 a secondo che il vettore di variabili casuali Ð\" ß á ß \8 Ñ sia continuo o discreto. Nel caso di un campionamento casuale, la condizione a) si riduce a richiedere che le distribuzioni 0 ÐBà )Ñ specificate dal modello statistico siano distinte per valori distinti di ) − @. La condizione c) si riduce all'esistenza delle derivate ` 0 ÐBà )Ñ `) e `# 0 ÐBà )Ñ ` )` )T per ogni ) − @ e per ogni B − f) (a meno di insiemi di probabilità nulla), mentre la condizione d) risulta ( ` ` 0 ÐBà )Ñ . / œ ( 0 ÐBà )Ñ . / ` ) f) f) ` ) e `# `# ) 0 ÐBà Ñ . / œ ( ( 0 ÐBà )Ñ . / . T ` ) ` ) T f) f) ` ) ` ) La condizione a) permette di individuare in maniera univoca una specifica distribuzione a partire dal valore del parametro e quindi di ottenere procedimenti di stima coerenti. La condizione b) serve a imporre che il vero valore del parametro )! non sia sulla frontiera di @. Infine, le condizioni c) e d) sono condizioni di regolarità matematica, che vengono adoperate nel seguito per ottenere alcune proprietà degli stimatori. Le condizioni a)-d) sono soddisfatte nella gran parte dei modelli statistici di uso comune. Esempio 2.1.1. Dato un campione casuale da \ µ R Ð.ß "Ñ, la condizione a) è verificata in quanto 9ÐB ." Ñ œ 9ÐB .# Ñ per ogni B solo se ." œ .# . La condizione b) è verificata dal momento che @ œ ‘. È immediato verificare la condizione c), dal momento che ` 9ÐB .Ñ œ 9w ÐB .Ñ `. e `# 9ÐB .Ñ œ 9ww ÐB .Ñ ` .# esistono per ogni . − ‘ e B − ‘. Inoltre, risulta ∞ ∞ ` `# ( 9ÐB .Ñ .B œ ( 9ÐB .Ñ .B œ ! , ` . ∞ ` .# ∞ Capitolo 2 21 essendo ( ∞ 9ÐB .Ñ .B œ " , ∞ mentre ∞ ` w ∞ 9 ÐB . Ñ .B œ ( ( 9 ÐB .Ñ .B œ Ò9ÐB .ÑÓ∞ œ ! ∞ ` . ∞ ∞ e ( ∞ `# 9 ÐB . Ñ .B œ 9ww ÐB .Ñ .B œ Ò9w ÐB .ÑÓ∞ ( ∞ œ ! , # ` . ∞ ∞ ∞ e di conseguenza anche la condizione d) è verificata. Si deve dunque concludere il problema di stima è regolare. 2.2. Gli stimatori corretti 2.2.1. La definizione di stimatore corretto. Dato un modello statistico Y) , se si suppone che il vero valore del parametro è )! − @, allora si richiede usualmente che la distribuzione dello stimatore sia concentrata intorno a questo valore, ovvero si richiede la proprietà della correttezza. A priori dal campionamento, questa proprietà assicura che la determinazione campionaria dello stimatore sia tendenzialmente prossima a )! . ~ Lo stimatore K è detto corretto per ) se ~ EÐKÑ œ ) , per ogni ) − @, dove il valore medio esiste ed è calcolato rispetto alla distribuzione specificata dal modello con il valore del parametro pari a ) . Nel seguito si assumerà sempre questa ultima convenzione per quanto riguarda il calcolo dei valori medi senza ulteriore specificazione. Uno stimatore non corretto è detto distorto e la quantità ~ ~ BÐKÑ œ EÐKÑ ) è detta distorsione. Una proprietà più blanda della correttezza è la cosiddetta correttezza asintotica. Lo stimatore ~ K è detto asintoticamente corretto per ) se per ogni ) − @ ~ lim EÐKÑ œ ) . 8Ä∞ Esempio 2.2.1. Dato un campione casuale da \ µ R Ð.ß 8Ñ, tenendo presente l'Esempio 1.2.5, si ha – EÒÐ\ß W-# ÑÓ œ Ð.ß 8Ñ , – e quindi Ð\ß W-# Ñ è corretto per Ð.ß 8Ñ. Esempio 2.2.2. Dato un campione casuale da \ µ R Ð!ß 8Ñ, tenendo presente i risultati dell'Esempio 1.2.5, dal momento che EÐW # Ñ œ 8" 8, 8 22 La stima per punti allora la varianza campionaria W # è uno stimatore distorto per 8. La distorsione è pari a 8 BÐW # Ñ œ EÐW # Ñ 8 œ . 8 Lo stimatore W # è asintoticamente corretto per 8, dal momento che lim EÐW # Ñ œ 8 . 8Ä∞ Esempio 2.2.3. Dato un campione casuale da \ µ Y Ð!ß $ Ñ, tenendo presente i risultati dell'Esempio 1.2.6 e le proprietà della Beta (vedi §A.1.5), risulta EÐ\Ð8Ñ Ñ œ 8$ . 8" Quindi, \Ð8Ñ è uno stimatore distorto per $ , con distorsione pari a BÐ\Ð8Ñ Ñ œ EÐ\Ð8Ñ Ñ $ œ $ . 8" Lo stimatore \Ð8Ñ è asintoticamente corretto per $ , dal momento che lim EÐ\Ð8Ñ Ñ œ $ . 8Ä∞ 2.3. Gli stimatori coerenti 2.3.1. La definizione di stimatore coerente. Se si suppone che il vero valore del parametro è dato da )! − @, si richiede usualmente che la distribuzione dello stimatore si concentri sempre di più intorno a )! all'aumentare della numerosità campionaria, ovvero si richiede la cosiddetta proprietà della coerenza. ~ Se Y8ß) è un modello statistico per ogni 8, uno stimatore K8 si dice coerente (in senso ~ debole) per ) , se la successione di stimatori ÖK8 × converge in probabilità a )! , ovvero ~ : K 8 Ä )! per 8 Ä ∞. Di conseguenza, condizione sufficiente affinchè lo stimatore sia coerente per ) è che sia asintoticamente corretto per ) e che ~ lim VarÐK8 Ñ œ ! . 8Ä∞ Inoltre, se si ha ~ ;K 8 Ä )! per 8 Ä ∞, allora lo stimatore è detto coerente in senso forte per ) . Ovviamente, la coerenza in senso forte implica la coerenza in senso debole. Esempio 2.3.1. Dato un campione casuale da \ µ R Ð.ß "Ñ, tenendo presente i risultati – dell'Esempio 1.2.3, dal momento che \ 8 è uno stimatore corretto per . e che " – lim VarÐ\ 8 Ñ œ lim œ!, 8Ä∞ 8Ä∞ 8 Capitolo 2 23 – : – allora \ 8 Ä .! , ovvero \ 8 è uno stimatore coerente per .. Dal momento che per la Legge – ;– Forte dei Grandi Numeri di Khintchine si ha \ 8 Ä .! (vedi Fattorini, 1994), \ 8 è uno stimatore coerente in senso forte per .. Esempio 2.3.2. Dato un campione casuale da \ µ R Ð.ß 8Ñ, tenendo presente i risultati dell'Esempio 1.2.5, risulta – lim VarÒÐ\ 8 ß W-# 8 ÑÓ œ lim 8Ä∞ 8Ä∞ 8 8 ! ! #8# 8" œ!. : – – Dal momento che Ð\ 8 ß W-# 8 Ñ è corretto per Ð.ß 8Ñ, allora risulta Ð\ 8 ß W-# 8 Ñ Ä Ð.! ß 8! Ñ, ovvero – Ð\ 8 ß W-# 8 Ñ è uno stimatore coerente per Ð.ß 8Ñ. 2.4. Gli stimatori efficienti 2.4.1. L'informazione di Fisher. Dato un modello statistico Y) , in questa sezione vengono introdotte alcune quantità fondamentali nell'inferenza statistica classica. Data l'importanza degli argomenti trattati, è preferibile lavorare inizialmente con un solo parametro, ovvero si assume 5 œ ". Se per il modello statistico considerato è valida la condizione c) della §2.1.2, allora si dice funzione punteggio la quantità ` ` 6Ð)à B" ß á ß B8 Ñ œ ln 08 ÐB" ß á ß B8 à )Ñ `) `) " ` œ 08 ÐB" ß á ß B8 à )Ñ . 08 ÐB" ß á ß B8 à )Ñ ` ) =8 Ð)à B" ß á ß B8 Ñ œ =8 Ð)Ñ œ La funzione punteggio =8 Ð)à B" ß á ß B8 Ñ è la realizzazione campionaria della variabile casuale =8 Ð)à \" ß á ß \8 Ñ, per cui adoperando l'assunzione d) della §2.1.2 si ha EÒ=8 Ð)à \" ß á ß \8 ÑÓ œ ( =8 Ð)à B" ß á ß B8 Ñ08 ÐB" ß á ß B8 à )Ñ . / V8 œ( ` 08 ÐB" ß á ß B8 à )Ñ . / V8 ` ) ` ` œ "œ!. ( 08 ÐB" ß á ß B8 à )Ñ . / œ ` ) V8 `) Inoltre, tenendo presente la relazione `# " `# ln 08 ÐB" ß á ß B8 à )Ñ œ 08 ÐB" ß á ß B8 à )Ñ ` )# 08 ÐB" ß á ß B8 à )Ñ ` )# ” " ` 08 ÐB" ß á ß B8 à )Ñ• , 08 ÐB" ß á ß B8 à )Ñ ` ) e adoperando di nuovo l'assunzione d) della §2.1.2 risulta # 24 La stima per punti VarÒ=8 Ð)à \" ß á ß \8 ÑÓ œ EÒ=8 Ð)à \" ß á ß \8 Ñ# Ó " ` œ( ” 08 ÐB" ß á ß B8 à )Ñ• 08 ÐB" ß á ß B8 à )Ñ . / V8 08 ÐB" ß á ß B8 à )Ñ ` ) `# `# œ( 0 ÐB ß á ß B à ) Ñ . / ln08 ÐB" ß á ß B8 à )Ñ08 ÐB" ß á ß B8 à )Ñ . / ( 8 # 8 " # V8 ` ) V8 ` ) `# ` œ # ( 08 ÐB" ß á ß B8 à )Ñ . / ( =8 Ð)à B" ß á ß B8 Ñ08 ÐB" ß á ß B8 à )Ñ . / ` ) V8 V8 ` ) ` œ E” =8 Ð ) à \ " ß á ß \ 8 Ñ • . `) # La precedente varianza è detta informazione di Fisher ed è indicata come M8 Ð)Ñ œ VarÒ=8 Ð)à \" ß á ß \8 ÑÓ œ E” ` =8 Ð)à \" ß á ß \ 8 Ñ • . `) Nel caso di un campionamento casuale la funzione punteggio può essere espressa come =8 Ð)à B" ß á ß B8 Ñ œ ` `) 8 œ 3œ" 8 8 ln 0 ÐB3 à )Ñ œ 3œ" 3œ" ` ln 0 ÐB3 à )Ñ `) " ` 0 ÐB3 à )Ñ œ 0 ÐB3 à )Ñ ` ) 8 =Ð)à B3 Ñ , 3œ" dove =Ð)à B3 Ñ œ =Ð)Ñ œ ` " ` ln0 ÐB3 à )Ñ œ 0 ÐB3 à )Ñ , `) 0 ÐB3 à )Ñ ` ) è la funzione punteggio relativa all'i-esima osservazione campionaria. Le variabili casuali =Ð)à \3 Ñ sono indipendenti in quanto trasformate di variabili casuali indipendenti ed ugualmente distribuite. Dunque, si ha 8 VarÒ=8 Ð)à \" ß á ß \8 ÑÓ œ 3œ" VarÒ=Ð)à \3 ÑÓ œ 8VarÒ=Ð)à \ÑÓ œ 8E” ` =Ð)à \Ñ• . `) Di conseguenza, l'informazione di Fisher può essere espressa come M8 Ð)Ñ œ 8VarÒ=Ð)à \ÑÓ œ 8E” ` =Ð)à \Ñ• œ 8MÐ)Ñ , `) dove MÐ)Ñ œ VarÒ=Ð)à \ÑÓ è l'informazione di Fisher relativa ad una sola osservazione campionaria. Esempio 2.4.1. Dato un campione casuale da \ µ R Ð.ß "Ñ, dall'Esempio 2.1.1 è noto che le condizioni c) e d) della §2.1.2 sono verificate. Dunque, tenendo presente l'Esempio 1.3.1, si ha la funzione punteggio =8 Ð.à B" ß á ß B8 Ñ œ ` 8 – .Ñ# Ó› œ 8ÐB – .Ñ , šln - Ò=# ÐB `. # da cui si ottiene l'informazione di Fisher M8 Ð.Ñ œ E” ` – 8Ð\ .Ñ• œ 8 . `. Capitolo 2 25 I risultati teorici di questa sezione risultano verificati, dal momento che per via diretta si ottiene – – EÒ=8 Ð.à \" ß á ß \8 ÑÓ œ EÒ8Ð\ .ÑÓ œ 8EÐ\ .Ñ œ ! e " – – M8 Ð.Ñ œ VarÒ=8 Ð.à \" ß á ß \8 ÑÓ œ VarÒ8Ð\ .ÑÓ œ 8# VarÐ\Ñ œ 8# œ 8 . 8 Dal momento che si dispone di un campione casuale, i precedenti risultati possono essere ottenuti più facilmente dalla funzione punteggio riferita ad una sola osservazione campionaria, ovvero =Ð.à B3 Ñ œ ` " # ”ln - ÐB3 .Ñ • œ B3 . , `. # da cui l'informazione di Fisher relativa ad una sola osservazione campionaria risulta MÐ.Ñ œ E” ` Ð\ .Ñ• œ " . `. Dalla precedente espressione si ha di nuovo M8 Ð.Ñ œ 8MÐ.Ñ œ 8 . Esempio 2.4.2. Dato un campione casuale da \ µ IÐ!ß 5Ñ, è facile verificare le condizioni c) e d) della §2.1.2. Dunque, tenendo presente l'Esempio 1.3.3, si ha la seguente funzione punteggio – – ` 8B 8 8B =8 Ð5à B" ß á ß B8 Ñ œ Šln - 8 ln 5 ‹œ # , `5 5 5 5 da cui, in base ai risultati dell'Esempio 1.2.4, si ottiene l'informazione di Fisher – – ` 8 8\ 8 #8\ 8 #8 8 – M8 Ð5Ñ œ E” œ E œ E Ð\Ñ œ . Œ • Œ `5 5 5# 5# 5$ 5# 5$ 5# Dal momento che si dispone di un campione casuale, i precedenti risultati possono essere ottenuti più facilmente dalla funzione punteggio riferita ad una sola osservazione campionaria, ovvero =Ð5à B3 Ñ œ ` B3 " B3 Š ln 5 ‹ œ # , `5 5 5 5 da cui, tenendo presente le proprietà della Esponenziale (vedi §A.1.4), l'informazione di Fisher relativa ad una sola osservazione campionaria risulta MÐ5Ñ œ E” ` " \ " # " Œ # • œ # $ EÐ\Ñ œ # . `5 5 5 5 5 5 Dalla precedente espressione si ottiene di nuovo M8 Ð5Ñ œ 8MÐ5Ñ œ 8 . 5# Esempio 2.4.3. Dato un campione casuale da \ µ Y Ð!ß $ Ñ, la condizione d) della §2.1.2 non è verificata. Infatti risulta 26 La stima per punti ` " " œ # `$ $ $ per ogni $ − ‘ e B − Ð!ß $ Ñ, da cui ( $ ! ` " " .B œ . `$ $ $ Tuttavia, si ha $ ` " " .B œ ! Á . ( `$ ! $ $ Anche se la funzione punteggio esiste, non ha tuttavia le proprietà ottenute in questa sezione. I precedenti risultati possono essere generalizzati al caso di un vettore di parametri ). Se è valida la condizione c) della §2.1.2, si dice vettore delle funzioni punteggio la quantità s8 Ð) à B" ß á ß B8 Ñ data da s8 Ð) à B" ß á ß B8 Ñ œ s8 Ð)Ñ œ ` " ` 6Ð)à B" ß á ß B8 Ñ œ 08 ÐB" ß á ß B8 à )Ñ . `) 08 ÐB" ß á ß B8 à )Ñ ` ) Il vettore s8 Ð) à B" ß á ß B8 Ñ è la determinazione campionaria del vettore di variabili casuali s8 Ð) à \" ß á ß \8 Ñ e quindi generalizzando in modo ovvio le relazioni ottenute in precedenza, se la condizione d) della §2.1.2 è verificata, si può ottenere che EÒs8 Ð)à \" ß á ß \8 ÑÓ œ ! e VarÒs8 Ð)à \" ß á ß \8 ÑÓ œ E” ` s8 Ð ) à \ " ß á ß \ 8 Ñ • . `) Questa matrice di varianza-covarianza è detta matrice di informazione di Fisher ed è denotata con I8 Ð) Ñ œ VarÒs8 Ð)à \" ß á ß \8 ÑÓ œ E” ` s8 Ð ) à \ " ß á ß \ 8 Ñ • . `) Nel caso di un campionamento casuale, il vettore delle funzioni punteggio risulta 8 s8 Ð) à B" ß á ß B8 Ñ œ sÐ)à B3 Ñ , 3œ" dove sÐ) à B3 Ñ œ sÐ)Ñ œ ` " ` ln 0 ÐB3 à )Ñ œ 0 ÐB3 à )Ñ , `) 0 ÐB3 à )Ñ ` ) è il vettore delle funzioni punteggio relative all'i-esima osservazione campionaria. Anche in questo caso la matrice di informazione di Fisher può essere espressa come I8 Ð) Ñ œ 8VarÒsÐ)à \ÑÓ œ 8E” ` sÐ)à \Ñ• œ 8IÐ)Ñ , `) dove IÐ) Ñ œ VarÒsÐ)à \ÑÓ è la matrice di informazione di Fisher relativa ad una sola osservazione campionaria. Capitolo 2 27 Esempio 2.4.4. Dato un campione casuale da \ µ R Ð.ß 8Ñ, non è difficile verificare (anche se laborioso) le condizioni c) e d) della §2.1.2. Tenendo presente l'Esempio 1.3.2, si ha il seguente vettore di funzioni punteggio s 8 Ð . ß 8 à B" ß á ß B 8 Ñ œ œŒ ˜ln - ` `. ` `8 ˜ln - 8 #8 8 # 8 # ln 8 ln 8 8 #8 8 #8 8 – 8 ÐB .Ñ 8 # – #8# Ò= ÐB – .Ñ# Ó™ Ò=# ÐB – .Ñ# Ó™ Ò=# ÐB .Ñ# Ó , da cui, considerando anche i risultati dell'Esempio 1.2.5, si ha la matrice d'informazione di Fisher ` 8 – ` 8 – ‘ ‘ ` . 8 Ð\ .Ñ ` 8 8 Ð\ .Ñ I8 Ð.ß 8Ñ œ EŒ ` – – .Ñ# Ó™ ˜ 8 8 ÒW # Ð\ .Ñ# Ó™ ` ˜ 8 8 ÒW # Ð\ œŒ `. 8 8# #8 #8# 8 8 – EÐ\ .Ñ 8 #8 # `8 8 8$ 8 8# – EÐ\ .Ñ #8 – ÖEÐW # Ñ EÒÐ\ .Ñ# Ó× #8# œŒ 8 8 ! ! 8 #8# . ´ Dato un modello statistico Y) , in questa sezione 2.4.2. Il limite inferiore di Rao-Cramer. viene ottenuto un limite inferiore alla varianza di uno stimatore corretto per una data trasformata di ) . Di nuovo, è opportuno lavorare inizialmente con un solo parametro. Si consideri lo ~ ~ stimatore K tale che EÐKÑ œ 1Ð)Ñ. Si assuma che siano valide le condizioni c) e d) della §2.1.2 e ~ che sia valida per lo stimatore K la seguente condizione: e) la funzione 1Ð)Ñ esiste ed è derivabile con derivata ` ` ~ 1Ð)Ñ œ ( KÐB" ß á ß B8 Ñ08 ÐB" ß á ß B8 à )Ñ . / `) ` ) V8 ` ~ œ( KÐB" ß á ß B8 Ñ08 ÐB" ß á ß B8 à )Ñ . / . V8 ` ) In base alle assunzioni c) della §2.1.2 ed e), si ottiene ~ ~ CovÒKß =8 Ð)à \" ß á ß \8 ÑÓ œ EÒK=8 Ð)à \" ß á ß \8 ÑÓ ~ œ ( KÐB" ß á ß B8 Ñ=8 Ð)à B" ß á ß B8 Ñ08 ÐB" ß á ß B8 à )Ñ . / œ( V8 ` ~ ` KÐB" ß á ß B8 Ñ08 ÐB" ß á ß B8 à )Ñ . / œ 1Ð)Ñ . `) V8 ` ) Inoltre, per la disugualianza di Schwarz (vedi Fattorini, 1994), se è verificata la condizione d) della §2.1.2, si ha ~ ~ VarÐKÑVarÒ=8 Ð)à \" ß á ß \8 ÑÓ CovÒK=8 Ð)à \" ß á ß \8 ÑÓ# , da cui, supponendo ! M8 Ð)Ñ ∞, con opportune sostituzioni, si ottiene infine la cosiddetta ´ ovvero disugualianza di Rao-Cramer, ~ VarÐKÑ ~ Se K è uno stimatore corretto per ), allora ` `) 1Ð)Ñ‘ . M8 Ð ) Ñ ` `) # 1Ð)Ñ œ ", e la prececente espressione risulta ~ VarÐKÑ " . M8 Ð ) Ñ 28 La stima per punti Dalla precedente espressione è chiaro il ruolo dell'informazione di Fisher, nel senso che essa rappresenta un indice della precisione media ottenibile se si vuole stimare ) in modo non distorto. ´ si riduce a Nel caso di un campione casuale la disugualianza di Rao-Cramer ~ VarÐKÑ 1Ð)Ñ‘ , 8MÐ)Ñ ` `) # e, nel caso di uno stimatore corretto per ), a ~ VarÐKÑ " . 8MÐ)Ñ Esempio 2.4.5. Dato un campione casuale da \ µ R Ð.ß "Ñ, dall'Esempio 2.1.1 è noto che le condizioni c) e d) della §2.1.2 sono verificate. Tenendo presente l'Esempio 2.4.1, dato un ~ qualsiasi stimatore K corretto per . (e per cui è valida la condizione e) di questa sezione) si ha dunque " ~ VarÐKÑ . 8 Esempio 2.4.6. Dato un campione casuale da \ µ IÐ!ß 5Ñ, dall'Esempio 2.4.2 è noto che le condizioni c) e d) della §2.1.2 sono verificate. Tenendo presente l'Esempio 2.4.2, dato un ~ qualsiasi stimatore K corretto per 5 (e per cui è valida la condizione e) di questa sezione) si ha 5# ~ VarÐKÑ . 8 ~ Se invece K è uno stimatore corretto per 1Ð5Ñ œ 5# allora, dal momento che ` 1Ð5Ñ œ #5 , `) ´ si ottiene dalla forma generale della disugualianza di Rao-Cramer %5% ~ VarÐKÑ . 8 Esempio 2.4.7. Dato un campione casuale da \ µ Y Ð!ß $ Ñ, dall'Esempio 2.4.3 è noto che la condizione d) della §2.1.2 non è verificata. In questo caso non è possibile ottenere un limite ~ inferiore alla varianza di uno stimatore $ corretto per $ . I precedenti risultati possono essere generalizzati al caso di un vettore di parametri ). Si ~ ~ consideri dunque lo stimatore K tale che EÐKÑ œ gÐ)Ñ. Si assuma che siano valide le condizioni ~ c) e d) della §2.1.2 e che sia valida per lo stimatore K la generalizzazione della condizione e), ovvero: eÑ il vettore di funzioni gÐ)Ñ esiste ed è derivabile con matrice delle derivate ` ` ~ gÐ)Ñ œ ( KÐB" ß á ß B8 Ñ08 ÐB" ß á ß B8 à )Ñ . / `) ` ) V8 ` ~ œ( KÐB" ß á ß B8 Ñ08 ÐB" ß á ß B8 à )Ñ . / . V8 ` ) DÐ) Ñ œ Capitolo 2 29 Se I8 Ð) Ñ è una matrice definita positiva, si può dimostrare che la generalizzazione della ´ (vedi Wilks, 1962) è data da disugualianza di Rao-Cramer ~ VarÐKÑ DÐ)ÑT I8 Ð)Ñ" DÐ)Ñ , dove la precedente disugualianza si deve intendere nel senso che la matrice differenza ~ VarÐKÑ DÐ)ÑT I8 Ð)Ñ" DÐ)Ñ è semidefinita positiva. Nel caso di un campione casuale si ha inoltre " ~ VarÐKÑ DÐ)ÑT IÐ)Ñ" DÐ)Ñ . 8 ~ Infine, se K è uno stimatore corretto per ) , allora DÐ) Ñ è la matrice identità di ordine 5 , da cui ~ VarÐKÑ I8 Ð)Ñ" , che, nel caso di un campione casuale, si riduce a " ~ VarÐKÑ IÐ)Ñ" . 8 Esempio 2.4.8. Dato un campione casuale da \ µ R Ð.ß 8Ñ, dall'Esempio 2.4.4 è noto che le condizioni c) e d) della §2.1.2 sono verificate. Dai risultati dell'Esempio 2.4.4, dato un qualsiasi ~ stimatore K corretto per Ð.ß 8Ñ (e per cui è valida la condizione e) di questa sezione) si ha ~ VarÐKÑ 8 8 ! ! #8# 8 . ~ Se invece K è un qualsiasi stimatore corretto per gÐ.ß 8Ñ œ Ð.ß È8ÑT , allora dal momento che DÐ.ß 8Ñ œ " ! ! " #È8 , ´ si ha dalla forma più generale della disugualianza di Rao-Cramer ~ VarÐKÑ Œ 8 ! 8 ! 8 #8 . 2.4.3. La definizione di stimatore efficiente. Dato un modello statistico Y) , quando si dispone di due stimatori corretti per ), la nostra preferenza va ovviamente a quello con varianza minore, in quanto la sua distribuzione risulta più concentrata intorno al vero valore del parametro. Dal momento che nella precedente sezione è stato stabilito un limite inferiore alla varianza di uno stimatore corretto, è logico introdurre il seguente indice nel caso di un parametro per valutare la ~ bontà di uno stimatore K corretto per ) ~ effÐKÑ œ " . ~ VarÐKÑM8 Ð)Ñ ~ ~ La quantità effÐKÑ è detta efficienza ed evidentemente si ha ! Ÿ effÐKÑ Ÿ " quando sono valide ~ le condizioni c) e d) della §2.1.2 e la condizione e) della §2.4.2. In questo caso, uno stimatore K ~ ~ corretto per ) è quindi detto efficiente se effÐKÑ è massima, ovvero se effÐKÑ œ ". Niente assicura l'esistenza e l'unicità di uno stimatore efficiente per un dato modello statistico. 30 La stima per punti Esempio 2.4.9. Dato un campione casuale da \ µ R Ð.ß "Ñ, tenendo presente i risultati – dell'Esempio 1.2.3 e dell'Esempio 2.4.5, \ è uno stimatore efficiente in quanto è corretto per . e – effÐ\Ñ œ " " œ œ". – Ð"Î8Ñ8 VarÐ\ÑM8 Ð.Ñ Esempio 2.4.10. Dato un campione casuale da \ µ IÐ!ß 5Ñ, tenendo presente i risultati – dell'Esempio 1.2.4 e dell'Esempio 2.4.6, \ è uno stimatore efficiente in quanto è corretto per 5 e – effÐ\Ñ œ " " œ # œ". – Ð5 Î8ÑÐ8Î5# Ñ VarÐ\ÑM8 Ð5Ñ Nel caso di un vettore di parametri ), un indice per valutare il grado di efficienza di uno ~ stimatore K corretto per ) è data da ~ ~ effÐKÑ œ detÒVarÐKÑI8 Ð)ÑÓ" . ~ Anche in questo caso si ha ! Ÿ effÐKÑ Ÿ " quando sono valide le condizioni c) e d) della §2.1.2 ~ e la condizione e) della §2.4.2. In questo ultimo caso, uno stimatore K corretto per ) è quindi ~ detto efficiente se effÐKÑ œ ". Esempio 2.4.11. Dato un campione casuale da \ µ R Ð.ß 8Ñ, tenendo presente i risultati – dell'Esempio 2.3.2 e dell'Esempio 2.4.8, se si considera lo stimatore Ð\ß W-# Ñ corretto per Ð.ß 8Ñ, si ha – effÒÐ\ß W-# ÑÓ œ det– 8 8 ! ! #8# 8" Œ! 8 8 ! 8 #8# — " œ 8" , 8 – ovvero lo stimatore Ð\ß W-# Ñ non è efficiente, anche se per 8 elevato è approssimativamente efficiente. Quando si deve confrontare due stimatori, uno dei quali corretto e l'altro distorto, non si può adoperare l'efficienza come criterio di confronto. Nel caso di un parametro, dato uno stimatore ~ distorto K di ), un criterio che tiene conto anche della distorsione è il cosiddetto errore quadratico medio, ovvero ~ ~ ~ EqmÐKÑ œ BÐKÑ# VarÐKÑ . Il precedente indice può essere generalizzato al caso di un vettore di parametri ), ovvero ~ ~ ~ ~ EqmÐKÑ œ detÒBÐKÑBÐKÑT VarÐKÑÓ . Se ci si basa sui precedenti indici, uno stimatore leggermente distorto, ma con bassa varianza, può essere preferibile ad uno stimatore efficiente. Esempio 2.4.12. Dato un campione casuale da \ µ R Ð.ß 8Ñ, supponiamo che il parametro . sia ~ noto. Per un qualsiasi stimatore K corretto per 8 si ha #8# ~ VarÐKÑ . 8 Se si considera lo stimatore Capitolo 2 31 " ~ K" œ 8 8 Ð\3 .Ñ# , 3œ" allora tenendo presente i risultati dell'Esempio 1.2.5 e le proprietà della Chi-quadrato (vedi §A.3.2), si ottiene ~ EÐK" Ñ œ 8 e #8# ~ VarÐK" Ñ œ , 8 ~ ovvero K" è efficiente e inoltre #8# ~ EqmÐK" Ñ œ . 8 Alternativamente, se si considera ora lo stimatore 8 ~ ~ K# œ K" , 8# si ha 88 ~ EÐK# Ñ œ 8# e ~ VarÐK# Ñ œ #88# Ð8 #Ñ# e quindi # 88 #88# #8# ~ EqmÐK# Ñ œ Œ 8 œ . 8# Ð8 #Ñ# 8# ~ ~ Dal momento che EqmÐK# Ñ EqmÐK" Ñ, se ci si basa sul criterio dell'errore quadratico medio, lo stimatore distorto è preferibile a quello corretto ed efficiente. 2.4.4. La famiglia esponenziale di distribuzioni. In questa sezione si vuole determinare la famiglia di distribuzioni per cui è possibile ottenere stimatori efficienti, dato che le condizioni c) ~ e d) della §2.1.2 sono verificate. Nel caso di uno stimatore K corretto per ) (e per cui è valida la condizione e) della §2.4.2), per le proprietà della disugualianza di Schwarz (vedi Fattorini, ´ quando 1994), si ottiene il limite inferiore di Rao-Cramer ~ =8 Ð)à \" ß á ß \8 Ñ œ ,ÐK )Ñ , per , costante, ovvero quando =8 Ð)à \" ß á ß \8 Ñ è una variabile casuale linearmente dipendente ~ da K. Dunque, se una statistica efficiente esiste, deve soddisfare la precedente relazione. Inoltre, si deve avere ~ VarÒ=8 Ð)à \" ß á ß \8 ÑÓ œ , # VarÐKÑ , ovvero, dal momento che 32 La stima per punti ~ VarÐKÑ œ " M8 Ð ) Ñ ~ (essendo K uno stimatore efficiente) e VarÒ=8 Ð)à \" ß á ß \8 ÑÓ œ M8 Ð)Ñ , allora , œ M8 Ð)Ñ. Tenendo presente la definizione di funzione punteggio, si deve dunque avere ` ~ ln 08 ÐB" ß á ß B8 à )Ñ œ M8 Ð)ÑÒKÐB" ß á ß B8 Ñ )Ó , `) per ogni ÐB" ß á ß B8 Ñ − V8 (a meno di insiemi di probabilità nulla). La precedente relazione costituisce un'equazione differenziale in ), per cui risolvendo si ha ~ ln 08 ÐB" ß á ß B8 à )Ñ œ KÐB" ß á ß B8 Ñ ( M8 Ð)Ñ . ) ( )M8 Ð)Ñ . ) -ÐB" ß á ß B8Ñ , ovvero si ha la seguente famiglia di distribuzioni ~ 08 ÐB" ß á ß B8 à )Ñ œ ;ÐB" ß á ß B8 ÑexpÒKÐB" ß á ß B8 Ñ:Ð)Ñ (Ð)ÑÓ , dove si è posto : Ð) Ñ œ ( M 8 Ð ) Ñ . ) , e ( Ð) Ñ œ ( ) M 8 Ð ) Ñ . ) , mentre ;ÐB" ß á ß B8 Ñ œ expÒ-ÐB" ß á ß B8 ÑÓ . Se esiste uno stimatore efficiente, la distribuzione specificata dal modello statistico deve essere della precedente forma. Questa famiglia di distribuzioni è detta famiglia esponenziale. È immediato verificare che tutti gli elementi di una stessa famiglia esponenziale devono avere necessariamente lo stesso supporto per ogni ). Esempio 2.4.13. Dato un campione casuale da \ µ R Ð.ß "Ñ, la classe di funzioni di densità ~ –, definita in questo modello fa parte della famiglia esponenziale con KÐB" ß á ß B8 Ñ œ B : Ð. Ñ œ 8. e ( Ð.Ñ œ 8.# , # mentre ;ÐB" ß á ß B8 Ñ œ Ð#1Ñ8Î# exp’ 8 # –# Ð= B Ñ“ . # – In effetti, in base ai risultati dell'Esempio 2.4.9, la media campionaria \ è uno stimatore efficiente. Capitolo 2 33 Esempio 2.4.14. Dato un campione casuale da \ µ IÐ-ß "Ñ, la classe di funzioni di densità definita in questo modello non fa parte della famiglia esponenziale, dal momento che il relativo supporto dipende dal parametro -. In generale, se si considera un vettore di parametri ), la famiglia esponenziale è definita come ~ 08 ÐB" ß á ß B8 à )Ñ œ ;ÐB" ß á ß B8 ÑexpÒKÐB" ß á ß B8 ÑT :Ð)Ñ (Ð)ÑÓ , dove senza perdita di generalità si può assumere che le funzioni definite dalle componenti del vettore :Ð) Ñ siano linearmente indipendenti in @. Per questo motivo, questa famiglia esponenziale è detta in forma ridotta. Per una trattazione generale delle famiglie esponenziali si può consultare Brown (1986). Esempio 2.4.15. Dato un campione casuale da \ µ R Ð.ß 8Ñ, la classe di funzioni di densità specificata da questo modello fa parte della famiglia esponenziale dal momento che ~ – =# B – # ÑT , KÐB" ß á ß B8 Ñ œ ÐBß :Ð.ß 8Ñ œ Š 8. 8 T ß ‹ 8 #8 e ( Ð.ß 8 Ñ œ 8.# 8 ln 8 , #8 # mentre ;ÐB" ß á ß B8 Ñ œ Ð#1Ñ8Î# . 2.5. Gli stimatori sufficienti 2.5.1. La definizione di stimatore sufficiente. Come è stato evidenziato negli esempi della §1.3, la funzione di verosimiglianza può dipendere solo dalle realizzazioni di alcune statistiche e quindi non è necessaria la conoscenza del campione originale per determinarla. L'informazione contenuta nel campione originale viene mantenuta dalle statistiche, con il vantaggio di avere l'informazione convenientemente sintetizzata. ~ Seguendo l'impostazione di Azzalini (1996), dato un modello statistico Y) , uno stimatore K è detto sufficiente per ) se per ogni ÐB" ß á ß B8 Ñ − V8 e ÐC" ß á ß C8 Ñ − V8 si ha ~ ~ KÐB" ß á ß B8 Ñ œ KÐC" ß á ß C8 Ñ Ê PÐ)à B" ß á ß B8 Ñ º PÐ)à C" ß á ß C8Ñ , ~ per ogni ) − @. Dunque, K è sufficiente per ) quando assume lo stesso valore in due punti dello spazio campionario solo se i due punti hanno verosimiglianze proporzionali, ovvero i due punti forniscono la stessa informazione. Anche se può risultare sorprendente che una trasformazione non biunivoca del campione originale riesca ad estrarre tutta l'informazione relativa al campione stesso, si tenga presente che la proprietà della sufficienza è legata alla scelta del modello statistico, ovvero uno stimatore sufficiente per un modello può non esserlo per un altro. 2.5.2. Alcune proprietà degli stimatori sufficienti. Un primo risultato relativo agli stimatori ~ sufficienti è il cosiddetto criterio di fattorizzazione di Neyman. Se K è sufficiente per ) , allora ~ ~ ~ PÐ)Ñ dipende da ÐB" ß á ß B8 Ñ solo attraverso ) œ KÐB" ß á ß B8 Ñ, ovvero PÐ)Ñ º 1Ð)à )Ñ. 34 La stima per punti Inoltre, dalla definizione di funzione di verosimiglianza, PÐ)Ñ º 08 ÐB" ß á ß B8 à )Ñ e si deve concludere che la funzione 28 ÐB" ß á ß B8 Ñ œ 08 ÐB" ß á ß B8 à )Ñ ~ 1Ð)à )Ñ ~ non dipende da ) . Dunque, se K è sufficiente per ) , si deve avere la relazione ~ 08 ÐB" ß á ß B8 à )Ñ œ 28 ÐB" ß á ß B8 Ñ1Ð)à )Ñ . ~ ~ Inversamente, se la precedente relazione è vera, allora PÐ)Ñ è funzione solo di ) e quindi K è ~ sufficiente per ) . Si è dimostrato di conseguenza che K è sufficiente per ) se e solo se 08 ÐB" ß á ß B8 à )Ñ può essere fattorizzata nella forma precedente per opportune funzioni 28 e 1. Questo risultato è detto appunto criterio di fattorizzazione di Neyman. Esempio 2.5.1. Dato un campione casuale da \ µ R Ð.ß "Ñ, tenendo presente l'Esempio 1.3.1, si ha 08 ÐB" ß á ß B8 à .Ñ œ $ 9ÐB3 .Ñ œ $ Ð#1Ñ"Î# exp” 8 8 3œ" 8 # – .Ñ# Ó› Ò= ÐB # 8=# 8 – œ Ð#1Ñ8Î# expŒ exp’ ÐB .Ñ# “ , # # œ Ð#1Ñ 8Î# expš 3œ" " ÐB3 .Ñ# • # da cui si ottiene che 28 ÐB" ß á ß B8 Ñ œ Ð#1Ñ8Î# expŒ 8=# # e – .Ñ œ exp’ 8 ÐB – .Ñ# “ . 1ÐBà # – Dunque la media campionaria \ è stimatore sufficiente per .. Esempio 2.5.2. Dato un campione casuale da \ µ IÐ!ß 5Ñ, si ha 08 ÐB" ß á ß B8 à 5Ñ œ $ 8 3œ" 8 – " B3 8B expŠ ‹IÐ!ß∞Ñ ÐB3 Ñ œ –$ IÐ!ß∞Ñ ÐB3 Ñ— 58 expŠ ‹, 5 5 5 3œ" da cui 28 ÐB" ß á ß B8 Ñ œ $ IÐ!ß∞Ñ ÐB3 Ñ 8 3œ" e – – 5Ñ œ 58 expŠ 8B ‹ . 1ÐBà 5 – Si deve dunque concludere che la media campionaria \ è stimatore sufficiente per 5 . Esempio 2.5.3. Dato un campione casuale da \ µ R Ð.ß 8Ñ, tenendo presente anche l'Esempio 1.3.2, si ha Capitolo 2 35 08 ÐB" ß á ß B8 à .ß 8Ñ œ $ 8 3œ" " B3 . 9 È8 È8 œ Ð#1Ñ8Î# 88Î# expš 8 # – .Ñ# Ó› , Ò= ÐB #8 da cui 28 ÐB" ß á ß B8 Ñ œ Ð#1Ñ8Î# e – =# à .ß 8Ñ œ 88Î# expš 8 Ò=# ÐB – .Ñ# Ó› . 1ÐBß #8 – Dunque lo stimatore Ð\ß W # Ñ è sufficiente per Ð.ß 8Ñ. Esempio 2.5.4. Dato il modello di regressione lineare dell'Esempio 1.1.8, tenendo presente l'Esempio 1.3.6, si ha 08 ÐC" ß á ß C8 à +ß ,ß 8Ñ œ $ 8 3œ" " C3 + ,D3 9 È8 È8 œ Ð#1Ñ8Î# 88Î# exp =#DC =DC 8 # = Œ,=D C – # #8 =D =D # – +Ñ# ÐC —Ÿ , # – +Ñ# ÐC —Ÿ . da cui si ottiene che 28 ÐC" ß á ß C8 Ñ œ Ð#1Ñ8Î# e – =# ß =DC à +ß ,ß 8Ñ œ 88Î# exp 1ÐCß C =#DC =DC 8 # = ,= D Œ C – #8 =#D =D – # Dunque lo stimatore Ð] ß WC# ß WDC Ñ è sufficiente per Ð+ß ,ß 8Ñ. ~ Dalla fattorizzazione di Neyman, si può ottenere la distribuzione di K integrando come segue ~ 0K~ Ð)à )Ñ œ ( 0 ÐB ß á ß B8 à )Ñ . / ~ 8 " EÐ) Ñ ~ œ 1Ð)à )Ñ( 2 ÐB ß á ß B8 Ñ . / ~ 8 " EÐ) Ñ ~ ~ œ 2 ‡ Ð)Ñ1Ð)à )Ñ , dove la funzione ~ 2 ‡ Ð) Ñ œ ( 2 ÐB ß á ß B8 Ñ . / ~ 8 " EÐ) Ñ ~ non dipende da ) , mentre l'insieme EÐ) Ñ è stato definito nella §1.2.1. Di conseguenza, tenendo presente la precedente relazione e la fattorizzazione di Neyman, risulta 08 ÐB" ß á ß B8 à )Ñ 28 ÐB" ß á ß B8 Ñ ~ 08 ÐB" ß á ß B8 ± )Ñ œ œ , ~ ~ 0K~ Ð)à )Ñ 2 ‡ Ð) Ñ ~ ovvero se K è sufficiente per ) , la distribuzione del vettore di variabili casuali condizionato ~ ~ Ð\" ß á ß \8 ± )Ñ non dipende ) . Inversamente, se 08 ÐB" ß á ß B8 ± )Ñ non dipende da ) , allora 36 La stima per punti ~ ~ 08 ÐB" ß á ß B8 à )Ñ œ 08 ÐB" ß á ß B8 ± )Ñ0K~ Ð)à )Ñ ~ ~ ~ ~ œ 08 ÐB" ß á ß B8 ± )Ñ2 ‡ Ð)Ñ1Ð)à )Ñ œ 28 ÐB" ß á ß B8 Ñ1Ð)à )Ñ , dove ~ ~ 28 ÐB" ß á ß B8 Ñ œ 08 ÐB" ß á ß B8 ± )Ñ2 ‡ Ð)Ñ ~ e quindi K risulta sufficiente per ) grazie al criterio di Neyman. Si deve quindi concludere che ~ K è sufficiente per ) se e solo se la distribuzione del vettore di variabili casuali condizionato ~ Ð\" ß á ß \8 ± )Ñ non dipende ) . Questo fatto evidenzia come il campione ÐB" ß á ß B8 Ñ venga ottenuto in due fasi: in una ~ ~ prima fase l'esperimento casuale genera il valore ) , ovvero seleziona l'insieme EÐ) Ñ della partizione di V8 secondo una legge di probabilità che dipende da ) , e in una seconda fase sceglie ~ un elemento ÐB" ß á ß B8 Ñ di EÐ)Ñ secondo una legge di probabilità che non dipende da ) . ~ Dunque, si è ancora ottenuto che se K è sufficiente per ) la conoscenza del campione originale ~ non aggiunge niente rispetto all'informazione che si ha su ) basandosi sul solo stimatore K. Esempio 2.5.5. Dato un campione casuale da \ µ R Ð.ß 8Ñ, tenendo presente l'Esempio 1.2.3 e – l'Esempio 1.2.5, si ha che \ µ R Ð.ß 8Î8Ñ e 8W # Î8 µ ;#8" sono stimatori indipendenti. Dunque, tenendo presente anche l'Esempio 2.5.2, si ha – =# Ñ œ 08 ÐB" ß á ß B8 à .ß 8Ñ 08 ÐB" ß á ß B8 ± Bß – .ß 8Ñ0W # Ð=# à 8Ñ 0\– ÐBà – .Ñ# Ó™ Ð#1Ñ8Î# 88Î# exp˜ #88 Ò=# ÐB œ – .Ñ# ™ >ˆ 8" ‰" 8 ˆ 8=# ‰Ð8"ÑÎ#" expˆ "Î# exp˜ 8 ÐB Ð #18 8 Ñ #8 # #8 #8 œ 1Ð8"ÑÎ# 88Î# >Œ 8" Ð=# ÑÐ8$ÑÎ# , # 8=# ‰ #8 – =# Ñ non e quindi la distribuzione del vettore di variabili casuali condizionato Ð\" ß á ß \8 ± Bß dipende da Ð.ß 8Ñ. La precedente è in effetti una funzione di densità congiunta, come si potrebbe 8 – dimostrare integrando (in maniera laboriosa) per ÐB" ß á ß B8 Ñ con i vincoli 3œ" B3 œ 8B e 8 # # – 3œ" ÐB3 BÑ œ 8= . Dunque, si è di nuovo ottenuto il risultato dell'Esempio 2.5.3, ovvero lo – stimatore Ð\ß W # Ñ è sufficiente per Ð.ß 8Ñ. Esempio 2.5.6. Dato un campione casuale da \ µ Y Ð!ß $ Ñ, tenendo presente i risultati ottenuti nell'Esempio 1.3.4, si ha 08 ÐB" ß á ß B8 ± BÐ8Ñ Ñ œ $ 8 IÐ!ß"Ñ ÐBÐ8Ñ Î$ Ñ " œ , 8" Ð8Î$ ÑÐBÐ8Ñ Î$ Ñ IÐ!ß"Ñ ÐBÐ8Ñ Î$ Ñ 8B8" Ð8Ñ e quindi la distribuzione del vettore condizionato di variabili casuali Ð\" ß á ß \8 ± BÐ8Ñ Ñ non dipende dal parametro $ . Dunque, lo stimatore \Ð8Ñ è sufficiente per $ . ~ Se K è uno stimatore sufficiente per ) , allora dati due campioni ÐB" ß á ß B8 Ñ − V8 e ÐC" ß á ß C8 Ñ − V8 si ha ~ ~ ÐB" ß á ß B8 Ñ − EÐ)Ñß ÐC" ß á ß C8 Ñ − EÐ)Ñ Ê PÐ)à B" ß á ß B8 Ñ º PÐ)à C"ß á ß C8Ñ ~ ovvero elementi appartenenti ad un dato EÐ) Ñ hanno verosimiglianze proporzionali. Quindi, una ~ volta noto EÐ) Ñ, siamo in grado di specificare la funzione di verosimiglianza associata a un qualunque ÐB" ß á ß B8 Ñ − V8 . Questo fatto implica che se si considera la trasformata biunivoca Capitolo 2 37 ~ ~ UÐKÑ, dal momento che la funzione UÒKÐB" ß á ß B8 ÑÓ individua la medesima partizione dello ~ spazio campionario, allora UÐKÑ è ancora uno stimatore sufficiente per ) . Esempio 2.5.7. Dato un campione casuale da \ µ R Ð.ß 8Ñ, nell'Esempio 2.5.4 è stato provato – che lo stimatore Ð\ß W # Ñ è sufficiente per Ð.ß 8Ñ. Di conseguenza, lo stimatore trasformato – – ÐY" ß Y# Ñ œ Ð\ß ÈW # Ñ œ Ð\ß WÑ è sufficiente per Ð.ß 8Ñ, dal momento che la trasformazione è biunivoca. 2.5.3. Stimatori sufficienti minimali. Al fine di ottenere la massima sintesi dell'informazione è importante considerare stimatori sufficienti che sono in grado di ottenere il massimo grado di ~ aggregazione dei dati. Dato un modello statistico Y) , uno stimatore K è detto sufficiente minimale per ) se è sufficiente per ) e se per ogni ÐB" ß á ß B8 Ñ − V8 e ÐC" ß á ß C8 Ñ − V8 si ha ~ ~ KÐB" ß á ß B8 Ñ œ KÐC" ß á ß C8 Ñ Í PÐ)à B" ß á ß B8 Ñ º PÐ)à C" ß á ß C8Ñ , ~ per ogni ) − @. Dunque, K è sufficiente minimale per ) se assume lo stesso valore per due campioni se e solo se i due campioni hanno verosimiglianze proporzionali. Se uno stimatore è sufficiente minimale per ) , il rapporto PÐ) à B" ß á ß B8 ÑÎPÐ)à C" ß á ß C8 Ñ deve essere una ~ ~ funzione che non dipende da ) se e solo se KÐB" ß á ß B8 Ñ œ KÐC" ß á ß C8 Ñ. ~ Se si considera la trasformata biunivoca UÐKÑ, dal momento che la funzione ~ ~ UÒKÐB" ß á ß B8 ÑÓ individua la medesima partizione dello spazio campionario, allora UÐKÑ è ancora uno stimatore sufficiente minimale per ) . Esempio 2.5.7. Dato un campione casuale da \ µ R Ð.ß 8Ñ, si ha –" .Ñ# Ó× PÐ.ß 8à B" ß á ß B8 Ñ - 88Î# expÖ Ð8Î#8ÑÒ=#" ÐB œ 8Î# –# .Ñ# Ó× PÐ.ß 8à C" ß á ß C8 Ñ -8 expÖ Ð8Î#8ÑÒ=## ÐB 8 # –" .Ñ# ÐB – # . Ñ# Ó › , œ - expš Ò= =## ÐB #8 " – " , =# e B –# , =# sono rispettivamente la media e la varianza campionaria relative a dove B " # ÐB" ß á ß B8 Ñ e ÐC" ß á ß C8 Ñ. La precedente espressione non dipende da Ð.ß 8Ñ se e solo se –" œ B –# e =# œ =# . Si deve l'argomento della funzione esponenziale si annulla, ovvero quando B " # – dunque concludere che lo stimatore Ð\ß W # Ñ è sufficiente minimale per Ð.ß 8Ñ. Esempio 2.5.8. Dato un campione casuale da \ µ IÐ!ß 5Ñ, allora si ha – " Î5 Ñ PÐ5à B" ß á ß B8 Ñ - 58 expÐ 8B 8 – – œ 8 œ - expš ÐB " B# Ñ › , – PÐ5à C" ß á ß C8 Ñ - 5 expÐ 8B# Î5Ñ 5 –" e B –# sono le medie campionarie relative a ÐB" ß á ß B8 Ñ e ÐC" ß á ß C8 Ñ. La precedente dove B espressione non dipende dal parametro 5 se e solo se l'argomento della funzione esponenziale si – –" œ B –# . Si deve dunque concludere che lo stimatore \ annulla, ovvero quando B è sufficiente minimale per 5. Se la distribuzione 08 ÐB" ß á ß B8 à )Ñ specificata dal modello statistico Y) appartiene alla ~ famiglia esponenziale in forma ridotta, allora K è ovviamente uno stimatore sufficiente per ) . Inoltre, dati due campioni ÐB" ß á ß B8 Ñ − V8 e ÐC" ß á ß C8 Ñ − V8 , per questa famiglia si ha 38 La stima per punti ~ PÐ)à B" ß á ß B8 Ñ - expÒKÐB" ß á ß B8 ÑT :Ð)Ñ (Ð)ÑÓ œ ~ PÐ)à C" ß á ß C8 Ñ - expÒKÐC" ß á ß C8 ÑT :Ð)Ñ (Ð)ÑÓ ~ ~ œ - expÖÒKÐB" ß á ß B8 Ñ KÐC" ß á ß C8 ÑÓT :Ð)Ñ× . ~ La precedente espressione non dipende dai parametri se e solo se KÐB" ß á ß B8 Ñ œ ~ ~ KÐC" ß á ß C8 Ñ, ovvero K è sufficiente minimale per ) . Dunque, se la distribuzione specificata dal modello statistico appartiene alla famiglia esponenziale in forma ridotta, si può ottenere immediatamente lo stimatore sufficiente minimale per ) . Esempio 2.5.9. Dato un campione casuale da \ µ R Ð.ß 8Ñ, tenendo presente i risultati – –# dell'Esempio 2.4.13, lo stimatore sufficiente minimale per Ð.ß 8Ñ è dato da Ð\ß W # \ Ñ. – # Questa è una trasformata biunivoca dello stimatore Ð\ß W Ñ, che dunque a sua volta risulta sufficiente minimale per Ð.ß 8Ñ, ovvero si sono verificati i risultati dell'Esempio 2.5.7. 2.5.4. Il metodo di Blackwell-Rao. Avendo a disposizione uno stimatore corretto e uno sufficiente, a partire da questi stimatori si può costruire un nuovo stimatore corretto e sufficiente che ha varianza minore di quello corretto iniziale. Per semplicità si analizza inizialmente il caso di un parametro. ~ ~ – Se K è sufficiente per ) e K è corretto per ) , allora si consideri lo stimatore Y ÐKÑ tale che ~ – ~ Y Ð)Ñ œ EÐK ± )Ñ . ~ Lo stimatore Y ÐKÑ è corretto per ) dal momento che ~ – ~ – EÒY ÐKÑÓ œ E~) ÒEÐK ± )ÑÓ œ EÐKÑ œ ) . Inoltre, risulta ~ ~ – – ~ – ~ – ~ VarÐKÑ œ Var~) ÒEÐK ± )ÑÓ E~) ÒVarÐK ± )ÑÓ œ VarÒY ÐKÑÓ E~) ÒVarÐK ± )ÑÓ VarÒY ÐKÑÓ , ~ – ~ essendo E~) ÒVarÐK ± )ÑÓ !. Dunque, lo stimatore Y ÐKÑ è corretto per ) con varianza minore di ~ – quella dello stimatore K. La procedura per la costruzione dello stimatore Y ÐKÑ è detto metodo di Blackwell-Rao. ~ Si consideri una ulteriore caratteristica di uno stimatore. Uno stimatore K è detto completo se ~ ~ per una qualsiasi trasformata Y si ha EÒY ÐKÑÓ œ ! se e solo se Y ÐKÑ œ ! con probabilità ". ~ Questa proprietà implica l'unicità di una trasformata di K corretta per ). Se quindi il metodo di ~ – Blackwell-Rao è applicato ad uno stimatore K corretto per ) e a uno stimatore K sufficiente e ~ completo per ), allora lo stimatore risultante Y ÐKÑ è unico. Questa procedura assicura il raggiungimento dello stimatore corretto per ) avente varianza minima. Esempio 2.5.10. Dato un campione casuale da \ µ Y Ð!ß $ Ñ, dall'Esempio 2.4.7 è noto che il problema di stima non è regolare e che quindi non è possibile ottenere un limite inferiore alla varianza di uno stimatore corretto per $ . Tuttavia, si può costruire lo stimatore corretto per $ con varianza minima attraverso il metodo di Blackwell-Rao. Tenendo presente i risultati ottenuti nell'Esempio 2.5.6, \Ð8Ñ è stimatore sufficiente per $ . Se Y Ð\Ð8Ñ Ñ è una qualsiasi trasformata positiva è facile dimostrare che \Ð8Ñ è anche stimatore completo. Inoltre lo stimatore #\" è corretto per $ , essendo EÐ#\" Ñ œ $ come risulta dalle proprietà della Uniforme (vedi A.1.3). La variabile casuale condizionata Ð\" ± BÐ8Ñ Ñ è una variabile casuale mista con distribuzione 0Ð\" ±BÐ8Ñ Ñ ÐB" Ñ œ da cui 8" " " IÐ!ßBÐ8Ñ Ñ ÐB" Ñ IÖBÐ8Ñ × ÐB" Ñ , 8 BÐ8Ñ 8 Capitolo 2 39 EÐ#\" ± BÐ8Ñ Ñ œ ( ! BÐ8Ñ #B" 8" " " 8" .B" #BÐ8Ñ œ BÐ8Ñ . 8 BÐ8Ñ 8 8 Si deve dunque concludere che lo stimatore Ð8 "Ñ\Ð8Ñ Î8 è lo stimatore corretto per $ con varianza minima. Il metodo di Blackwell-Rao può essere generalizzato al caso di un vettore di parametri ). Se ~ – K è uno stimatore sufficiente per ) e K è uno stimatore corretto per ), allora si può dimostrare che lo stimatore ~ – ~ UÐ) Ñ œ EÐK ± )Ñ , è corretto e sufficiente per ) con matrice di varianza-covarianza minore (nel senso spiegato nella ~ – §2.4.2) di quella di K. Inoltre, uno stimatore K è completo se per un qualsiasi trasformata U si ~ ~ ha EÒUÐKÑÓ œ ! se e solo se UÐKÑ œ ! con probabilità ". Anche in questo caso, se il metodo di ~ – Blackwell-Rao è applicato allo stimatore K corretto per ) e allo stimatore K sufficiente e ~ completo per ) , allora lo stimatore risultante UÐKÑ è corretto per ) con matrice di varianzacovarianza minima. Questa affermazione è da intendersi nel senso che la matrice ~ – – VarÒUÐKÑÓ VarÐKÑ è definita negativa per un qualsiasi stimatore corretto K per ) . Esempio 2.5.11. Dato un campione casuale da \ µ Y Ð-ß - $ Ñ, il problema di stima non è regolare e quindi non è possibile ottenere un limite inferiore alla matrice di varianza-covarianza di uno stimatore corretto per Ð-ß $ Ñ. Tuttavia, si può costruire lo stimatore corretto per Ð-ß $ Ñ con matrice di varianza-covarianza minima con il metodo di Blackwell-Rao. Tenendo presente i risultati ottenuti nell'Esempio 1.3.8, è facile verificare attraverso il criterio di fattorizzazione di Neyman che Ð\Ð"Ñ ß \Ð8Ñ Ñ è uno stimatore sufficiente per Ð-ß $ Ñ. Se UÐ\Ð"Ñ ß \Ð8Ñ Ñ è una qualsiasi trasformata si può dimostrare che Ð\Ð"Ñ ß \Ð8Ñ Ñ è anche uno stimatore completo. Inoltre, tenendo presente l'Esempio 1.2.6 e le proprietà della Beta (vedi §A.1.5), allora si ha EÐ\Ð"Ñ Ñ œ - $ 8" EÐ\Ð8Ñ Ñ œ - 8$ , 8" e mentre per le proprietà della Uniforme si ha EÐ\" Ñ œ - $ , # per cui risulta che Œ 8" # 8" \Ð"Ñ \" ß Ð\Ð8Ñ \Ð"Ñ Ñ 8" 8" 8" è uno stimatore corretto per Ð-ß $ Ñ. La variabile casuale condizionata Ð\" ± BÐ"Ñ ß BÐ8Ñ Ñ è una variabile casuale mista con distribuzione 0Ð\" ±BÐ"Ñ ßBÐ8Ñ Ñ ÐB" Ñ œ da cui " 8# " " IÖBÐ"Ñ × ÐB" Ñ IÐBÐ"Ñ ßBÐ8Ñ Ñ ÐB" Ñ IÖBÐ8Ñ × ÐB" Ñ , 8 8 BÐ8Ñ BÐ"Ñ 8 40 La stima per punti BÐ8Ñ BÐ"Ñ BÐ8Ñ " 8# " " EÐ\" ± BÐ"Ñ ß BÐ8Ñ Ñ œ BÐ"Ñ ( B" .B" BÐ8Ñ œ . 8 8 BÐ8Ñ BÐ"Ñ 8 # BÐ"Ñ Dunque, dal momento che E” 8" # 8" # \Ð"Ñ \" ± BÐ"Ñ ß BÐ8Ñ • œ BÐ"Ñ EÐ\" ± BÐ"Ñ ß BÐ8Ñ Ñ 8" 8" 8" 8" " œ Ð8BÐ"Ñ BÐ8Ñ Ñ 8" e E” 8" 8" Ð\Ð8Ñ \Ð"Ñ Ñ ± BÐ"Ñ ß BÐ8Ñ • œ ÐBÐ8Ñ BÐ"Ñ Ñ , 8" 8" allora si deve dunque concludere che lo stimatore Œ " 8" Ð8\Ð"Ñ \Ð8Ñ Ñß Ð\Ð8Ñ \Ð"Ñ Ñ 8" 8" è corretto per Ð-ß $ Ñ con matrice di varianza-covarianza minima. Capitolo 3 Le stime di massima verosimiglianza 3.1. Il metodo della massima verosimiglianza 3.1.1. La definizione di stima di massima verosimiglianza. Anche se esistono in letteratura statistica vari metodi per ottenere stime per punti, nel seguito viene considerato solo il cosiddetto metodo della massima verosimiglianza dal momento che è di facile utilizzo e gode di proprietà ottime. Questo metodo di stima consiste nello scegliere il valore del parametro che massimizza la probabilità di ottenere proprio il campione che è stato estratto. Se si considera un modello statistico Y) , dato il campione ÐB" ß á ß B8 Ñ si dice stima di massima verosimiglianza di ) quel valore s ) − @ tale che PÐs )Ñ œ max PÐ)Ñ . )−@ Dal momento che la funzione logaritmo è monotona crescente, la precedente condizione è equivalente a 6Ðs )Ñ œ max 6Ð)Ñ , )−@ che spesso risulta più conveniente dal punto di vista del calcolo. Tenendo presente la precedente definizione, niente assicura l'esistenza e l'unicità della stima di verosimiglianza. Infine, la stima sÐB" ß á ß B8 Ñ di uno stimatore di massima verosimiglianza è la realizzazione campionaria s )œK s, detto appunto stimatore di massima verosimiglianza. K Talvolta si è interessati solo ad alcuni componenti del vettore di parametri ). In questo caso, T T ) può essere ripartito in due componenti ) œ Ð)ET ß )F Ñ , tali che )E − @E e )F − @F e dove @ œ @E ‚ @F . La cosiddetta verosimiglianza profilo relativa a )E è definita come P: Ð)E Ñ œ P: Ð)E à B" ß á ß B8 Ñ œ max PÐ)E ß )F Ñ . )F −@F La verosimiglianza profilo permette di analizzare la verosimiglianza rispetto a )E eliminando l'effetto dovuto a )F . Il valore s )F œ s ) F Ð)E Ñ, tale che P: Ð)E Ñ œ PÐ)E ß s ) F Ñ, è in effetti la stima di massima verosimiglianza di )F noto )E . Infine, la log-verosimiglianza profilo relativa a )E è data da 6: Ð)E Ñ œ 6: Ð)E à B" ß á ß B8 Ñ œ max 6Ð)E ß )F Ñ . )F −@F Esempio 3.1.1. Dato un campione casuale da \ µ R Ð.ß "Ñ, tenendo presente l'Esempio 1.3.1 si ha 6Ð.Ñ œ ln - # 8 # – .Ñ# Ó Ÿ ln - 8= œ 6ÐBÑ – œ max 6Ð.Ñ , Ò= ÐB .−‘ # # – .Ñ# !. Dunque . – è la stima di massima verosimiglianza di .. Lo dal momento che ÐB sœB – – stimatore di massima verosimiglianza risulta \ . Dall'Esempio 1.2.3 si ha che \ µ R Ð.ß "Î8Ñ. 42 Le stime di massima verosimiglianza Di conseguenza, lo stimatore di massima verosimiglianza risulta corretto, coerente e sufficiente minimale per ., ed è inoltre efficiente. Se si suppone che nel medesimo modello lo spazio parametrico sia dato da @ œ Ò!ß ∞Ñ, allora 8 – .Ñ# Ó ln IÒ!ß∞Ñ Ð.Ñ 6Ð.Ñ œ ln - Ò=# ÐB # 8=# – ln - 8 Ð=# B –# Ñ Ÿ maxœln - ln IÒ!ß∞Ñ ÐBÑß # # – 6Ð!Ñ× œ max 6Ð.Ñ , œ maxÖ6ÐBÑß .−Ò!ß∞Ñ e dunque la stima di massima verosimiglianza è data da . sœœ – B –! B –Ÿ!, ! B – – !Ñ. Lo stimatore di massima verosimiglianza risulta maxÐ\ß ovvero . !Ñ, che s œ maxÐBß ovviamente non possiede una distribuzione Normale. In questo caso è più complesso determinare le proprietà dello stimatore di massima verosimiglianza. Se infine si suppone che nel medesimo modello lo spazio parametrico sia dato da – se B – !, mentre non @ œ Ð!ß ∞Ñ, allora la stima di massima verosimiglianza risulta . sœB – Ÿ ! in quanto il valore . œ ! non fa parte dello spazio parametrico. In una situazione esiste se B di questo genere, dal momento che . œ ! è un valore per il quale la verosimiglianza ha senso matematico, si usa porre . s œ ! e nel seguito sarà sempre fatto uso di questa convenzione. Sulla – base di questa osservazione, lo stimatore di massima verosimiglianza risulta dunque maxÐ\ß !Ñ . Esempio 3.1.2. Dato un campione casuale da \ µ R Ð.ß 8Ñ, tenendo presente l'Esempio 1.3.2 si ha 6Ð.ß 8Ñ œ ln - # 8 8 # – .Ñ# Ó Ÿ ln - 8 ln 8 8= œ 6ÐBß – 8Ñ œ max 6Ð.ß 8Ñ , ln 8 Ò= ÐB .−‘ # #8 # #8 – .Ñ# !. Inoltre, dal momento che in generale è valida la relazione ln B Ÿ B " essendo ÐB essendo la funzione logaritmo concava, allora di conseguenza risulta lnŒ . 8 Ÿ . ", 8 ovvero ln 8 . Ÿ ln . " 8 per . costante positiva. Adoperando quest'ultima disugualianza con . œ =# nella relazione relativa alla log-verosimiglianza si ha # – 8Ñ œ ln - 8 ln 8 8= Ÿ ln - 8 ln =# 8 œ 6ÐBß – =# Ñ œ max 6Ð.ß 8Ñ . 6ÐBß .−‘ß8−‘ # #8 # # – =# Ñ è la stima di massima verosimiglianza di Ð.ß 8Ñ. Di conseguenza, lo Dunque, Ð. 8Ñ œ ÐBß sß s – stimatore di massima verosimiglianza risulta Ð\ß W # Ñ. Tenendo presente i risultati dell'Esempio – 1.2.5, si ha che \ µ R Ð.ß 8Î8Ñ e 8W # Î8 µ ;#8" e questi due stimatori sono indipendenti. Si può verificare facilmente che lo stimatore di massima verosimiglianza è asintoticamente corretto, coerente e sufficiente minimale per Ð.ß 8Ñ, ma non è efficiente non essendo corretto. Tenendo presente i risultati precedenti la log-verosimiglianza profilo relativa a . è data da Capitolo 3 43 6: Ð.Ñ œ ln - 8 – .Ñ# Ó 8 œ 6Ò.ß =# ÐB – .Ñ# Ó , . − ‘ , lnÒ=# ÐB # # mentre la log-verosimiglianza profilo relativa a 8 è data da 8 8=# – 8Ñ , 8 − ‘ . ln 8 œ 6ÐBß # #8 – œ " e =# œ # sono riportati I grafici delle verosimiglianze profilo standardizzate per 8 œ &, B nelle Figure 3.1.1 e 3.1.2. 6: Ð8Ñ œ ln - 1 0.8 0.6 0.4 0.2 0 −1 0 1 2 3 – œ " e =# œ # . Figura 3.1.1. Verosimiglianza profilo standardizzata relativa a . per 8 œ &, B 1 0.8 0.6 0.4 0.2 0 0 1 2 3 4 5 – œ " e =# œ # . Figura 3.1.2. Verosimiglianza profilo standardizzata relativa a 8 per 8 œ &, B Esempio 3.1.3. Dato un campione casuale da \ µ IÐ!ß 5Ñ, tenendo presente l'Esempio 1.3.3 e –, si ha la disugualianza dell'Esempio 3.1.2 con . œ B – 8B – 8 œ 6ÐBÑ – œ max 6Ð5Ñ , 6Ð5Ñ œ ln - 8 ln 5 Ÿ ln - 8 ln B 5−‘ 5 – è la stima di massima verosimiglianza di 5 . Lo stimatore di massima ovvero 5 sœB – – verosimiglianza risulta \ e sulla base dei risultati dell'Esempio 1.2.4 si ha \ µ KÐ!ß 5Î8à 8Ñ. Lo stimatore di massima verosimiglianza risulta corretto, coerente e sufficiente minimale per 5 , ed inoltre è anche efficiente. Esempio 3.1.4. Dato un campione casuale da \ µ Y Ð!ß $ Ñ, sulla base dei risultati ottenuti nell'Esempio 1.3.4, si ha 6Ð$ Ñ œ ln - 8 ln $ ln IÒBÐ8Ñ ß∞Ñ Ð$ Ñ Ÿ ln - 8 ln BÐ8Ñ œ 6ÐBÐ8Ñ Ñ œ max 6Ð$ Ñ , $ −‘ 44 Le stime di massima verosimiglianza dove si è tenuto presente che la funzione logaritmo è crescente e che la log-verosimiglianza può essere definita per $ BÐ8Ñ (vedi nota finale all'Esempio 3.1.1). Dunque, s$ œ BÐ8Ñ è la stima di massima verosimiglianza di $ . Lo stimatore di massima verosimiglianza risulta \Ð8Ñ e, tenendo presente i risultati dell'Esempio 1.2.6, si ha \Ð8Ñ µ F/Ð!ß $ à 8ß "Ñ. Lo stimatore di massima verosimiglianza risulta asintoticamente corretto, coerente e sufficiente per $ . Dal momento che non si è in un problema di stima regolare non ha senso considerare l'efficienza dello stimatore. Lo stimatore di massima verosimiglianza è comunque una trasformata lineare dello stimatore corretto con varianza minima e per 8 elevato è approssimativamente equivalente a quest'ultimo stimatore. Esempio 3.1.5. Dato il modello di regressione lineare dell'Esempio 1.1.8, tenendo presente l'Esempio 1.3.6, si ha 6Ð+ß ,ß 8Ñ œ ln - Ÿ ln - =#DC =DC 8 8 # ln 8 = ,= D Œ C – # #8 =#D =D 8 8 ln 8 # #8 =#C =#DC =#D # – +Ñ# ÐC — œ 6Ð+ß s s,ß 8Ñ œ max 6Ð+ß ,ß 8Ñ , +−‘ß,−‘ – +Ñ# !, e dove s dal momento che Ð,=D =DC Î=D Ñ# ! e ÐC + œ –C e s, œ =DC Î=#D . Tenendo in # considerazione inoltre la disugualianza dell'Esempio 3.1.2 con . œ =#C =DC Î=D# , si ha 6Ð+ß s s,ß 8Ñ œ ln - Ÿ ln - 8 8 ln 8 # #8 =#C =#DC 8 ln =#C # # =D =#DC =#D 8 œ 6Ð+ß max 6Ð+ß ,ß 8Ñ , s s,ß =<# Ñ œ +−‘ß,−‘ß8−‘ # # dove =#< œ =C# =DC Î=D# . Sulla base dei risultati dell'Esempio 1.3.6, si ottiene che =#< œ " 8 8 ÐC3 s + s,D3 Ñ# . 3œ" Dunque, =#< è in effetti la media degli scarti al quadrato dei valori osservati C3 dai valori stimati + s,D3 . Si deve dunque concludere che Ð+ß s s s,ß =#< Ñ è la stima di massima verosimiglianza di – # s Fß s W<# Ñ œ Ð] Ð+ß ,ß 8Ñ. Lo stimatore di massima verosimiglianza è ÐEß ß WDC Î=D# ß WC# WDC Î=D# Ñ. seF s sono combinazioni lineari delle ]3 con i coefficienti delle combinazioni Gli stimatori E s rispettivamente pari a -3 œ "Î8 e -3 œ D3 ÎÐ8=#D Ñ. Per le proprietà della Normale (vedi §A.1.2), E s µ R Ð+ß 8Î8Ñ e F s sono statistiche indipendenti distribuite come E s µ R Ð,ß 8Î8=#D Ñ. Inoltre, eF s FD s 3 , che a loro volta sono combinazioni lineari delle W<# dipende dalle variabili casuali ]3 E ]3 con i coefficienti della combinazione pari rispettivamente a Ú -34 œ Û Ü" " 8 D3 D 4 8=#D D3# " 8 8=#D 4Á3 4œ3 . Dunque, ancora per le proprietà della Normale (vedi §A.1.2), con una dimostrazione simile a s, F s e W<# sono statistiche indipendenti. Inoltre, quella dell'Esempio 1.2.5, si può verificare che E tenendo presente la relazione dell'Esempio 1.3.6, si ha Capitolo 3 45 8 3œ" Ð]3 + ,D3 Ñ# 8 œ 8 8 # WDC # =D 8 – s D Ñ# 8 Ð] Ð,=D F= +Ñ# 8 8 – s ,Ñ# 8W<# ÐF Ð] +Ñ# . œ 8 8ÎÐ8=#D Ñ 8Î8 WC# Dal momento che 8 3œ" Ð]3 + ,D3 Ñ# µ ;#8 8 s, F s e W<# sono indipendenti, allora per la proprietà i) della §A.3.1 deve essere e che E necessariamente 8W<# µ ;#8# . 8 Lo stimatore di massima verosimiglianza risulta asintoticamente corretto, coerente e sufficiente minimale per Ð+ß ,ß 8Ñ. Tenendo presente i risultati precedenti, la log-verosimiglianza profilo relativa a Ð+ß ,Ñ è data da 8 8 s ,Ñ# Ð+ 6: Ð+ß ,Ñ œ ln - lnÒ=#< =D# Ð, s +Ñ# Ó # # # # s # # œ 6Ò+ß ,ß =< =D Ð, ,Ñ Ð+ s +Ñ Ó , Ð+ß ,Ñ − ‘# , mentre la log-verosimiglianza profilo relativa a + è 8 8 6: Ð+Ñ œ ln - lnÒ=#< Ð+ s +Ñ# Ó œ 6Ò+ß s,ß =<# Ð+ s +Ñ#Ó , + − ‘ , # # e la log-verosimiglianza profilo relativa a , è 8 s ,Ñ# Ó 8 œ 6Ò+ß s ,Ñ#Ó , , − ‘ . 6: Ð,Ñ œ ln - lnÒ=#< =D# Ð, s ,ß =<# =D# Ð, # # I grafici delle verosimiglianze profilo standardizzate per 8 œ &, =#D œ #, s + œ !, s, œ # e =<# œ " sono riportati nelle Figure 3.1.3, 3.1.4 e 3.1.5. 1 0.75 4 0.5 3 0.25 2 0 2 1 1 0 −1 0 −2 Figura 3.1.3. Verosimiglianza profilo standardizzata relativa a Ð+ß ,Ñ per 8 œ &, =#D œ #, s + œ !, s, œ # e =<# œ ". 46 Le stime di massima verosimiglianza 1 0.8 0.6 0.4 0.2 0 −2 −1 0 1 2 Figura 3.1.4. Verosimiglianza profilo standardizzata relativa a + per 8 œ &, =#D œ #, s + œ !, s, œ # e =<# œ ". 1 0.8 0.6 0.4 0.2 0 0 1 2 3 4 Figura 3.1.5. Verosimiglianza profilo standardizzata relativa a , per 8 œ &, =#D œ #, s + œ !, s, œ # e =<# œ ". Esempio 3.1.6. Dato un campione casuale da \ µ IÐ-ß 5Ñ, sulla base dei risultati ottenuti nell'Esempio 1.3.7, si ha –B 6Ð-ß 5Ñ œ ln - 8 ln 5 8 ln IÐ∞ßBÐ"Ñ Ó Ð-Ñ 5 – BÐ"Ñ B Ÿ ln - 8 ln 5 8 œ 6ÐBÐ"Ñ ß 5Ñ œ max 6Ð-ß 5Ñ -−‘ 5 – -Ñ è decrescente in - e la log-verosimiglianza dove si è tenuto presente che la funzione ÐB può essere definita per BÐ"Ñ Ÿ - (vedi nota finale all'Esempio 3.1.1). Adoperando la – BÐ"Ñ nella precedente relazione, si ha inoltre disugualianza dell'Esempio 3.1.2 con . œ B – BÐ"Ñ B 6ÐBÐ"Ñ ß 5Ñ œ ln - 8 ln 5 8 5 – BÐ"Ñ Ñ 8 Ÿ ln - 8 lnÐB – BÐ"Ñ Ñ œ max 6Ð-ß 5Ñ , œ 6ÐBÐ"Ñ ß B -−‘ß5−‘ – BÐ"Ñ Ñ è la stima di massima verosimiglianza di Ð-ß 5Ñ. Lo stimatore sß 5 Dunque, Ðs Ñ œ ÐBÐ"Ñ ß B – di massima verosimiglianza risulta Ð\Ð"Ñ ß \ \Ð"Ñ Ñ. Non è agevole determinare la funzione di densità congiunta di questo stimatore e dunque non è immediato ottenere le relative proprietà. Inoltre, la log-verosimiglianza profilo relativa a - risulta Capitolo 3 47 – -Ñ 8 ln IÐ∞ßB Ó Ð-Ñ œ 6Ð-ß B – -Ñ , - − ‘ , 6: Ð-Ñ œ ln - 8 lnÐB Ð"Ñ mentre la log-verosimiglianza profilo relativa a 5 è data da – BÐ"Ñ B 6: Ð5Ñ œ ln - 8 ln 5 8 œ 6ÐBÐ"Ñ ß 5Ñ , 5 − ‘ . 5 – œ # e BÐ"Ñ œ " sono riportati I grafici delle verosimiglianze profilo standardizzate per 8 œ &, B nelle Figure 3.1.6 e 3.1.7. 1 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 1.2 – œ # e BÐ"Ñ œ ". Figura 3.1.6. Verosimiglianza profilo standardizzata relativa a - per 8 œ &, B 1 0.8 0.6 0.4 0.2 0 0 0.5 1 1.5 2 2.5 – œ # e BÐ"Ñ œ ". Figura 3.1.7. Verosimiglianza profilo standardizzata relativa a 5 per 8 œ &, B Esempio 3.1.7. Dato un campione casuale da \ µ PÐ.ß "Ñ, sulla base dei risultati dell'Esempio 1.3.10, 6Ð.Ñ raggiunge il massimo quando la funzione 8 2Ð.Ñ œ ± BÐ3Ñ . ± 3œ" raggiunge il minimo. Per 8 dispari, ovvero 8 œ #6 ", il minimo di 2Ð.Ñ è raggiunto per BÐ6"Ñ , mentre per 8 pari, ovvero 8 œ #6, il minimo di 2Ð.Ñ è raggiunto per qualsiasi valore compreso fra BÐ6Ñ e BÐ6"Ñ . Dunque, in questo ultimo caso esistono infinite stime di verosimiglianza. Tenendo presente la definizione data nella §1.2.4, si deve concludere che il minimo di 2Ð.Ñ è ~ se 8 è dispari e quindi . ~ è la stima di massima raggiunto per la mediana campionaria B sœB ~ verosimiglianza di .. Di conseguenza, lo stimatore di massima verosimiglianza risulta \ se 8 è dispari, mentre non è univocamente definito se 8 è pari. 48 Le stime di massima verosimiglianza 3.1.2. Alcuni aspetti relativi al calcolo delle stime di massima verosimiglianza. Negli esempi della §3.1.1 la massimizzazione della verosimiglianza è stata volutamente ottenuta senza ricorrere all'uso delle derivate. I motivo di questa scelta sono vari: i) innanzitutto nel punto di massimo può non esistere la derivata (vedi Esempio 3.1.7); ii) il punto di massimo potrebbe essere sulla frontiera dello spazio parametrico (vedi Esempio 3.1.4); iii) la massimizzazione con l'uso delle derivate comporta il calcolo del vettore delle derivate prime e della matrice hessiana che può essere oneroso quando il numero dei parametri è elevato (vedi Esempio 3.1.6). Quando tuttavia la condizione c) della §2.1.2 è verificata e se risulta 6Ð)Ñ Ä ∞ quando ) si avvicina alla frontiera di @, la stima di massima verosimiglianza s ) è una delle soluzioni dell'equazione vettoriale, detta equazione di verosimiglianza, data da s8 Ð) à B" ß á ß B8 Ñ œ ` 6Ð)à B" ß á ß B8 Ñ œ ! . `) La stima di massima verosimiglianza si ottiene per quella soluzione per cui si ha il massimo assoluto della verosimiglianza. Inoltre, se la matrice hessiana cambiata di segno # sI8 Ð) Ñ œ ` s8 Ð)à B" ß á ß B8 Ñ œ ` 6Ð)à B" ß á ß B8 Ñ `) ` )` )T è definita positiva, allora la log-verosiglianza risulta concava. In questo caso esiste un sola soluzione all'equazione di verosimiglianza che corrisponde appunto alla stima di massima verosimiglianza. La quantità sI8 Ðs ) Ñ è detta informazione osservata di Fisher. Esempio 3.1.8. Dato un campione casuale da \ µ F3Ð"ß :Ñ, tenendo presente i risultati ottenuti nell'Esempio 1.3.5, si ha che 6Ð:Ñ è derivabile su tutto lo spazio parametrico Ð!ß "Ñ e lim 6Ð:Ñ œ lim 6Ð:Ñ œ ∞ . :Ä! :Ä" Inoltre, si ha la seguente equazione di verosimiglianza =8 Ð:à B" ß á ß B8 Ñ œ – 8 8B – ` 8B 6Ð:Ñ œ œ!, `: : ": –. Infine, essendo che ha un'unica soluzione s: œ B # – – sM 8 Ð:Ñ œ ` 6Ð:Ñ œ 8B 8 8B ! , `:# :# Ð" :Ñ# – – è la stima di massima verosimiglianza. Lo stimatore di verosimiglianza risulta \ allora s: œ B e – per le proprietà della Binomiale (vedi §A.2.2) si ha 8\ µ F3Ð8ß :Ñ. Lo stimatore di massima verosimiglianza risulta corretto, coerente e sufficiente minimale per :, ed inoltre è anche efficiente. Esempio 3.1.9. Dato un campione casuale da \ µ R Ð.ß 8Ñ, la condizione c) della §2.1.2 è verificata e 6Ð.ß 8Ñ Ä ∞ quando ci si avvicina alla frontiera dello spazio parametrico. Si ha la seguente equazione di verosimiglianza s 8 Ð . ß 8 à B" ß á ß B 8 Ñ œ ` `. ` `8 6Ð.ß 8Ñ 6Ð.ß 8Ñ œŒ 8 #8 – =# Ñ. Inoltre essendo che ha un'unica soluzione Ð. 8Ñ œ ÐBß sß s 8 – 8 ÐB .Ñ 8 # – #8# Ò= ÐB .Ñ# Ó œ!, Capitolo 3 49 sI8 Ð.ß 8Ñ œ œŒ 8 8# `# ` .# 6Ð.ß 8Ñ `# ` .` 8 6Ð.ß 8Ñ 8 8 – .Ñ ÐB `# ` .` 8 6Ð.ß 8Ñ `# ` 8# 6Ð.ß 8Ñ 8 – 8# ÐB .Ñ 8 8 # – #8# 8$ Ò= ÐB .Ñ# Ó , si ottiene – = # Ñ œ Œ =# sI8 ÐBß ! 8 ! , 8 #=% che è una matrice definita positiva. Dal momento che l'equazione di verosimiglianza ha un'unica soluzione e che il massimo non può essere sulla frontiera dello spazio parametrico, si deve – =# Ñ è la stima di massima verosimiglianza di Ð.ß 8Ñ. Dunque, i concludere che Ð. 8Ñ œ ÐBß sß s risultati dell'Esempio 3.1.2 sono stati ottenuti di nuovo. Anche se la condizione c) della §2.1.2 è verificata, può accadere che l'equazione di verosimiglianza non abbia soluzioni esplicite e quindi in questo caso si deve ricorrere a tecniche numeriche. Un metodo iterativo per ottenere un'approssimazione della stima di massima verosimiglianza è quello di Newton-Raphson. Partendo da una stima iniziale s ) ! (anche rozza e ottenuta eventualmente da un metodo alternativo alla massima verosimiglianza), il procedimento è basato sull'equazione ricorsiva s ) 4" œ s ) 4 sI8 Ðs ) 4 Ñ" s8 Ðs ) 4 Ñ , 4 œ !ß "ß á . L'iterazione ha termine per quel 4 tale che ² s )4 s ) 4" ² % con % ! errore prefissato e in questo caso l'approssimazione della stima di massima verosimiglianza è data da s ) 4 . Se la logverosimiglianza non è concava, niente assicura che la procedura di Newton-Raphson abbia effettivamente determinato un massimo assoluto. In questo caso, è opportuna una rappresentazione grafica preliminare della log-verosimiglianza e la scelta di vari punti iniziali per l'iterazione. Esempio 3.1.10. Dato un campione casuale da \ µ [ Ð!ß "à :Ñ, il modello statistico dipende dal parametro ) œ : con @ œ ‘ , ovvero 08 À 08 ÐB" ß á ß B8 à :Ñ œ $ :B:" expÐ B:3 ÑIÐ!ß∞Ñ ÐB3 ÑŸ , 3 8 Y: œ 3œ" da cui si ottiene la seguente log-verosimiglianza 8 6Ð:Ñ œ ln - 8 ln : Ð: "Ñ 8 ln B3 3œ" B:3 , : − ‘ . 3œ" Dal momento che =8 Ð:à B" ß á ß B8 Ñ œ ` 8 6Ð:Ñ œ `: : 8 8 ln B3 3œ" B:3 ln B3 , 3œ" allora l'equazione di verosimiglianza non ammette soluzioni esplicite. Inoltre risulta # sM 8 Ð:Ñ œ ` 6Ð:Ñ œ 8 `:# :# 8 B:3 Ðln B3 Ñ# ! . 3œ" Dunque, dal momento che se esiste almeno un B3 " risulta 50 Le stime di massima verosimiglianza lim 6Ð:Ñ œ lim 6Ð:Ñ œ ∞ , :Ä∞ :Ä! la stima di massima verosimiglianza coincide con la soluzione dell'equazione di verosimiglianza. Per esemplificare il metodo di Newton-Raphson si è generato artificialmente un campione casuale da questo modello con : œ $ e 8 œ "!, ottenendo il campione Ð!.(!%!"ß !.(&%"'ß !.)*'"*ß !.*(%)&ß ".#&"*$ß ".(!()"ß !.)!"'*ß "."#"#!ß !.*&#!!ß ".%*'$#Ñ . Scegliendo come stima iniziale s:! œ 8" 83œ" B#3 (una stima piuttosto grezza) e un errore pari a % œ !.!!!!", il metodo di Newton-Raphson fornisce le iterazioni della Tavola 3.1.1. Tavola 3.1.1. Iterazioni per il metodo di Newton-Raphson. 4 ! " # $ % & s:4 ".#$%*' #."%'"" #.()#"$ #.)$&#$ #.)$&#& #.)$&#& =8 Ð: s4 Ñ '.*(##) #.$&&"% !."(%)) !.!!!!& !.!!!!! !.!!!!! 6Ð: s4 Ñ ).()(#! %.(*#!) %.!!!*& $.**'$" $.**'$" $.**'$" Dunque la stima di massima verosimiglianza è data da s: ¶ #.)$&#& a meno di un errore pari a % œ !.!!!!". In questo caso, è stata ottenuta una soluzione specifica, nel senso che cambiando campione si deve ripercorrere tutto il procedimento di calcolo. Infine, si deve sottolineare che non si dispone della forma analitica dello stimatore di massima verosimiglianza e quindi non si può affermare nulla circa la sua distribuzione e le relative proprietà. Esempio 3.1.11. Se si assume che \ µ GÐ-ß "Ñ, allora dato un campione casuale il modello statistico dipende dal parametro ) œ - con @ œ ‘, ovvero 08 À 08 ÐB" ß á ß B8 à -Ñ œ $ 8 Y- œ 3œ" " , 1Ò" ÐB3 -Ñ# Ó Ÿ da cui si ottiene la seguente log-verosimiglianza 8 lnÒ" ÐB3 -Ñ# Ó , - − ‘ . 6Ð-Ñ œ ln - 3œ" Dal momento che =8 Ð-à B" ß á ß B8 Ñ œ ` 6Ð-Ñ œ `- 8 3œ" #ÐB3 -Ñ œ!, " ÐB3 -Ñ# allora è evidente che l'equazione di verosimiglianza non ammette soluzioni esplicite. Inoltre risulta # sM 8 Ð-Ñ œ ` 6Ð-Ñ œ ` -# 8 3œ" #Ò" ÐB3 -ÑÓ . Ò" ÐB3 -Ñ# Ó# Il segno della precedente quantità dipende da - e quindi la log-verosimiglianza non è concava. Per esemplificare il metodo di Newton-Raphson si è generato artificialmente un campione casuale da questo modello con - œ " e 8 œ "!, ottenendo Ð!.#(&((ß %".$(%*#ß !.&!!%'ß $.*)&("ß !.&#*'$ß ".*%##)ß "."$(!#ß '.$#)*!ß !.*($)(ß ".*!$*!Ñ . Capitolo 3 51 s! œ ÐBÐ&Ñ BÐ'Ñ ÑÎ# (ovvero la mediana campionaria) e un Scegliendo come stima iniziale errore pari a % œ !.!!!!", il metodo di Newton-Raphson fornisce le iterazioni della Tavola 3.1.2. Tavola 3.1.2. Iterazioni per il metodo di Newton-Raphson. 4 ! " # $ % & s:4 ".%$))* !.()%(& !.*"$"& !.*##"% !.*##"* !.*##"* =8 Ð: s4 Ñ ".(#*$$ !.'(%&$ !.!%"#& !.!!!## !.!!!!! !.!!!!! 6Ð: s4 Ñ "(.$&$%& "'.*!()' "'.)'#)$ "'.)'#'% "'.)'#'% "'.)'#'% Si può inoltre verificare graficamente che per questo campione la log-verosimiglianza presenta s ¶ !.*##"* a meno un solo massimo e dunque la stima di massima verosimiglianza è data da di un errore pari a % œ !.!!!!". Per un ulteriore campione la log-verosimiglianza potrebbe presentare più massimi relativi e quindi il procedimento dovrebbe essere eventualmente ripetuto con più stime iniziali. 3.2. Le proprietà degli stimatori di massima verosimiglianza 3.2.1. La proprietà di equivarianza. La proprietà di equivarianza assicura la congruenza della stima di massima verosimiglianza quando si riparametrizza il modello originale mediante funzioni biunivoche dei parametri. Dato un modello statistico Y) , se gÀ @ Ä I è una funzione biunivoca e # œ gÐ)Ñ, allora sia P# Ð# Ñ la verosimiglianza relativa al modello statistico riparametrizzato Y# . Si ha P# Ð# Ñ œ PÒg" Ð# ÑÓ œ PÐ)Ñ , per cui, dal momento che il massimo di PÐ)Ñ si ha per s ) , il massimo di P# Ð# Ñ si ottiene per # )Ñ, che dunque risulta la stima di massima verosimiglianza di # . Questa proprietà, detta s œ gÐs equivarianza, permette di calcolare facilmente la stima di massima verosimiglianza di funzioni biunivoche di ) quando si dispone della stima di massima verosimiglianza s ) . La proprietà dell'equivarianza evita inoltre incongrunze passando fra le varie parametrizzazioni di uno stesso modello statistico. La stima di massima verosimiglianza # s è la realizzazione campionaria dello s stimatore di verosimiglianza gÐKÑ, la cui distribuzione può essere trovata agevolmente a partire s , dal momento che la trasformazione è biunivoca. da quella di K Esempio 3.2.1. Dato un campione casuale da \ µ IÐ!ß 5Ñ, può risultare interessante stimare VarÐ\Ñ œ 5# . La trasformazione 8 œ 5# per 5 ! è biunivoca. Inoltre, dall'Esempio 3.1.3 –# – e quindi s –# . Lo stimatore di massima verosimiglianza risulta \ risulta 5 8œB , la cui sœB – distribuzione può essere determinata facilmente da quella di \ . 3.2.2. La sufficienza e gli stimatori di massima verosimiglianza. Gli stimatori di massima verosimiglianza sono trasformate di stimatori sufficienti. Infatti, dato un modello statistico Y) , ~ se esiste uno stimatore K sufficiente per ) , sulla base del criterio di fattorizzazione di Neyman risulta ~ PÐ)Ñ œ PÐ)à B" ß á ß B8 Ñ œ -1Ð)à )Ñ , ) − @ . Di conseguenza la stima di verosimiglianza può essere ottenuta semplicemente massimizzando ~ ~ 1Ð)à )Ñ. Dal momento che quest'ultima funzione dipende da ÐB" ß á ß B8 Ñ solo attraverso ) , allora 52 Le stime di massima verosimiglianza ~ la stima di massima verosimiglianza s ) è funzione di ) . Di conseguenza anche lo stimatore di ~ s è una trasformata dello stimatore K massima verosimiglianza K sufficiente per ) . Esempio 3.2.2. Dato un campione casuale da \ µ R Ð.ß 8Ñ, dall'Esempio 3.1.2 è noto che lo – stimatore di massima verosimiglianza risulta Ð\ß W # Ñ. Nell'Esempio 2.5.3 si è ottenuto che – Ð\ß W # Ñ è sufficiente per Ð.ß 8Ñ e dunque i risultati di questa sezione risultano verificati. Esempio 3.2.3. Dato un campione casuale da \ µ IÐ!ß 5Ñ, dall'Esempio 3.1.3 è noto che lo – – stimatore di masima verosimiglianza risulta \ . Nell'Esempio 2.5.2 si è ottenuto che \ è sufficiente e quindi i risultati di questa sezione risultano verificati. 3.2.3. La famiglia esponenziale e gli stimatori di massima verosimiglianza. Nel caso particolare in cui la distribuzione specificata dal modello statistico Y) appartenga alla famiglia esponenziale, gli stimatori di massima verosimiglianza godono di interessanti proprietà. Per semplicità si analizza inizialmente il caso di un parametro. La verosimiglianza risulta ~ PÐ)Ñ œ - expÒKÐB" ß á ß B8 Ñ:Ð)Ñ (Ð)ÑÓ , e quindi la log-verosimiglianza è data da ~ 6Ð)Ñ œ ln - KÐB" ß á ß B8 Ñ:Ð)Ñ (Ð)Ñ . Di conseguenza, l'equazione di verosimiglianza risulta =8 Ð)à B" ß á ß B8 Ñ œ ` ` ` ~ 6Ð)Ñ œ KÐB" ß á ß B8 Ñ :Ð ) Ñ (Ð )Ñ œ ! . `) `) `) Tenendo presente che la media della funzione punteggio è nulla, dalla precedente relazione si ha inoltre ` ` ~ EÒ=8 Ð)à \" ß á ß \8 ÑÓ œ EÒKÐ\" ß á ß \8 ÑÓ :Ð ) Ñ (Ð ) Ñ œ ! , `) `) ovvero, combinando le precedenti equazioni, si deve avere ~ ~ EÒKÐ\" ß á ß \8 ÑÓ œ KÐB" ß á ß B8 Ñ . ~ Si può dimostrare che questa equazione ammette soluzione se KÐB" ß á ß B8 Ñ è un valore interno ~ al supporto dello stimatore KÐ\" ß á ß \8 Ñ (vedi Brown, 1986). Se la stima di massima ~ verosimiglianza esiste, dunque deve essere quel valore s) per cui la media dello stimatore K è s uguale alla sua determinazione campionaria. Di conseguenza, lo stimatore di verosimiglianza K ~ è funzione dello stimatore K che per i risultati della §2.5.3 è sufficiente minimale per ) . Inoltre, l'informazione osservata di Fisher è data da sM 8 Ðs)Ñ œ ` =8 Ð)à B" ß á ß B8 Ѻ `) ) œs) # ` `# ~ œ KÐB" ß á ß B8 Ñ # :Ð)Ѻ # ( Ð) Ѻ `) `) ) œs) ) œs) # # ` ` ~ œ EÒKÐ\" ß á ß \8 ÑÓ # :Ð)Ѻ # (Ð) Ѻ , `) `) ) œs) ) œs) mentre l'informazione di Fisher è data da M8 Ð)Ñ œ E” ` `# `# ~ =8 Ð)à B" ß á ß B8 Ñ• œ EÒKÐ\" ß á ß \8 ÑÓ # :Ð)Ñ # (Ð)Ñ . `) `) `) Capitolo 3 53 Si deve concludere dunque che M8 Ðs)Ñ œ sM 8 Ðs)Ñ. Dal momento che M8 Ð)Ñ ! per ogni ), allora si ha anche sM 8 Ðs)Ñ !. Di conseguenza, ogni soluzione dell'equazione di verosimiglianza è un punto di massimo e quindi la soluzione è unica. Per inciso si noti che se la distribuzione specificata dal modello statistico appartiene alla famiglia esponenziale, allora la procedura di Newton-Raphson determina sicuramente un massimo assoluto. Infine, per i risultati ottenuti ~ nella §2.4.4, se esiste uno stimatore efficiente, questo è dato da K e lo stimatore di massima ~ s coincide con K verosimiglianza K . Questi risultati possono essere generalizzati al caso di un vettore di parametri ) . In questo caso la stima di massima verosimiglianza è data dalla soluzione dell'equazione ~ ~ EÒKÐ\" ß á ß \8 ÑÓ œ KÐB" ß á ß B8 Ñ , ~ s è funzione dello stimatore K ed è unica. Inoltre lo stimatore di verosimiglianza K sufficiente minimale per ). Nel caso infine che esista uno stimatore efficiente allora questo è dato dallo ~ sœK stimatore di massima verosimiglianza e risulta K . Esempio 3.2.4. Dato un campione casuale da \ µ R Ð.ß "Ñ, è noto dall'Esempio 2.4.13 che la classe di funzioni di densità definita in questo modello fa parte della famiglia esponenziale. La – –. Dal stima di massima verosimiglianza è data dalla soluzione dell'equazione EÐ\Ñ œ B – momento che EÐ\Ñ œ . (vedi Esempio 1.2.3), allora la stima di massima verosimiglianza –, risultato ottenuto in precedenza nell'Esempio 3.1.1. Lo stimatore di risulta . sœB – verosimiglianza \ è efficiente (vedi Esempio 2.4.9) e coincide infatti con lo stimatore sufficiente minimale per .. Esempio 3.2.5. Dato un campione casuale da \ µ R Ð.ß 8Ñ, è noto dall'Esempio 2.4.15 che la classe di funzioni di densità definita in questo modello fa parte della famiglia esponenziale. La stima di massima verosimiglianza è data dall'equazione vettoriale – –# – =# B –# Ñ . EÒÐ\ß W # \ ÑÓ œ ÐBß – –# Dal momento che EÐ\Ñ œ ., EÐW # Ñ œ Ð8 "Ñ8Î8 e EÐ\ Ñ œ 8Î8 .# (vedi Esempio 1.2.3 e §1.2.3), la precedente equazione si riduce a – =# B –# Ñ , Ð.ß 8 .# Ñ œ ÐBß – =# Ñ, un risultato ottenuto in precedenza per cui la stima di massima verosimiglianza risulta ÐBß – nell'Esempio 3.1.2. Lo stimatore di verosimiglianza Ð\ß W # Ñ non è efficiente dal momento che non è corretto per Ð.ß 8Ñ e quindi, dati i risultati di questa sezione, non esiste in generale uno – stimatore efficiente. In ogni caso lo stimatore Ð\ß W # Ñ è sufficiente minimale per Ð.ß 8Ñ. 3.3. Le proprietà degli stimatori di massima verosimiglianza per grandi campioni 3.3.1. La coerenza degli stimatori di massima verosimiglianza. Supponiamo che Y8ß) sia un modello statistico relativo ad un campionamento casuale per ogni 8. Siano inoltre valide le seguenti condizioni: a) il modello statistico è identificabile secondo la definizione data nella §2.1.2. b) lo spazio parametrico @ è un aperto di ‘5 ; c) la funzione punteggio sÐ) à BÑ esiste ed è continua per ogni ) − @ e per ogni B − f) (a meno di insiemi di probabilità nulla); d) risulta 54 Le stime di massima verosimiglianza ( ` ` 0 ÐBà )Ñ . / œ ( 0 ÐBà )Ñ . / . ` ) f) f) ` ) Le condizioni a)-d) date in questa sezione sono leggermente più blande di quelle per un problema di stima regolare. In effetti, anche se per provare i risultati che seguono sono sufficienti solo le precedenti condizioni, molti autori assumono comunque di trovarsi in un problema di stima regolare. Per semplicità si considera inizialmente un solo parametro ). Se )! − @ è il vero valore del parametro, allora innanzitutto si vuole dimostrare che l'equazione di verosimiglianza fornisce una successione di insiemi di soluzioni (ognuno dei quali non vuoto) dalla quale può essere scelta una successione di soluzioni che converge a )! quasi certamente, fatto che equivale ~ dunque ad ottenere uno stimatore K8 fortemente coerente per )! . Per la Legge Forte dei Grandi Numeri di Khintchine (vedi Fattorini, 1994) si ha " " =8 Ð ) à \ " ß á ß \ 8 Ñ œ 8 8 8 ;- =Ð)à \3 Ñ Ä +Ð)Ñ , 3œ" dove +Ð)Ñ œ ( =Ð)à BÑ0 ÐBà )! Ñ . / , ) − @ , f )! essendo 8" 83œ" =Ð)à \3 Ñ una media campionaria di variabili casuali indipendenti ed ugualmente distribuite con media +Ð)Ñ. Per l'assunzione d) la funzione +Ð)Ñ è continua e strettamente decrescente in un intorno di )! del tipo Ð)! %ß )! %Ñ con % !. Dal momento che +Ð)! Ñ œ ! per le proprietà della funzione punteggio, risulta +Ð)! %Ñ ! e +Ð)! %Ñ !. Allora si ha " " =8 Ð )! % à \ " ß á ß \ 8 Ñ œ 8 8 8 ;- =Ð)! %à \3 Ñ Ä +Ð)! %Ñ ! 3œ" e " " =8 Ð )! % à \ " ß á ß \ 8 Ñ œ 8 8 8 ;- =Ð)! %à \3 Ñ Ä +Ð)! %Ñ ! . 3œ" Di conseguenza, tenendo presente la condizione c), deve esistere un valore ) − Ð)! %ß )! %Ñ per cui si ha " " =8 Ð ) à \ " ß á ß \ 8 Ñ œ 8 8 8 ;- =Ð)à \3 Ñ Ä ! . 3œ" Dal momento che % può essere scelto piccolo a piacere, questo risultato è equivalente ad affermare che esiste una successione di soluzioni dell'equazione di verosimiglianza che ~ converge a )! quasi certamente, ovvero si è ottenuto uno stimatore K8 fortemente coerente per )! . Si dovrebbero sottolineare alcuni aspetti importanti di questo risultato. In primo luogo, si è visto che esiste una successione di soluzioni dell'equazione di verosimiglianza che permette di ~ costruire uno stimatore K8 fortemente coerente per )! , ma niente viene detto riguardo al modo in cui scegliere questa successione dall'insieme delle soluzioni dell'equazione di ~ verosimiglianza. In secondo luogo, lo stimatore K8 non coincide necessariamente con lo s 8 . I due stimatori coincidono nel caso che l'equazione di stimatore di massima verosimiglianza K verosimiglianza abbia un'unica soluzione che massimizza la verosimiglianza. Il risultato visto è Capitolo 3 55 comunque importante in quanto assicura la coerenza forte dello stimatore ottenuto attraverso l'equazione di verosimiglianza, e questo fatto giustifica fra l'altro il procedimento di NewtonRaphson per grandi campioni. I precedenti risultati possono essere estesi al caso di un vettore di parametri ) . Se )! − @ è il vero valore del parametro, l'equazione di verosimiglianza fornisce una successione di insiemi di soluzioni, dalla quale può essere scelta una successione di soluzioni che converge a )! quasi ~ ;certamente, ovvero esiste uno stimatore K8 Ä )! (vedi Wilks, 1962). Esempio 3.3.1. Dato un campione casuale da \ µ F3Ð"ß :Ñ, le condizioni a)-d) di questa sezione possono essere facilmente verificate. Inoltre, dall'Esempio 3.1.8 si ha che per ogni 8 l'equazione di verosimiglianza ha una soluzione unica che massimizza la log-verosimiglianza. Dunque, la soluzione dell'equazione di verosimiglianza coincide con lo stimatore di massima – ; verosimiglianza e si ha \ 8 Ä :! . Esempio 3.3.2. Dato un campione casuale da \ µ R Ð.ß 8Ñ, le condizioni sono a)-d) di questa sezione sono verificate, in quanto ci si trova in un problema di stima regolare. Inoltre, dall'Esempio 3.1.9 risulta che per ogni 8 l'equazione di verosimiglianza ha una soluzione unica che massimizza la log-verosimiglianza. La soluzione dell'equazione di verosimiglianza coincide ;– con lo stimatore di massima verosimiglianza e si ha Ð\ 8 ß W8# Ñ Ä Ð.! ß 8! Ñ. Con una dimostrazione più complessa della precedente, si può ottenere anche la coerenza s. Supponiamo dunque che Y8ß) sia un forte dello stimatore di massima verosimiglianza K modello statistico relativo ad un campionamento casuale per ogni 8 e siano verificate le seguenti condizioni: aw ) il modello statistico è identificabile secondo la definizione data nella §2.1.2. bw ) lo spazio parametrico @ è un compatto di ‘5 ; cw ) la funzione 0 ÐBà )Ñ è semicontinua superiormente in ) per ogni ) − @ e per ogni B − f) (a meno di insiemi di probabilità nulla); d w ) esiste una funzione 5ÐBÑ tale che ( ± 5ÐBÑ ± 0 ÐBà )! Ñ . / ∞ , f )! dove )! è il vero valore del parametro, e ln” 0 ÐBà )Ñ • 5ÐBÑ 0 ÐBà )! Ñ per ogni ) − @ e per ogni B − f) (a meno di insiemi di probabilità nulla). Se le condizioni aw )-d w ) sono verificate, si può dimostrare che lo stimatore di massima ;s8 Ä verosimiglianza è fortemente coerente, ovvero K )! per 8 Ä ∞ (vedi Ferguson, 1996). 3.3.2. La distribuzione per grandi campioni degli stimatori di massima verosimiglianza. Supponiamo che Y8ß) sia un modello statistico relativo ad un campionamento casuale per ogni 8 e siano inoltre valide le seguenti condizioni: a) il modello statistico è identificabile secondo la definizione data nella §2.1.2. b) lo spazio parametrico @ è un aperto di ‘5 ; c) le derivate ` 0 ÐBà )Ñ `) e 56 Le stime di massima verosimiglianza `# 0 ÐBà )Ñ ` )` )T esistono e sono continue per ogni ) − @ e per ogni B − f) (a meno di insiemi di probabilità nulla); d) risulta ( ` ` 0 ÐBà )Ñ . / œ ( 0 ÐBà )Ñ . / ` ) f) f) ` ) e `# `# 0 ÐBà )Ñ . / œ ( ( 0 ÐBà )Ñ . / . T ` ) ` ) T f) f) ` ) ` ) s 8 coincide con lo stimatore ottenuto dall'unica eÑ lo stimatore di massima verosimiglianza K soluzione dell'equazione di verosimiglianza; f) esiste una funzione 5ÐBÑ tale che ( ± 5ÐBÑ ± 0 ÐBà )! Ñ . / ∞ , f )! ` dove )! è il vero valore del parametro, e ogni componente di `) sÐ) à BÑ è limitato uniformente in valore assoluto da 5ÐBÑ in un intorno di )! ; g) l'informazione di Fisher IÐ) Ñ relativa ad una sola osservazione è definita positiva. Le condizioni a)-d) sono leggermente più forti di quelle per un problema di stima regolare, # nel senso che nella condizione c) si richiede che la derivata ` )`` )T 0 ÐBà )Ñ sia anche continua. Si vuole ora determinare la distribuzione per grandi campioni dello stimatore di massima verosimiglianza. Per semplicità si analizza inizialmente il caso di un parametro. Se )! − @ è il vero valore del parametro, per un dato campione ÐB" ß á ß B8 Ñ − V8 , consideriamo l'espansione in serie di Taylor della funzione punteggio =8 Ð)à B" ß á ß B8 Ñ œ 83œ" =Ð)à B3 Ñ in )! , ovvero ` =8 Ð)! à B" ß á ß B8 Ñ œ =8 Ðs)8 à B" ß á ß B8 Ñ =8 Ð)à B" ß á ß B8 Ñ º Ð)! s)8 Ñ , `) ‡ ) œ) s 8 ÐB" ß á ß B8 Ñ e ± )! )‡ ± ± )! s)8 ± . Dal momento che per l'assunzione e) dove s)8 œ K risulta =8 Ðs)8 à B" ß á ß B8 Ñ œ !, dalla precedente relazione si ha " " ` È8Ðs)8 )! Ñ . = Ð) à B ß á ß B8 Ñ œ =8 Ð ) à B" ß á ß B 8 Ñ º È8 8 ! " 8 `) ‡ ) œ) La variabile casuale " " =8 Ð )! à \ " ß á ß \ 8 Ñ œ È8 È8 8 =Ð)! à \3 Ñ 3œ" è data dalla somma di 8 variabili casuali indipendenti ed ugualmente distribuite. Dalla §2.4.1 risulta inoltre EÒ=Ð)! à \ÑÓ œ ! e VarÒ=Ð)! à \ÑÓ œ MÐ)! Ñ e quindi per il Teorema Fondamentale del Limite (se l'assunzione g) è verificata) si ha " . =8 Ð)! à \" ß á ß \8 Ñ Ä R Ö!ß MÐ)! Ñ× . È8 Si osservi ora che la variabile casuale Capitolo 3 57 " ` " =8 Ð ) à \ " ß á ß \ 8 Ñ º œ 8 `) 8 ) œ) ! 8 3œ" ` =Ð)à \3 Ѻ `) ) œ) ! è data dalla media di 8 variabili casuali indipendenti ed ugualmente distribuite. Dunque, dalla §2.4.1 risulta ` E– =Ð)à \3 Ѻ — œ MÐ)! Ñ `) ) œ) ! e quindi per la Legge Forte dei Grandi Numeri di Khintchine (se l'assunzione g) è verificata) si ottiene " ` ;=8 Ð ) à \ " ß á ß \ 8 Ñ º Ä MÐ)! Ñ . 8 `) ) œ) ! ;s8 Ä Infine, per le assunzioni a)-e) si ha K )! da cui )‡ Ä )! e per la Legge Forte Uniforme dei Grandi Numeri (se l'assunzione f) è verificata) si ottiene (vedi Wilks, 1962) " ` ;=8 Ð ) à \ " ß á ß \ 8 Ñ º Ä MÐ)! Ñ . 8 `) ) œ) ‡ Tenendo presente la relazione iniziale, si noti che le variabili casuali 8"Î# =8 Ð)! à \" ß á ß \8 Ñ e s 8 )! Ñ devono condividere la medesima distribuzione, e 8" ``) =8 Ð)à \" ß á ß \8 Ѹ)œ)‡ È8ÐK quindi applicando il Teorema di Slutsky (vedi Fattorini, 1994) si ottiene infine la distribuzione per grandi campioni dello stimatore di massima verosimiglianza, ovvero . s 8 )! Ñ Ä È8ÐK R œ!ß " MÐ)! Ñ . Il precedente risultato può essere generalizzato al caso di un vettore di parametri, nel senso che (vedi Wilks, 1962) . s 8 )! Ñ Ä È8ÐK R5 Ö!ß IÐ)! Ñ" × . La distribuzione per grandi campioni dello stimatore di massima verosimiglianza è stata ottenuta quando questo coincide con lo stimatore ottenuto dall'unica soluzione dell'equazione di verosimiglianza. Risultati più complessi possono essere ottenuti, anche se in questo ambito non saranno ulteriormente considerati (per ulteriori analisi vedi Lehmann, 1983). È importante infine osservare che, se sono verificate le assunzioni a)-f) di questa sezione, dai risultati ottenuti lo stimatore di massima verosimiglianza risulta asintoticamente efficiente, nel ´ senso che per grandi campioni la sua varianza tende al limite inferiore di Rao-Cramer. Esempio 3.3.3. Dato un campione casuale da \ µ R Ð.ß "Ñ, allora le condizioni a)-e) di questa sezione sono verificate (vedi Esempio 2.1.1 e Esempio 3.3.1). È laborioso, anche se semplice verificare la condizione f). Infine, la condizione g) è verificata dal momento che MÐ.Ñ œ " (vedi Esempio 2.4.1). Inoltre, dall'Esempio 3.1.1 è noto che lo stimatore di massima verosimiglianza è – dato da \ 8 e inoltre risulta "ÎMÐ.! Ñ œ ". Di conseguenza, si ottiene che . – È8Ð\ 8 .! Ñ Ä R Ð!ß "Ñ , ovvero la distribuzione per grandi campioni coincide in questo caso con quella per campioni finiti. 58 Le stime di massima verosimiglianza Esempio 3.3.4. Dato un campione casuale da \ µ IÐ!ß 5Ñ, si può dimostrare che le condizioni di questa sezione sono verificate. Inoltre, dall'Esempio 3.1.3 è noto che lo stimatore di massima – verosimiglianza è \ 8 , mentre dall'Esempio 2.4.2 si ha "ÎMÐ5! Ñ œ 5!# . Di conseguenza, si ha . – # È8Ð\ 8 5! Ñ Ä R Ð!ß 5! Ñ . Esempio 3.3.5. Dato un campione casuale da \ µ Y Ð!ß $ Ñ, le condizioni di questa sezione non sono verificate (vedi Esempio 2.4.3). Dall'Esempio 3.1.4 lo stimatore di massima verosimiglianza è dato da \Ð8Ñ e dalla teoria delle statistiche estremali è noto che (Ferguson, 1996) 8 . Ð\Ð8Ñ $! Ñ Ä IÐ!ß "Ñ . $! Dunque, la distribuzione per grandi campioni dello stimatore \Ð8Ñ non è Normale. Esempio 3.3.6. Dato un campione casuale da \ µ [ Ð!ß "à :Ñ, si può dimostrare che le condizioni di questa sezione sono verificate per : #. Dall'Esempio 3.1.10 è noto che lo stimatore di massima verosimiglianza non ha una forma esplicita e non è possibile ottenere la relativa distribuzione per campioni finiti. Tuttavia, dal momento che si ha "ÎMÐ:! Ñ œ ':!# Î1# , per :! # la distribuzione per grandi campioni dello stimatore di massima verosimiglianza risulta ': . s 8 :! Ñ Ä È8ÐT R Œ!ß #! 1 # . Esempio 3.3.7. Dato un campione casuale da \ µ R Ð.ß 8Ñ, si può dimostrare che le condizioni di questa sezione sono verificate. Inoltre, dall'Esempio 3.1.2 è noto che lo stimatore di massima – verosimiglianza è dato da Ð\ 8 ß W8# Ñ, mentre dall'Esempio 2.4.4 risulta IÐ.! ß 8! Ñ" œ Dunque si ha Î 8! Ï ! ! Ñ . #8!# Ò – # " T . È8Ð\ 8 .! ß W8 8! Ñ Ä R# Ö!ß IÐ.! ß 8! Ñ × . Supponendo vere le condizioni date in questa sezione, nel caso in cui 1À @ Ä I sia una funzione biunivoca e # œ 1Ð)Ñ, tenendo presente la proprietà di equivarianza degli stimatori di massima verosimiglianza e i risultati della §2.4.2, si ha immediatamente che .Ð)! Ñ . s 8 Ñ #! Ó Ä È8Ò1ÐK R œ!ß MÐ)! Ñ # , dove .Ð)Ñ œ ``) 1Ð)Ñ e #! œ 1Ð)! Ñ, supponendo che .Ð)! Ñ esista e .Ð)! Ñ Á !. Sulla base del precedente risultato è interessante determinare la trasformazione 1 per cui la s 8 Ñ #! Ó risulta pari a ". In questo caso, si deve avere varianza per grandi campioni di È8Ò1ÐK .Ð)Ñ# œ" MÐ)Ñ per ogni ), ovvero Capitolo 3 59 ` 1Ð)Ñ œ MÐ)Ñ"Î# . `) Questa equazione differenziale ha per soluzione la funzione 1Ð)Ñ œ ( MÐ)Ñ"Î# . ) , detta trasformazione stabilizzatrice della varianza. Questi risultati possono essere estesi al caso di un vettore di parametri. Se dunque gÀ @ Ä I è una funzione biunivoca e # œ gÐ)Ñ, allora si ha . s 8 Ñ #! Ó Ä È8ÒgÐK R5 Ö!ß DÐ)! ÑT IÐ)! Ñ" DÐ)! Ñ× , dove DÐ) Ñ è definita nella §2.4.2 e #! œ gÐ)! Ñ. Esempio 3.3.8. Dato un campione casuale da \ µ IÐ!ß 5Ñ, tenendo presente i risultati dell'Esempio 3.3.4, si consideri la trasformata biunivoca 1Ð5Ñ œ 5# per 5 !. Dal momento che risulta .Ð5Ñ œ allora si ha ` 1Ð5Ñ œ #5 , `5 . –# # È8Ð\ 8 #! Ñ Ä R Ð!ß %#! Ñ dove #! œ 5!# . La trasformazione stabilizzatrice della varianza è data da 1Ð5Ñ œ ( e dunque dove #! œ ln 5! . " . 5 œ ln 5 5 . – È8Ðln \ 8 #! Ñ Ä R Ð!ß "Ñ , 3.3.3. Una nota sull'informazione osservata di Fisher. Nella §2.1.1 è stato affermato che, in un procedimento di stima per punti, una stima deve essere accompagnata da una misura della sua attendibilità nello stimare il vero parametro )! . s è Dato un modello statistico Y8ß) , se il relativo stimatore di massima verosimiglianza K corretto per ) (o almeno asintoticamente corretto), una naturale misura della precisione della sÑ. Questa quantità dipende da ) e va quindi stimata sulla base del stima è data da VarÐK sÑ la stima di VarÐK sÑ. Nel caso che VarÐK sÑ sia una trasformata s ÐK campione. Si indichi con Var sÑ può essere s ÐK biunivoca di ) , si può sfruttare la proprietà dell'equivarianza, ovvero Var s Ñ (vedi Esempio ottenuta semplicemente sostituendo s ) al posto di ) nell'espressione di VarÐK 3.2.1). Se la trasformata non è biunivoca, si tenga presente che la stima che si ottiene in questo s Ñ. modo non è la stima di massima verosimiglianza di VarÐK s8 è coerente per ) , un indice di precisione per s Se K ) 8 è dato dalla matrice inversa " dell'informazione osservata di Fisher, ovvero da sI8 Ðs ) 8 Ñ . Questo indice misura la curvatura locale della log-verosimiglianza in un intorno di s ) 8 e quindi misura anche il grado relativo di s preferenza che la verosimiglianza assegna a ) 8 rispetto ad altri valori di ) . Supponendo verificate le condizioni della §3.3.2 e i risultati conseguiti nella medesima sezione, una ulteriore giustificazione per la scelta del precedente indice è data dal fatto che 60 Le stime di massima verosimiglianza " s s ;I8 Ð) 8 Ñ Ä IÐ)! Ñ , 8 ) 8 Ñ" è una stima della matrice di varianza-covarianza per grandi da cui segue che in effetti sI8 Ðs s8 . campioni di K Esempio 3.3.9. Dato un campione casuale da \ µ IÐ!ß 5Ñ, si ha – sM 8 Ð5Ñ œ 8 #8B , 5# 5$ –, si ha sM 8 ÐBÑ – " œ B –# Î8. e, dal momento che la stima di massima verosimiglianza di 5 è data B – Tenendo presente l'Esempio 3.2.1, la stima di massima verosimiglianza di VarÐ\Ñ œ 5# Î8 è – –# Î8, che quindi coincide con sM 8 ÐBÑ – " . s Ð\Ñ data da Var œB Esempio 3.3.10. Dato un campione casuale da \ µ R Ð.ß 8Ñ, tenendo presente l'Esempio 3.1.9, – =# Ñ, si ha dal momento che la stima di massima verosimiglianza di Ð.ß 5Ñ è data da ÐBß – =# Ñ" œ sI8 ÐBß =# 8 ! ! #=% 8 . – # – =# Ñ" . s ÒÐ\ß Dunque, la stima di massima verosimiglianza Var W ÑÓ coincide con sI8 ÐBß 3.4. Alcune esemplificazioni verosimiglianza del metodo della massima 3.4.1. La stima di massima verosimiglianza e la distribuzione di Poisson. Si consideri un campionamento casuale da \ µ T 9Ð.Ñ. La classe di funzioni di probabilità definita da questo ~ –, modello fa parte della famiglia esponenenziale con KÐB" ß á ß B8 Ñ œ B :Ð.Ñ œ 8 ln . e ( Ð. Ñ œ 8. , mentre ;ÐB" ß á ß B8 Ñ œ $ 8 3œ" IÖ!ß"ßá× ÐB3 Ñ . B3 x – –. Dunque, la stima di massima verosimiglianza è data dalla soluzione dell'equazione EÐ\Ñ œ B – – Dal momento che EÐ\Ñ œ . (vedi §A.2.2), la stima di massima verosimiglianza risulta . sœBe – lo stimatore di massima verosimiglianza \ è corretto per .. Dalle proprietà della famiglia esponenziale (vedi §3.2.3) si ricava che M8 Ð.Ñ œ 8Î.. Inoltre, per le proprietà della media campionaria (vedi §1.2.2) e della Poisson (vedi §A.2.2), si ha – – VarÐ\Ñ œ .Î8 e si deve concludere che \ è anche uno stimatore efficiente. Tenendo presente i – risultati della §3.2.3, \ è anche sufficiente minimale per .. Per quanto riguarda le proprietà per grandi campioni, le condizioni a)-g) della §3.3.2 sono – verificate e quindi \ 8 è fortemente coerente per ., mentre . – È8Ð\ 8 .! Ñ Ä R Ð!ß .! Ñ . Capitolo 3 61 – Dal momento che VarÐ\Ñ è una funzione biunivoca di ., allora una misura della precisione – – – . Questa stima coincide con sM 8 ÐBÑ – " . s Ð\Ñ di \ è data da Var œ BÎ8 Si considera ora un'applicazione con dati reali. I dati della Tavola 3.4.1 si riferiscono al numero di taxi arrivati in intervalli di un minuto alla stazione di Euston a Londra fra le 9.00 e le 10.00 in una mattina del 1950. Se gli arrivi sono casuali allora è noto dalla teoria dei processi stocastici puntuali che i dati provengono da una variabile casuale di Poisson T 9Ð.Ñ, dove . rappresenta l'intensità del processo (vedi Fattorini, 1994). È immediato verificare che la stima di – œ (*Î'! ¶ ".$"'(, che è l'intensità stimata di taxi per massima verosimiglianza risulta B – s Ð\Ñ œ !.!#"*. Il coefficiente di variazione stimato risulta minuto. Inoltre, si ha Var – – œ !.""#%, un valore piuttosto basso che suggerisce un certa precisione della stima. s Ð\Ñ"Î# ÎB Var Tavola 3.4.1. Numero di taxi in intervalli di un minuto. numero di taxi frequenza ! ") " ") # "% $ ( % $ più di & ! Fonte: Kendall (1951) 3.4.2. La stima di massima verosimiglianza e la regressione di Poisson. Supponiamo che il campione ÐC" ß á ß C8 Ñ sia la determinazione di un vettore di variabili casuali Ð]" ß á ß ]8 Ñ, le cui componenti sono indipendenti e tali che ]3 µ T 9Ð,D3 Ñ. In questo caso, ÐD" ß á ß D8 Ñ rappresenta un vettore di quantità note e fisse. Il campione non è casuale, in quanto le ]3 , sebbene indipendenti, non sono ugualmente distribuite. Questo è in effetti un modello di regressione e può essere opportuno quando le variabili di risposta sono intere (per ulteriori dettagli si veda Agresti, 1995). Il modello statistico risultante dipende dal parametro ) œ , con @ œ ‘ ed è dato da 08 À 08 ÐC" ß á ß C8 à ,Ñ œ $ expÐ ,D3 Ñ 8 Y, œ 3œ" Ð,D3 ÑC3 IÖ!ß"ßá× ÐC3 ÑŸ . C3 x La classe di funzioni di probabilità definita da questo modello fa parte della famiglia ~ esponenziale con KÐC" ß á ß C8 Ñ œ –C, :Ð,Ñ œ 8 ln , e –, (Ð,Ñ œ 8,D mentre ;ÐC" ß á ß C8 Ñ œ $ 8 3œ" D3C3 IÖ!ß"ßá× ÐC3 Ñ , C3 x dove –D œ 8" 83œ" D3 . Dunque, la stima di massima verosimiglianza è data dalla soluzione – – – , la stima di massima verosimiglianza dell'equazione EÐ] Ñ œ –C. Dal momento che EÐ] Ñ œ ,D – – – . Di conseguenza, lo stimatore di massima verosimiglianza è ] risulta s, œ –CÎD ÎD ed è corretto per ,. Dalle proprietà della famiglia esponenziale (vedi §3.2.3) si può ricavare che – . Inoltre, per le proprietà della media campionaria (vedi §1.2.2) e della Poisson M8 Ð,Ñ œ 8DÎ, – – – – – e quindi si deve concludere che ] (vedi §A.2.2), si ha VarÐ] ÎDÑ œ ,ÎÐ8DÑ ÎD è anche uno – – stimatore efficiente. Tenendo presente i risultati della §3.2.3, si ha inoltre che ] ÎD è sufficiente 62 Le stime di massima verosimiglianza – – minimale per ,. Dal momento che VarÐ] ÎDÑ è una funzione biunivoca di , , allora una misura – – – – – # Ñ. Questa stima coincide con sM 8 ÐCÎDÑ – – " . s della precisione di ] ÎD è data da VarÐ] ÎDÑ œ –CÎÐ8D Si considera ora un'applicazione con dati reali. I dati della Tavola 3.4.2 si riferiscono ad alcuni pezzi di stoffa prodotti da una industria. Tavola 3.4.2. Lunghezza (in metri) e numero di difetti nei pezzi di stoffa. pezzo " # $ % & ' ( ) * "! "" "# "$ "% "& "' D3 &&" '&" )$# $(& ("& )') #(" '$! %*" $(# '%& %%" )*& %&) '%# %*# C3 ' % "( * "% ) & ( ( ( ' ) #) % "! % pezzo "( ") "* #! #" ## #$ #% #& #' #( #) #* $! $" $# D3 &%$ )%# *!& &%# &## "## '&( "(! ($) $(" ($& (%* %*& ("' *&# %"( C3 ) * #$ * ' " * % * "% "( "! ( $ * # Fonte: Bissel (1972) Ogni pezzo di stoffa è stato misurato e successivamente è stato contato il numero di difetti di lavorazione che presentava. Se i difetti sono situati in modo casuale sui pezzi di stoffa, in base alla teoria dei processi stocastici puntuali, un modello di regressione di Poisson sembra dunque ragionevole nell'analisi di questi dati. –œ È immediato verificare che la stima di massima verosimiglianza risulta –CÎD ).)(&Î&)(.'&'#& ¶ !.!"&", quantità che rappresenta l'intensità di errori per metro nella – – "Î# s Ð] produzione di stoffa. Inoltre, è immediato verificare che risulta Var ÎDÑ œ !.!!!*Þ Di – – "Î# – – s Ð] conseguenza il coefficiente di variazione stimato risulta Var ÎDÑ ÎÐ] ÎDÑ œ !.!&*', un valore piuttosto basso che suggerisce un certa precisione della stima. I dati della Tavola 3.4.2 sono infine rappresentati graficamente nella Figura 3.4.1 insieme con la retta della regressione di Poisson. 30 25 20 15 10 5 0 0 200 400 600 800 1000 Figura 3.4.1. Diagramma per punti e retta di regressione di Poisson per i dati della Tavola 3.4.2. 3.4.3. La stima di massima verosimiglianza e la regressione logistica. Supponiamo che il campione ÐC" ß á ß C8 Ñ sia la determinazione di un vettore di variabili casuali Ð]" ß á ß ]8 Ñ, le cui componenti sono indipendenti e tali che ]3 µ F3Ð"ß :3 Ñ. Inoltre, si pone Capitolo 3 63 expÐ+ ,D3 Ñ , " expÐ+ ,D3 Ñ :3 œ :3 Ð+ß ,Ñ œ dove ÐD" ß á ß D8 Ñ rappresenta un vettore di quantità note e fisse. Questo è in effetti un modello di regressione quando si ha una variabile di risposta dicotomica e le probabilità di successo vengono modellate secondo la precedente funzione, detta curva logistica (per ulteriori dettagli si veda Agresti, 1995). Il campione non è casuale, in quanto le ]3 , sebbene indipendenti, non sono ugualmente distribuite. Il modello statistico risultante dipende dal vettore di parametri ) œ Ð+ß ,ÑT con @ œ ‘# ed è dato da 08 À 08 ÐC" ß á ß C8 à +ß ,Ñ œ $ :3C3 Ð" :3 ÑC3 IÖ!ß"× ÐC3 ÑŸ . 8 Y+ß, œ 3œ" La classe di funzioni di probabilità definita dal precedente modello fa parte della famiglia ~ esponenziale una volta che si pone KÐC" ß á ß C8 Ñ œ Ð 83œ" C3 ß 83œ" D3 C3 ÑT , :Ð+ß ,Ñ œ Ð+ß ,ÑT e 8 (Ð+ß ,Ñ œ lnÐ" :3 Ñ , 3œ" mentre ;ÐC" ß á ß C8 Ñ œ $ IÖ!ß"× ÐC3 Ñ . 8 3œ" Dunque, la stima di massima verosimiglianza è data dalla soluzione dell'equazione vettoriale E– 8 8 ]3 ß 3œ" 3œ" 8 8 D3 ]3 — œ 8 8 C3 ß 3œ" 3œ" 8 8 D 3 C3 . D3 :3 , Dal momento che E– ]3 ß 3œ" 3œ" D3 ]3 — œ :3 ß 3œ" 3œ" allora la stima di massima verosimiglianza si ottiene dalla soluzione dell'equazione vettoriale 8 8 :3 ß 3œ" 8 D3 : 3 œ 3œ" 8 C3 ß 3œ" D 3 C3 , 3œ" che non ha soluzioni esplicite. Dunque, dato un certo campione si deve applicare la procedura di Newton-Raphson per ottenenere la stima di massima verosimiglianza. Al fine di implementare questa procedura, la log-verosimiglianza è data da 8 6Ð+ß ,Ñ œ ln - 8 Ð" C3 Ñ lnÐ" :3 Ñ , Ð+ß ,Ñ − ‘# , C3 ln :3 3œ" da cui, dal momento che si verifica 3œ" 64 Le stime di massima verosimiglianza ` :3 Ð+ß ,Ñ œ :3 Ð" :3 Ñ , `+ e ` :3 Ð+ß ,Ñ œ D3 :3 Ð" :3 Ñ , `, il vettore delle funzioni punteggio risulta s8 Ð+ß ,Ñ œ ` `+ ` `, Î Ð œÐ :3 Ñ Ó 3œ" 3œ" Ó, 8 8 Ï D3 C3 D3 :3 Ò 6Ð+ß ,Ñ 6Ð+ß ,Ñ 8 8 C3 3œ" mentre # sI8 Ð+ß ,Ñ œ ` `+# 6Ð+ß ,Ñ `# `+`, 6Ð+ß ,Ñ # ` `+`, 6Ð+ß ,Ñ `# `,# 6Ð+ß ,Ñ Î Ð œÐ Ï 3œ" 8 D3 :3 Ð" :3 Ñ Ñ Ó 3œ" Ó. 8 # D3 :3 Ð" :3 Ñ Ò 8 :3 Ð" :3 Ñ 3œ" 8 D3 :3 Ð" :3 Ñ 3œ" 3œ" Si considera ora un'applicazione con dati reali. I dati della Tavola 3.4.3 si riferiscono ai voli shuttle prima dell'incidente che ne sospese il programma. In particolare, è stata misurata la temperatura esterna (in J °) al momento del volo ed è stato riportato se vi è stato danneggiamento termico (C3 œ ") o meno (C3 œ !) nei pannelli di protezione. Tavola 3.4.3. Temperatura (in J °) e danneggiamento termico nei voli shuttle. shuttle " # $ % & ' ( ) * "! "" "# D3 '' (! '* ') '( (# ($ (! &( '$ (! () C3 ! " ! ! ! ! ! ! " " " ! shuttle "$ "% "& "' "( ") "* #! #" ## #$ D3 '( &$ '( (& (! )" (' (* (& (' &) C3 ! " ! ! ! ! ! ! " ! " Fonte: Dalal, Fowlkes e Hoadley (1989) Scegliendo come stima iniziale Ð+ s! ß s, ! Ñ œ Ð!ß !Ñ e un errore pari a % œ !.!!!!", il metodo di Newton-Raphson fornisce le iterazioni della Tavola 3.4.4. Tavola 3.4.4. Iterazioni per il metodo di Newton-Raphson. s, 4 4 =8" Ð+ =8# Ð+ 6Ð+ s+4 s4s, 4 Ñ s4 ßs, 4 Ñ s4 ßs, 4Ñ ! " # $ % & ' !.!!!!! *.'"*!& "$.'&&(% "%.*$)#* "&.!%##* "&.!%#*! "&.!%#*! !.!!!!! !."%*&# !.#""#& !.#$!'! !.#$#"& !.#$#"' !.#$#"' %.&!!!! !.()("% !."")() !.!!&#* !.!!!!# !.!!!!! !.!!!!! $&%.!!!!! '$.$$!$* "!.!!)"( !.%*$&# !.!!"*$ !.!!!!! !.!!!!! "&.*%#$) "!.&*#&# "!."(*$# "!."&((! "!."&('! "!."&('! "!."&('! Capitolo 3 65 La stima di massima verosimiglianza risulta Ð+ß s s,Ñ ¶ Ð"&.!%#*!ß !.#$#"'Ñ a meno di un errore pari a % œ !.!!!!". Inoltre, la matrice inversa dell'informazione osservata di Fisher risulta &%.%%%#( sI8 Ð+ß s s,Ñ" œ Œ !.(*'$* !.(*'$* !.!""(" . Infine, la curva logistica stimata è data da :ÐDÑ œ expÐ"&.!%#*! !.#$#"'DÑ . " expÐ"&.!%#*! !.#$#"'DÑ 1 0.8 0.6 0.4 0.2 0 50 55 60 65 70 75 80 85 Figura 3.4.2. Diagramma per punti e curva di regressione logistica stimata per i dati della Tavola 3.4.3. La curva logistica è decrescente, ovvero la probabilità di danneggiamento termico aumenta al diminuire della temperatura. I dati della Tavola 3.4.3 sono stati rappresentati graficamente nella Figura 3.4.# insieme con la curva di regressione logistica stimata. 3.4.4. La stima di massima verosimiglianza e la distribuzione ipergeometrica. Nell'ambito della statistica ambientale, si vuole stimare spesso la numerosità R di una fissa popolazione biologica. In questo caso si cattura un numero Q di animali che vengono “marcati” in modo opportuno. Successivamente, si ricatturano 8 animali nella popolazione e si determina fra di questi il numero B dei marcati. Questo è appunto il cosiddetto metodo di “cattura-ricattura”. Se la probabilità di essere catturati è la stessa per tutti gli animali della popolazione, non è difficile verificare che il campione consiste in una singola realizzazione B di una \ µ MÐ8ß Q ß R Ñ (con 8 e Q noti) e dunque il modello statistico risultante dipende dal parametro ) œ R con @ œ , dove YR œ 08 À 08 ÐBà R Ñ œ Q ‰ ˆ QB ‰ˆ R8B ˆ R8 ‰ IÖmaxÐ!ß8R Q ÑßáßminÐ8ßQ Ñ× ÐBÑ Ÿ . Di conseguenza, la verosimiglianza risulta PÐR Ñ œ - ÐR Q Ñx ÐR 8Ñx IÖmaxÐ!ß8R Q ÑßáßminÐ8ßQ Ñ× ÐBÑ . ÐR Q 8 BÑx R x Dal momento che PÐR Ñ ÐR Q ÑÐR 8Ñ œ , PÐR "Ñ ÐR Q 8 BÑR allora si ha PÐR ÑÎPÐR "Ñ " se R 8Q ÎB, ovvero la successione PÐR Ñ è crescente per s si R 8Q ÎB e decrescente successivamente. Dunque, la stima di massima verosimiglianza R 66 Le stime di massima verosimiglianza ottiene per uno dei due valori Ô8Q ÎBÕ o Ô8Q ÎBÕ " che massimizza PÐR Ñ, dove Ô † Õ indica la s Ñ è data da (vedi Seber, funzione troncamento. Si può dimostrare inoltre che una stima di VarÐR 1973) Ð8 "ÑÐQ "ÑÐQ BÑÐ8 BÑ ~ s VarÐR Ñœ , ÐB "Ñ# ÐB #Ñ che tuttavia non corrisponde alla stima di massima verosimiglianza. In un applicazione con dati reali Odum e Pontin (1961) hanno marcato '!! formiche di una colonia della specie Lasius Flavus con una sostanza radiottiva (T $# ) e ne hanno ricatturate %$( di cui ') sono risultate marcate. In questo caso, la stima di verosimiglianza è dunque data da ~ s "Î# s œ $#"$, mentre si ha Var R ÐR Ñ œ $#$.*('!. Capitolo 4 La verifica di ipotesi 4.1. Il test statistico 4.1.1. La definizione di test statistico. Sulla base del campione osservato ÐB" ß á ß B8 Ñ si è interessati a stabilire se il vero valore del parametro appartiene ad un certo sottoinsieme dello spazio parametrico. Dato un modello statistico Y) , se gli insiemi @! e @" costituiscono una partizione di @, la verifica statistica di ipotesi consiste in un procedimento decisionale di scelta fra l'ipotesi di base L! À ) − @! e l'ipotesi alternativa L" À ) − @" . L'insieme delle ipotesi ammissibili e la sua partizione in L! e L" è detto sistema di ipotesi. Se @! (alternativamente @" ) contiene un solo punto l'ipotesi L! (alternativamente L" ) è detta semplice. In caso contrario l'ipotesi è detta composta. Lo strumento statistico che sulla base del campione consente di concludere in favore dell'una o dell'altra ipotesi è il test statistico. Dato un modello statistico Y) e il sistema di ipotesi L! À ) − @! contro L" À ) − @" , si dice test una funzione HÀ V8 Ä ÖL! ß L" × . Il test è in effetti una regola decisionale che suddivide V8 negli insiemi complementari V! e V" , in modo tale che si accetta L! se ÐB" ß á ß B8 Ñ − V! , mentre si accetta L" se ÐB" ß á ß B8 Ñ − V" . L'insieme V" è anche detto regione critica del test. Usualmente il procedimento decisionale è basato sulla determinazione di una statistica piuttosto che sul campione osservato. Dunque, se X œ X Ð\" ß á ß \8 Ñ è una statistica con supporto g , si dice test basato su X la funzione HÀ g Ä ÖL! ß L" × , mentre X è detta statistica test. Il test basato su X è una regola decisionale che suddivide g negli insiemi complementari g! e g" , in modo tale che si accetta L! se per la realizzazione > œ X ÐB" ß á ß B8 Ñ di X si ha > − g! , mentre si accetta L" se > − g" . L'insieme g" è detto regione critica del test basato su X . L'insieme V" è indotto dall'insieme g" , essendo V" œ ÖÐB" ß á ß B8 ÑÀ > œ X ÐB" ß á ß B8 Ñ − g" × . Esempio 4.1.1. Dato un campione casuale da \ µ R Ð.ß "Ñ, si consideri il sistema di ipotesi L! À . œ .! contro L" À . Á .! , dove .! è una quantità nota. L'ipotesi L! è semplice, mentre – l'ipotesi L" è composta. Se si suppone che la statistica test sia \ , risulta g œ ‘. Una possibile scelta per g! potrebbe essere data da – ±B – .! ± +× , g! œ ÖBÀ – con + costante. Di conseguenza, la regione critica del test basato su \ risulta – ±B – .! ± +× . g" œ ÖBÀ Questa scelta di g" appare logica, in quanto più la realizzazione della media campionaria differisce dal valore ipotizzato .! per la media, più si è propensi ad accettare l'ipotesi alternativa. Resta aperto il problema della scelta della costante +. Il problema che verrà 68 La verifica d'ipotesi analizzato nelle sezioni successive è quello di determinare la statistica test che permette la partizione dello spazio campionario “ottima” secondo alcuni criteri. 4.1.2. La funzione potenza. Uno strumento per misurare la capacità discriminatoria del test basato su una statistica è dato dalla cosiddetta funzione potenza. Dato un modello statistico Y) e il sistema di ipotesi L! À ) − @! contro L" À ) − @" , la funzione potenza del test basato su X è data da TX Ð)Ñ œ Pr) ÐX − g" Ñ , dove Pr) è da intendersi nel senso che la probabilità è indotta dalla distribuzione specificata dal modello con il valore del parametro pari a ). Per ogni ) − @! la funzione potenza TX Ð) Ñ fornisce la probabilità di respingere L! quando questa è vera, ovvero la probabilità di commettere il cosiddetto errore di I specie. Analogamente, per ogni ) − @" la quantità " TX Ð)Ñ fornisce la probabilità di accettare L! quando è vera L" , ovvero la probabilità di commettere il cosiddetto errore di II specie. Per ogni ) − @" , la funzione potenza TX Ð)Ñ fornisce la probabilità di accettare L" quando questa è vera. Si dice che il test basato su X è al livello di significatività α se sup TX Ð)Ñ œ α . )−@! Il livello di significatività α rappresenta la massima probabilità di commettere un errore di I specie. Esempio 4.1.2. Dato un campione casuale da \ µ R Ð.ß "Ñ, si consideri il sistema di ipotesi L! À . Ÿ ! contro L" À . !. Entrambe le ipotesi sono composte. Se si suppone che la statistica – test sia \ , dato che g œ ‘, si può scegliere g! œ ∞ß D"α È8 e D"α g" œ – ß∞ È8 . Questa selezione di g" appare logica, in quanto più la realizzazione della media campionaria è elevata, più si è propensi ad accettare l'ipotesi alternativa. Dal momento che risulta – \ µ R Ð.ß "Î8Ñ per ogni . − ‘, allora la funzione potenza è data da D"α – T\– Ð.Ñ œ Pr. \ È8 – œ Pr. ÒÈ8Ð\ .Ñ D"α È8.Ó œ " FÐD"α È8.Ñ œ FÐÈ8. D"α Ñ , . − ‘ . Il grafico della precedente funzione potenza per 8 œ "! e α œ !.!& è riportato in Figura 4.1.1. Dal momento che T\– Ð.Ñ è crescente e che sup T \– Ð.Ñ œ T \– Ð!Ñ œ FÐ D"α Ñ œ " FÐD"α Ñ œ α , .Ÿ! – il test basato su \ è al livello di significatività α. Capitolo 4 69 1 0.8 0.6 0.4 0.2 0 − 0.25 0 0.25 0.5 0.75 1 1.25 1.5 Figura 4.1.1. Funzione potenza T\– Ð.Ñ per 8 œ "! e α œ !.!&. 4.1.3. Le proprietà del test statistico. Dalla discussione fatta nella precedente sezione risulta evidente che esiste la possibilità di commettere due tipi di errore decisionale, ovvero può accadere che la realizzazione della statistica test sia in g" quando il vero valore del parametro è in @! (errore di I specie) e che la realizzazione della statistica test sia in g! quando il vero valore del parametro è in @" (errore di II specie). Dal momento che non si può sperare di rendere contemporaneamente pari a zero questi tipi di errore, si deve stabilire un insieme di proprietà desiderabili per un test. Una prima proprietà opportuna per un test è quella della correttezza. Dato un modello statistico Y) e il sistema di ipotesi L! À ) − @! contro L" À ) − @" , un test basato su X al livello di significatività α con funzione potenza TX Ð)Ñ è detto corretto al livello di significatività α se TX Ð)Ñ α , a) − @" . La proprietà della correttezza permette di controllare l'errore di I specie e al tempo stesso assicura che la probabilità di accettare L" quando è vera risulta maggiore dell'errore di I specie. Una seconda proprietà riguarda il comportamento per grandi campioni del test. Se Y8ß) è un modello statistico per ogni 8, dato il sistema di ipotesi L! À ) − @! contro L" À ) − @" , si consideri il test al livello di significatività α basato sulla successione di statistiche ÖX8 ×. Il test è detto coerente se lim TX8 Ð)Ñ œ " , a) − @" . 8Ä∞ La proprietà della coerenza assicura che la probabilità di commettere un errore di II specie tende a ! quando si dispone di grandi campioni. Esempio 4.1.3. Dato un campione casuale da \ µ R Ð.ß "Ñ, si consideri il sistema di ipotesi – L! À . Ÿ ! contro L" À . ! (vedi Esempio 4.1.2). Il test basato su \ è corretto in quanto si ha T \– Ð.Ñ Ÿ α per ogni . Ÿ ! e T \– Ð.Ñ α per ogni . !. Dal momento che la successione di funzioni ÖFÐÈ8. D"α Ñ× converge uniformemente ad una funzione costante pari ad " per . !, allora lim TX8 Ð.Ñ œ " , a. ! , 8Ä∞ – ovvero il test basato sulla successione di statistiche Ö\ 8 × risulta coerente. 4.1.4. Il test di livello assegnato. Idealmente, si vorrebbe che TX Ð)Ñ fosse più alta possibile quando ) − @" e la più piccola possibile quando ) − @! . Come già evidenziato nella sezione precedente, questi requisiti sono conflittuali tra loro. Un possibile modo di procedere è quello di fissare il livello di significatività α e scegliere quel test che ha più alta potenza per ogni ) − @" . 70 La verifica d'ipotesi Dato un modello statistico Y) e il sistema di ipotesi L! À ) − @! contro L" À ) − @" , un test basato su X al livello di significatività α con funzione potenza TX Ð)Ñ è detto uniformemente più potente al livello di significatività α se TX Ð)Ñ TX ‡ Ð)Ñ , a) − @" , per ogni altro test basato su una qualsiasi statistica X ‡ al livello di significatività α. Sfortunatamente i test uniformente più potenti esistono solo in varie situazioni speciali. Per campioni finiti, è possibile costruire test uniformente più potenti quando entrambe le ipotesi sono semplici o quando la statistica test ha una particolare struttura. Sotto certe condizioni, in generale si può costruire test uniformente più potenti quando si dispone di grandi campioni. Questi argomenti saranno trattati in dettaglio nelle prossime sezioni. Con la precedente impostazione del problema l'ipotesi di base e l'ipotesi alternativa vengono trattate in modo non simmetrico. Questo è giustificato dal fatto che usualmente L! costituisce una affermazione in qualche modo privilegiata e quindi si preferisce controllare il livello di significatività del test (ovvero l'errore di I specie) che comporta l'erroneo rifiuto di questa ipotesi privilegiata. Anche se per sviluppare la teoria è necessario fissare il livello di significatività α, è bene sottolineare che quando si lavora operativamente non esiste nessuna regola ragionevole per stabilirne la scelta. Questa considerazione porta al concetto di livello di significatività osservato o valore-P. Dato un modello statistico Y) e il sistema di ipotesi L! À ) − @! contro L" À ) − @" , se la regione critica del test basato su X è data da g" œ Ö>À > -×, per un determinato valore campionario > œ X ÐB" ß á ß B8 Ñ si dice livello di significatività osservato la quantità α9== œ sup Pr) ÐX >Ñ , ) −@! mentre, se la regione critica è data da g" œ Ö>À > Ÿ -×, allora si dice livello di significatività osservato la quantità α9== œ sup Pr) ÐX Ÿ >Ñ . ) −@! Quando invece la statistica test X ha una distribuzione simmetrica, se la regione critica del test basato su X è data da g" œ Ö>À > Ÿ -" ß > -# ×, si dice livello di significatività osservato la quantità α9== œ # min sup Pr) ÐX Ÿ >Ñß sup Pr) ÐX >ÑŸ . ) −@! ) −@! Il livello di significatività osservato rappresenta la probabilità di ottenere, quando L! è vera, un valore campionario > di X estremo (nella appropriata direzione) almeno quanto quello osservato. Dunque, il livello di significatività osservato fornisce una misura su quanto l'ipotesi di base risulta compatibile con i dati campionari. Un livello di significatività osservato basso porta a ritenere poco compatibile con i dati campionari l'ipotesi di base, mentre con un livello di significatività osservato elevato è vera l'affermazione contraria. In una verifica di ipotesi si può semplicemente riportare il livello di significatività osservato, oppure si può arrivare ad una decisione sull'accettazione di L! fissando un livello di significatività α. Se il livello di significatività osservato è minore o uguale ad α, allora si respinge L! , altrimenti si accetta L! . Il livello di significatività osservato diventa in questo caso il più elevato livello di significatività per cui si accetta L! . In questo caso il livello di significatività osservato diventa non solo uno strumento per la decisione nella verifica di ipotesi, ma anche una misura quantitativa di questa decisione. Capitolo 4 71 4.2. Il test del rapporto delle verosimiglianze 4.2.1. Il Lemma di Neyman-Pearson. Dato un modello statistico Y) , si supponga che lo spazio parametrico sia composto da due soli punti, ovvero @ œ Ö)! ß )" ×. Si consideri il sistema di ipotesi L! À ) œ )! contro L" À ) œ )" , dove evidentemente entrambe le ipotesi sono semplici. Si desidera costruire il test corretto al livello di significatività α tale che sia il più potente. Al fine di verificare questo sistema di ipotesi, si dice test del rapporto delle verosimiglianze quel test basato sulla statistica test V (detta appunto rapporto delle verosimiglianze), la cui realizzazione campionaria è data da <œ PÐ)! à B" ß á ß B8 Ñ . PÐ)" à B" ß á ß B8 Ñ La statistica test V ha una interpretazione intuitiva, nel senso che se la realizzazione < œ VÐB" ß á ß B8 Ñ è tale che < ", allora il campione attibuisce maggiore verosimiglianza a )! piuttosto che a )" e quindi si è più propensi ad accettare L! . Alternativamente, se < ", allora il campione attibuisce maggiore verosimiglianza a )" piuttosto che a )! e quindi si è più propensi ad accettare L" . Di conseguenza, si può scegliere come regione critica g" œ Ö<À < Ÿ <α × , dove Pr)! ÐV Ÿ <α Ñ œ α . Ovviamente, g" è equivalente alla regione critica indotta da V sullo spazio campionario data da V" œ ÖÐB" ß á ß B8 ÑÀ < œ VÐB" ß á ß B8 Ñ Ÿ <α × . Se si è osservato il valore campionario <, il livello di significatività osservato del test è dato da α9== œ Pr)! ÐV Ÿ <Ñ . Supponiamo di considerare un test basato su una statistica X ‡ corretto al livello di significatività α e sia inoltre V"‡ la regione critica indotta da X ‡ sullo spazio campionario. Risulta α œ ( 08 ÐB" ß á ß B8 à )! Ñ . / œ ( 08 ÐB" ß á ß B8 à )! Ñ . / , V"‡ V" da cui ( V" V"‡ 08 ÐB" ß á ß B8 à )! Ñ . / œ ( V"‡ V" 08 ÐB" ß á ß B8 à )! Ñ . / , dal momento che l'integrale sull'insieme V" ∩ V"‡ è comune alle due regioni. Inoltre, se ÐB" ß á ß B8 Ñ − V" V"‡ e quindi ÐB" ß á ß B8 Ñ − V" , dalla definizione di V" risulta 08 ÐB" ß á ß B8 à )! Ñ Ÿ <α 08 ÐB" ß á ß B8 à )" Ñ . Alternativamente, se ÐB" ß á ß B8 Ñ − V"‡ V" e quindi ÐB" ß á ß B8 Ñ − V8 V" , si ha 08 ÐB" ß á ß B8 à )! Ñ <α 08 ÐB" ß á ß B8 à )" Ñ . Dunque, dalle precedenti relazioni si ottiene 72 La verifica d'ipotesi ( V" V"‡ <α 08 ÐB" ß á ß B8 à )" Ñ . / ( V" V"‡ œ( V"‡ V" ( V"‡ V" 08 ÐB" ß á ß B8 à )! Ñ . / 08 ÐB" ß á ß B8 à )! Ñ . / <α 08 ÐB" ß á ß B8 à )" Ñ . / , da cui ( V" V"‡ 08 ÐB" ß á ß B8 à )" Ñ . / ( V"‡ V" 08 ÐB" ß á ß B8 à )" Ñ . / . Sommando ad ambo i membri l'integrale sull'insieme V" ∩ V"‡ , si ha infine ( 08 ÐB" ß á ß B8 à )" Ñ . / ( 08 ÐB" ß á ß B8 à )" Ñ . / , V"‡ V" che è equivalente a TV Ð)" Ñ TX ‡ Ð)" Ñ. Si deve dunque concludere che il test del rapporto delle verosimiglianze è il più potente fra quelli corretti quando entrambe le ipotesi sono semplici. Questo risultato costituisce il cosiddetto Lemma di Neyman-Pearson. Esempio 4.2.1. Dato un campione casuale da \ µ R Ð.ß "Ñ, si supponga che lo spazio parametrico sia @ œ Ö.! ß ." × dove ." .! e si consideri il sistema di ipotesi L! À . œ .! contro L" À . œ ." . Tenendo presente l'Esempio 1.3.1, la determinazione campionaria del rapporto delle verosimiglianze è data da <œ – .! Ñ# Ó× - expÖ Ð8Î#ÑÒ=# ÐB – 8 Ð .# .# Ñ “ . œ exp’8Ð.! ." ÑB " – # # - expÖ Ð8Î#ÑÒ= ÐB ." Ñ Ó× # ! –, la regione critica V" indotta da V è la stessa Dal momento che < è una funzione biunivoca di B – indotta da \ e quindi i test basati sulle due statistiche sono equivalenti. Inoltre, dal momento – che se è vera L! si ha È8Ð\ .! Ñ µ R Ð!ß "Ñ, allora Dα – – Pr.! ÖÈ8Ð\ .! Ñ Ÿ Dα × œ Pr.! \ Ÿ .! È8 œα. Di conseguenza, la regione critica del test più potente corretto al livello di significatività α è data da g" œ – B – Ÿ . ! Dα BÀ . È8 Ÿ –, il livello di significatività osservato risulta Se si è osservato il valore campionario B – – – .! ÑÓ . α9== œ Pr.! Ð\ Ÿ BÑ œ FÒÈ8ÐB La precedente procedura può essere generalizzata per determinare test uniformente più potenti in sistemi di ipotesi più complessi quando il rapporto delle verosimiglianze ha una particolare struttura. Si consideri il sistema di ipotesi L! À ) œ )! contro L" À ) œ )" )! , dove la disugualianza è da intendersi in senso lessicografico. Questo tipo di ipotesi alternativa è detto direzionale. Supponiano inoltre che il rapporto delle verosimiglianze V sia una trasformata monotona crescente di una statistica X . I test basati su V e X sono equivalenti, dal momento che inducono la medesima regione critica Capitolo 4 73 V" œ ÖÐB" ß á ß B8 ÑÀ < œ VÐB" ß á ß B8 Ñ Ÿ <α × œ ÖÐB" ß á ß B8 ÑÀ > œ X ÐB" ß á ß B8 Ñ Ÿ >α × , dove Pr)! ÐX Ÿ >α Ñ œ α. Per un dato )" , il Lemma di Neyman-Pearson assicura che il test basato su X è il più potente. Dal momento che >α non dipende dal valore di )" in quanto > è una statistica, la precedente affermazione è valida per ogni ) specificato in L" , ovvero si è ottenuto il test uniformente più potente per questo sistema di ipotesi. In maniera analoga, nel caso che si consideri il sistema di ipotesi L! À ) œ )! contro L" À ) œ )" )! , se il rapporto delle verosimiglianze V è una trasformata monotona decrescente di una statistica X , allora il test basato su X è uniformente più potente. Si consideri infine il sistema di ipotesi L! À ) œ )! contro L" À ) Á )! . Questo tipo di ipotesi alternativa è detta bilaterale. Dalla precedente discussione risulta chiaro che per il sistema di ipotesi precedente non può esistere un test uniformente più potente, dal momento che il rapporto delle verosimiglianze non può essere contemporaneamente funzione monotona crescente e decrescente di una statistica X . Esempio 4.2.2. Dato un campione casuale da \ µ R Ð.ß "Ñ, si supponga che lo spazio parametrico sia @ œ Ð ∞ß .! Ó e si consideri il sistema di ipotesi L! À . œ .! contro L" À . .! . Dall'Esempio 4.2.1 è noto che il rapporto delle verosimiglianze è una trasformata – – monotona crescente di \ . Quindi il test basato su \ è quello uniformente più potente anche in questo sistema di ipotesi. La regione critica risulta identica a quella dell'Esempio 4.2.1. 4.2.2. Il test del rapporto delle verosimiglianze. In questa sezione si generalizza la formulazione del rapporto delle verosimiglianze al caso in cui una o entrambe le ipotesi siano composte. Dato un modello statistico Y) e il sistema di ipotesi L! À ) − @! contro L" À ) − @" , il test del rapporto delle verosimiglianze è basato sulla statistica test V la cui realizzazione campionaria è data da maxPÐ)à B" ß á ß B8 Ñ <œ ) −@! max PÐ)à B" ß á ß B8 Ñ . ) −@ Questa statistica test ha un'interpretazione intuitiva, nel senso che se si sta confrontando la “plausibilità” di un valore ) rispetto ad un altro sulla base di un campione ÐB" ß á ß B8 Ñ, siamo portati a scegliere quel valore che fornisce la verosimiglianza più alta. Estendendo la discussione fatta nella precedente sezione, se non esiste un valore ) che fornisce una verosimiglianza sensibilmente più alta in @ rispetto alla verosimiglianza massima in @! , siamo propensi ad accettare L! . Ovviamente, si ha ! Ÿ < Ÿ ". Se la realizzazione < è prossima ad " si è più propensi ad accettare L! , mentre se la realizzazione < è prossima ad ! si è più propensi ad accettare L" . Di conseguenza, si può scegliere come regione critica g" œ Ö<À < Ÿ <α ×, dove sup Pr) ÐV Ÿ <α Ñ œ α . ) −@! Se si è osservato il valore campionario <, il livello di significatività osservato del test è dato da α9== œ sup Pr) ÐV Ÿ <Ñ . ) −@! T T Se risulta ) œ Ð)ET ß )F Ñ dove )E è un vettore a Ð5 2Ñ componenti e )F è un vettore a 2 componenti, dato il sistema di ipotesi L! À )E œ )!E contro L" À )F Á )!F , la realizzazione campionaria della statistica test V è data da <œ P: Ð)!E à B" ß á ß B8 Ñ , PÐs ) à B" ß á ß B 8 Ñ 74 La verifica d'ipotesi che evidenzia la dipendenza di V dalla verosimiglianza profilo. Esempio 4.2.3. Dato un campione casuale da \ µ R Ð.ß "Ñ, si consideri il sistema di ipotesi L! À . œ .! contro L" À . Á .! . Tenendo presente l'Esempio 1.3.1 e l'Esempio 3.1.1, la determinazione campionaria del rapporto delle verosimiglianze è data da <œ – .! Ñ# Ó× - expÖ Ð8Î#ÑÒ=# ÐB 8 – œ exp’ ÐB .! Ñ # “ . # - expÐ 8= Î#Ñ # – .! Ñ# , la regione critica V" indotta da V è la Dal momento che < è una funzione biunivoca di ÐB – # stessa indotta da Ð\ .! Ñ e quindi i relativi test sono equivalenti. Inoltre, dal momento che se – – è vera L! si ha È8Ð\ .! Ñ µ R Ð!ß "Ñ, allora 8Ð\ .! Ñ# µ ;#" . Tenendo presente che < è – .! Ñ# e dunque si respinge L! per realizzazioni una funzione monotona decrescente di ÐB – # elevate di Ð\ .! Ñ , allora – Pr.! Ö8Ð\ .! Ñ# ;#"ß"α × œ α . Di conseguenza, la regione critica del test basato sul rapporto delle verosimiglianze è data da – 8ÐB – . ! Ñ # ;# g" œ ÖBÀ "ß"α × . Essendo D"αÎ# œ É;#"ß"α per la relazione fra la R Ð!ß "Ñ e la ;#" , la precedente regione critica può essere anche espressa in modo equivalente come g" œ – B – Ÿ .! D"αÎ# ß B – .! D"αÎ# . BÀ È8 È8 Ÿ – –, il Dal momento che la distribuzione di \ è simmetrica, se si è osservato il valore campionario B livello di significatività osservato risulta – – – – α9== œ # minÖPr.! Ð\ Ÿ BÑß Pr.! Ð\ BÑ× – – – œ # minÖFÒÈ8ÐB .! ÑÓß " FÒÈ8ÐB .! ÑÓ× œ # Ò" FÐÈ8 ± B .! ± ÑÓ . 4.2.3. La distribuzione per grandi campioni del rapporto delle verosimiglianze. Il test del rapporto delle verosimiglianze V8 ha proprietà ottime quando si dispone di grandi campioni. Per semplicità si analizza inizialmente il caso di un solo parametro. Dato un modello statistico Y) relativo ad un campionamento casuale, si consideri il sistema di ipotesi L! À ) œ )! contro L" À ) Á )! e si supponga che le condizioni a)-g) della §3.3.2 siano verificate. Se L! è vera, per un dato campione ÐB" ß á ß B8 Ñ − V8 , si consideri l'espansione in serie di Taylor di 8 ln 08 ÐB" ß á ß B8 à )Ñ œ ln 0 ÐB3 à )Ñ 3œ" in )! , ovvero ln 08 ÐB" ß á ß B8 à )! Ñ œ ln 08 ÐB" ß á ß B8 à s)8 Ñ ` ln 08 ÐB" ß á ß B8 à )Ѻ Ð)! s)8 Ñ `) ) œ) ‡ " `# ln 08 ÐB" ß á ß B8 à )Ѻ Ð)! s)8 Ñ# , # ` )# ‡ ) œ) Capitolo 4 75 s 8 ÐB" ß á ß B8 Ñ rappresenta la stima dell'equazione di verosimiglianza, mentre dove s)8 œ K ‡ ± )! ) ± ± )! s)8 ± . Dal momento che ` ln 08 ÐB" ß á ß B8 à )Ѻ ¶ =8 Ðs)8 à B" ß á ß B8 Ñ œ ! `) ‡ ) œ) per l'assunzione b), la precedente relazione può essere riscritta come # ln 08 ÐB" ß á ß B8 à )! Ñ " ` œ =8 ÐB" ß á ß B8 à )Ѻ ÒÈ8Ðs)8 )! ÑÓ# . s 8 ` ) 08 ÐB" ß á ß B8 à )8 Ñ ) œ) ‡ La quantità a primo membro è # ln <8 , dove <8 œ V8 ÐB" ß á ß B8 Ñ. Inoltre, in base ai risultati della §3.3.2, si ha " ` . s 8 )! ÑÓ# Ä =8 Ð\" ß á ß \8 à )Ѻ ÒÈ8ÐK ;"# , 8 `) ‡ ) œ) da cui segue che . # ln V8 Ä ;#" . Si è determinata la distribuzione per grandi campioni di una trasformata biunivoca del rapporto delle verosimiglianze quando L! è vera. Dal momento che la regione critica indotta da # ln V8 è identica a quella indotta da V8 , i relativi test sono equivalenti. Si può dimostrare che il test basato sulla successione di statistiche Ö # ln V8 × è coerente al livello di significatività α e che è uniformente più potente (in senso asintotico) per una vasta classe di test (Wilks, 1962). Dal momento che # ln < è una funzione monotona decrescente di <, si respinge L! per realizzazioni elevate di # ln V8 . Essendo lim Pr)! Ö # ln V8 ;#"ß"α × œ α , 8Ä∞ la regione critica per grandi campioni del test basato sul rapporto delle verosimiglianze è data da g8ß" œ Ö<À # ln < ;#"ß"α × . La regione critica per campioni finiti data da g" œ Ö<À < Ÿ <α ×, dove Pr)! ÐV Ÿ <α Ñ œ α, e la regione critica g8ß" in generale non coincidono (per un'eccezione si veda l'Esempio 4.2.2). In particolare, il livello reale di significatività del test α8 non coincide con il livello nominale di significatività α (ovvero quello prefissato). Dal momento che si vuole controllare al massimo l'errore di I specie, è opportuno che sia α8 Ÿ α e se il test soddisfa a questa condizione allora è detto conservatore. Infine, se si è osservato il valore campionario <, il livello di significatività osservato per grandi campioni del test è dato da α8ß9== œ PrÐ;#" # ln <Ñ , che ovviamente non coincide in generale con il livello di significatività osservato per campioni finiti α9== œ Pr)! ÐV Ÿ <Ñ. Per ottenere i risultati di questa sezione, è stato implicitamente dimostrato che . s 8 )! Ñ # Ä M8 Ð)! ÑÐK ;"# e che . s 8 ÑÐK s 8 )! Ñ # Ä sM 8 ÐK ;"# . 76 La verifica d'ipotesi Su queste due statistiche si possono dunque costruire test equivalenti al test del rapporto delle verosimiglianze per grandi campioni. Esempio 4.2.4. Dato un campione casuale da \ µ IÐ!ß 5Ñ, si consideri il sistema di ipotesi L! À 5 œ 5! contro L" À 5 Á 5! , dove 5! è una quantità nota. Tenendo presente l'Esempio 1.3.3 e l'Esempio 3.1.3, la determinazione campionaria del rapporto delle verosimiglianze è data da – 5! Ñ – – - expÐ 8 ln 5! 8BÎ B 8B <œ œ exp 8 ln 8• , ” Œ – 8Ñ - expÐ 8 ln B 5! 5! –. È evidentemente laborioso determinare la ovvero < è una funzione (non biunivoca) di B distribuzione per campioni finiti del rapporto delle verosimiglianze. Tuttavia, dal momento che le condizioni richieste in questa sezione sono soddisfatte, se L! è vera risulta – – \8 #8\ 8 . # ln V8 œ #8 lnŒ #8 Ä ;#" . 5! 5! Di conseguenza, la regione critica per grandi campioni del test basato sul rapporto delle verosimiglianze è data da – – – #8 lnŒ B #8B #8 ;# g8ß" œ œBÀ . "ß"α 5! 5! Infine, la significatività osservata per grandi campioni risulta – – B #8B α8ß9== œ Prœ;#" #8 lnŒ #8 5! 5! . Esempio 4.2.5. Dato un campione casuale da \ µ F3Ð"ß :Ñ, si consideri il sistema di ipotesi L! À : œ :! contro L" À : Á :! . Tenendo presente l'Esempio 1.3.5 e l'Esempio 3.1.8, la determinazione campionaria del rapporto delle verosimiglianze è data da – ln :! Ð8 8BÑ – lnÐ" :! ÑÓ - expÒ8B – lnŠ :! ‹ Ð8 8BÑ – lnŒ " :! • , <œ œ exp”8B – – – – – – - expÒ8B ln B Ð8 8BÑ lnÐ" BÑÓ B "B –. È evidentemente laborioso determinare la ovvero < è una funzione (non biunivoca) di B distribuzione per campioni finiti del rapporto delle verosimiglianze. Tuttavia, dal momento che le condizioni richieste in questa sezione sono soddisfatte, allora se L! è vera risulta :! – # ln V8 œ #8\ 8 lnŒ – \8 " :! – #Ð8 8\ 8 Ñ lnŒ – " \8 . Ä ;#" . Di conseguenza, la regione critica per grandi campioni del test basato sul rapporto delle verosimiglianze è data da – #8B – lnŠ :! ‹ #Ð8 8BÑ – lnŒ " :! g8ß" œ œBÀ – – B "B ;#"ß"α . Infine, la significatività osservata per grandi campioni risulta – lnŠ :! ‹ #Ð8 8BÑ – lnŒ " :! α8ß9== œ Prœ;#" #8B – – B "B . I precedenti risultati possono essere generalizzati al caso di un vettore di parametri. Se Y) è un modello statistico relativo ad un campionamento casuale, si consideri il sistema di ipotesi Capitolo 4 77 L! À ) œ )! contro L" À ) Á )! e supponiamo che le condizioni a)-g) della §3.3.2 siano verificate. Si può dimostrare che se L! è vera risulta (vedi Wilks, 1962) . # ln V8 Ä ;#5 . Dunque, la regione critica per grandi campioni del test basato sul rapporto delle verosimiglianze è data da g8ß" œ Ö<À # ln < ;#5ß"α × . Inoltre, per un dato valore campionario <, il livello di significatività osservato per grandi campioni risulta α8ß9== œ PrÐ;#5 # ln <Ñ . Anche nel caso di un vettore di parametri si può dimostrare che (vedi Wilks, 1962) . s 8 )! ÑT I8 Ð)! ÑÐK s 8 )! Ñ Ä ÐK ;#5 e che . s 8 )! ÑT sI8 ÐK s 8 ÑÐK s 8 )! Ñ Ä ÐK ;#5 . Su queste due statistiche si possono costruire test equivalenti a quello del rapporto delle verosimiglianze quando si dispone di grandi campioni. T T Si supponga infine che ) œ Ð)ET ß )F Ñ dove )E è un vettore a Ð5 2Ñ componenti e )F è un vettore a 2 componenti. Si consideri il sistema di ipotesi L! À )E œ )!E contro L" À )E Á )!E e supponiamo che le condizioni a)-g) della §3.3.2 siano verificate. Si può dimostrare che se L! è vera risulta (vedi Wilks, 1962) . # ln V8 Ä ;#52 , ovvero in questo caso i gradi di libertà della distribuzione di # ln V8 per grandi campioni diminuiscono del numero di componenti di ) da stimare sotto L! . Dunque, la regione critica per grandi campioni del test basato sul rapporto delle verosimiglianze è data da g8ß" œ Ö<À # ln < ;#52ß"α × . Per un dato valore campionario <, il livello di significatività osservato per grandi campioni risulta α8ß9== œ PrÐ;#52 # ln <Ñ . 4.3. Alcune applicazioni del test del rapporto delle verosimiglianze 4.3.1. Il test > di Student ad un campione (bilateraleÑ. Si consideri un campionamento casuale da \ µ R Ð.ß 8Ñ e si supponga di voler verificare il sistema di ipotesi L! À . œ .! contro L" À . Á .! . Si ha @ œ ÖÐ.ß 8ÑÀ Ð.ß 8Ñ − ‘ ‚ ‘ × e @! œ ÖÐ.ß 8ÑÀ . œ .! ß 8 − ‘ × . In base ai risultati dell'Esempio 3.1.2, si ottiene 78 La verifica d'ipotesi – =# Ñ . max 6Ð.ß 8Ñ œ 6ÐBß Ð.ß8Ñ−@ – .! Ñ# , si ha Inoltre, tenendo presente la disugualianza dell'Esempio 3.1.2 con . œ =# ÐB 8 8 # – .! Ñ# Ó Ÿ ln - 8 lnÒ=# ÐB – .! Ñ # Ó 8 6Ð.! ß 8Ñ œ ln - ln 8 Ò= ÐB # #8 # # # # – œ 6Ò.! ß = ÐB .! Ñ Ó œ 6: Ð.! Ñ œ max 6Ð.ß 8Ñ . Ð.ß8Ñ−@! La determinazione campionaria di V è data da – =# ÑÓ œ expš 8 lnÒ=# ÐB – .! Ñ# Ó 8 ln =# › < œ expÒ6: Ð.! Ñ 6ÐBß # # 8Î# # 8Î# # 8Î# – – ÐB .! Ñ 8ÐB .! Ñ ># œ ”" œ " œ " , • ” • Œ =# Ð8 "Ñ=#8" dove >œ – .! Ñ È8ÐB =- . Se L! è vera, > è la determinazione campionaria di una statistica X distribuita come una > di Student con Ð8 "Ñ gradi di libertà, dal momento che – – È8Ð\ È8Ð\ .! Ñ .! ÑÎÈ8 X œ œ ÈÒÐ8 "ÑW-# Î8ÓÎÐ8 "Ñ W- – e che inoltre le statistiche È8Ð\ .! ÑÎÈ8 µ R Ð!ß "Ñ e Ð8 "ÑW-# Î8 µ ;#8" sono indipendenti (vedi Esempio 1.2.5). Inoltre < è una funzione monotona decrescente di ± > ± e quindi i test costruiti su V e ± X ± sono equivalenti. Tenendo presente la relazione fra le statistiche X e ± X ± e dal momento che rifiutare L! per piccole determinazioni di V è equivalente a rifiutare L! per determinazioni elevate di ± X ± , la regione critica del test risulta g" œ Ö>À > Ÿ >8"ß"αÎ# ß > >8"ß"αÎ# × . Dal momento che la distribuzione di X è simmetrica, se si è osservato il valore campionario >, il livello di significatività osservato risulta infine α9== œ # PrÐ>8" ± > ± Ñ . Anche se in questo caso la distribuzione della statistica test è nota per campioni finiti, si noti tuttavia che per grandi campioni, quando L! è vera, la quantità # ln < œ 8 lnŒ" ># 8" , . è la determinazione di una statistica # ln V8 Ä ;#" , in quanto vi sono due parametri, di cui uno da stimare sotto ipotesi di base. Esempio 4.3.1. Gli antichi greci indicavano come rettangolo aureo un rettangolo con un rapporto fra i lati dato da 3 œ " ƒ ÐÈ& "ÑÎ# ¶ !.'"). Questo tipo di rettangolo era spesso adoperato nella loro architettura (per esempio nella struttura del Partenone). I dati della Tavola 4.3.1 riguardano il rapporto fra i lati di un campione casuale di #! rettangoli usati dai nativi americani Shoshoni per decorare le loro tende. Capitolo 4 79 Tavola 4.3.1. Rapporto dei lati dei rettangoli. rettangolo " # $ % & ' ( ) * "! B3 !.'*$ !.''# !.'*! !.'!' !.&(! !.(%* !.'(# !.'#) !.'!* !.)%% rettangolo "" "# "$ "% "& "' "( ") "* #! B3 !.'&% !.'"& !.'') !.'!" !.&(' !.'(! !.'!' !.'"" !.&&$ !.*$$ Fonte: Dubois (1970) Si vuole verificare se gli Shoshoni avessero conoscenza del rettangolo aureo, ovvero, supponendo valido il modello di questa sezione, si vuole verificare il sistema di ipotesi L! À . œ 3 contro L" À . Á 3. Dal momento che per questi dati è immediato verificare che – œ !.''!& e =- œ !.!*#&, allora si ha > œ #.!&#*. Di conseguenza, il livello di significatività B osservato risulta α9== œ # PrÐ>"* #.!&#*Ñ œ !.!&%" . Dato che la significatività osservata è piuttosto bassa, vi è una moderata indicazione a respingere l'ipotesi di base, ovvero sembra dubbio che gli Shoshoni avessero conoscenza del rettangolo aureo. Infatti, si può respingere L! ad ogni livello di significatività α !.!&%". Si noti che # ln < œ %.!!'' e dunque si ha α8ß9== œ PrÐ;#" %.!!''Ñ œ !.!%&$ , un risultato che conferma le conclusioni precedenti. 4.3.2. Il test > di Student ad un campione (direzionale). Si consideri ancora il modello della §4.3.1 e si supponga ora di voler verificare il sistema di ipotesi L! À . œ .! contro L" À . .! . Dunque, si ha @ œ ÖÐ.ß 8ÑÀ . Ÿ .! ß 8 − ‘ × e @! œ ÖÐ.ß 8ÑÀ . œ .! ß 8 − ‘ × . Per quanto riguarda la massimizzazione su @! nulla cambia rispetto alla §4.3.1. Inoltre, tenendo – .Ñ# , con un procedimento presente la disugualianza dell'Esempio 3.1.2 con . œ =# ÐB simile a quello dell'Esempio 3.1.1, si ha 8 8 # – .Ñ# Ó ln IÐ∞ß. Ó Ð.Ñ 6Ð.ß 8Ñ œ ln - ln 8 Ò= ÐB ! # #8 8 8 – .Ñ# Ó ln IÐ∞ß. Ó Ð.Ñ œ 6Ò.ß =# ÐB – .Ñ# Ó Ÿ Ÿ ln - lnÒ=# ÐB ! # # 8 8 – ln - 8 lnÒ=# ÐB – .! Ñ # Ó 8 › Ÿ maxšln - ln =# ln IÐ∞ß.! Ó ÐBÑß # # # # – =# Ñ ln IÐ∞ß. Ó ÐBÑß – 6Ò.! ß =# ÐB – .! Ñ# Ó× œ max 6Ð.ß 8Ñ . œ maxÖ6ÐBß ! Ð.ß8Ñ−@ Di conseguenza la determinazione campionaria di V è data da 80 La verifica d'ipotesi – expÒ6: Ð.! Ñ 6ÐBß – =# ÑÓ IÐ. ß∞Ñ ÐBÑ – < œ IÐ∞ß.! Ó ÐBÑ ! œ IÐ∞ß!Ó Ð>ÑŒ" dove >œ ># 8" 8Î# IÐ!ß∞Ñ Ð>Ñ , – .! Ñ È8ÐB =- . Per i motivi esposti nella sezione precedente, quando L! è vera, > è la determinazione campionaria di una statistica X distribuita come una >8" . Dal momento che < è una funzione monotona crescente di >, allora i test costruiti su V e X sono equivalenti. Inoltre, rifiutare L! per piccole determinazioni di V è equivalente a rifiutare L! per piccole determinazioni di X , e dunque la regione critica del test è data da g" œ Ö>À > Ÿ >8"ßα × . Infine, per un dato valore campionario >, il livello di significatività osservato risulta α9== œ PrÐ>8" Ÿ >Ñ . È immediato estendere questi risultati al sistema di ipotesi L! À . œ .! contro L" À . .! . In questo caso la regione critica del test è data da g" œ Ö>À > >8"ß"α × , mentre il livello di significatività osservato risulta α9== œ PrÐ>8" >Ñ . Infine, la statistica # ln V8 non converge ad una Chi-quadrato, in quanto l'ipotesi di base non è del tipo specificato nella §4.2.3. Esempio 4.3.2. Su un campione casuale di 20 soggetti in sovrappeso (con un peso corporeo superiore a 100 chilogrammi) è stato misurato il livello di colesterolo ottenendo i dati della Tavola 4.3.2. Tavola 4.3.2. Livello di colesterolo (in mg per 100 ml). soggetto " # $ % & ' ( ) * "! B3 $%% ")& #'$ #%' ##% #"# ")) #&! "%) "'* soggetto "" "# "$ "% "& "' "( ") "* #! B3 ##' "(& #%# #&# "&$ ")$ "$( #!# "*% #"$ Fonte: Selvin (1991) Da numerose esperienze cliniche risulta che il livello di colesterolo nel sangue di una persona sana è di circa 190 mg per 100 ml. Si sospetta che i soggetti in forte sovrappeso abbiano un livello del colesterolo più alto della norma e dunque si vuole verificare il sistema di ipotesi – œ #"!.$ e L! À . œ 19! contro L" À . 19!. Dal momento che per questi dati si ottiene B =- œ %).$$**, allora si ha > œ ".)()!. Di conseguenza, il livello di significatività osservato è dato da Capitolo 4 81 α9== œ PrÐ>"* ".)()!Ñ œ !.!$(* . Dal momento che la significatività osservata è bassa, si è propensi ad affermare che i soggetti in sovrappeso abbiano un livello del colesterolo più alto della norma, in quanto si può respingere L! ad ogni livello di significatività α !.!$(*. 4.3.3. Il test Chi-quadrato per la verifica di ipotesi sulla varianza. Si consideri un campionamento casuale da \ µ R Ð.ß 8Ñ e si supponga di voler verificare il sistema di ipotesi L! À 8 œ 8! contro L" À 8 Á 8! . Anche se questa verifica di ipotesi non si adopera usualmente nella pratica, sarà utilizzata nel prossimo capitolo per ulteriori sviluppi teorici. Si ha @ œ ÖÐ.ß 8ÑÀ Ð.ß 8Ñ − ‘ ‚ ‘ × e @! œ ÖÐ.ß 8ÑÀ 8 œ 8! ß . − ‘× . In base ai risultati dell'Esempio 3.1.2, risulta – =# Ñ . max 6Ð.ß 8Ñ œ 6ÐBß Ð.ß8Ñ−@ Inoltre, si ha 8 ln 8! # 8 Ÿ ln - ln 8! # 6Ð.ß 8! Ñ œ ln - 8 – .Ñ# Ó Ò=# ÐB #8! 8=# – 8! Ñ œ 6: Ð8! Ñ œ max 6Ð.ß 8Ñ . œ 6ÐBß #8! Ð.ß8Ñ−@! Di conseguenza, la determinazione campionaria di V è data da – =# ÑÓ œ exp” 8 lnŒ = < œ expÒ6: Ð8! Ñ 6ÐBß # 8! # œ” =# =# expŒ " • 8! 8! 8Î# œ’ 8=# 8 • #8! # 8Î# ? ? expŠ "‹“ , 8 8 dove ?œ 8=# . 8! Quando L! è vera, ? è la determinazione campionaria di una statistica Y distribuita come una Chi-quadrato con Ð8 "Ñ gradi di libertà (vedi Esempio 1.2.5). In questo caso, < non è una funzione biunivoca di ? e quindi i test costruiti su V e Y non sono equivalenti. Tuttavia, dal momento che < œ <Ð?Ñ è una funzione prima crescente e successivamente decrescente, allora la regione critica del test è del tipo g" œ Ö?À ? Ÿ -" ß ? -# ×, dove -" e -# vanno scelti in modo tale che <Ð-" Ñ œ <Ð-# Ñ e PrÐ-" ;#8" -# Ñ œ " α. Questa procedura risulta complessa e usualmente si adotta come regione critica # g" œ Ö?À ? Ÿ ;#8"ßαÎ# ß ? ;8"ß" αÎ# × . Dato che la distribuzione di Y non è simmetrica, il livello di significatività osservato non è definito. Tuttavia, dato che per 8 elevato la distribuzione di Y è approssimativamente simmetrica, se si è osservato il valore campionario ?, usualmente si pone 82 La verifica d'ipotesi # α9== œ # minÖPrÐ;#8" Ÿ ?Ñß PrÐ;8" ?Ñ× . Infine, per grandi campioni la quantità ? # ln < œ 8 lnŠ ‹ ? 8 8 . è la determinazione di una statistica # ln V8 Ä ;#" , in quanto vi sono due parametri, di cui uno da stimare sotto ipotesi di base. 4.3.4. Il test > di Student a due campioni. Si consideri due campioni casuali indipendenti ÐB"" ß á ß B"8" Ñ e ÐB#" ß á ß B#8# Ñ rispettivamente da \" µ R Ð." ß 8Ñ e \# µ R Ð.# ß 8Ñ, ovvero da due variabili casuali Normali indipendenti con differenti medie e uguale varianza. Quando si assume l'omogeneità delle varianze come in questo caso, le variabili casuali sono dette omoschedastiche. Sia inoltre 8 œ 8" 8# la numerosità campionaria globale. Il modello statistico è dato da 08 À 08 ÐB"" ß á ß B"8" ß B#" ß á ß B#8# à ." ß .# ß 8Ñ œ $$ # Y." ß.# ß8 œ 84 4œ" 3œ" B43 .4 " 9 Ÿ È8 È8 dove Ð." ß .# ß 8Ñ − ‘# ‚ ‘ . Si vuole verificare il sistema di ipotesi L! À ." œ .# œ . contro L" À ." Á .# . Dunque, si ha @ œ ÖÐ." ß .# ß 8ÑÀ Ð." ß .# ß 8Ñ − ‘# ‚ ‘ × e @! œ ÖÐ." ß .# ß 8ÑÀ ." œ .# ß 8 − ‘ × . –4 e =# rappresentano rispettivamente le realizzazioni campionarie della media campionaria Se B 4 – \ 4 e della varianza campionaria W4# per il j-esimo campione, allora estendendo i risultati dell'Esempio 1.3.1 la funzione di log-verosimiglianza è data da # 6Ð." ß .# ß 8Ñ œ ln - 4œ" š 84 84 # – 4 .4 Ñ # Ó › ln 8 Ò= ÐB # #8 4 8 8=# " œ ln - ln 8 A # #8 #8 # – 4 .4 Ñ # , 84 ÐB 4œ" dove =#A œ " 8 # 84 =4# . 4œ" In maniera analoga all'Esempio 3.1.2, adoperando la disugualianza del medesimo esempio con . œ =#A , si ha 8 8=# –" ß B –# ß 8Ñ ln 8 A œ 6ÐB # #8 8 8 –" ß B –# ß =# Ñ œ max 6Ð." ß .# ß 8Ñ . Ÿ ln - ln =#A œ 6ÐB A # # Ð." ß.# ß8Ñ−@ 6Ð." ß .# ß 8Ñ Ÿ ln - Inoltre, tenendo presente che se L! è vera si dispone in effetti di un unico campione da R Ð.ß 8Ñ, si ottiene Capitolo 4 83 – Bß – =# Ñ œ 6Ð.ß .ß 8Ñ Ÿ 6ÐBß max Ð." ß.# ß8Ñ−@! 6Ð." ß .# ß 8Ñ , dove –œ " B 8 # –4 84 B 4œ" e " = œ 8 84 # – #. ÐB43 BÑ # 4œ" 3œ" Inoltre risulta =# œ " 8 # 84 –4 Ñ ÐB –4 BÑÓ – #œ ÒÐB43 B 4œ" 3œ" dove si è tenuto presente che 84 3œ" ÐB43 " 8 # 84 =#4 4œ" " 8 # –4 BÑ – # œ =# =# , 84 ÐB A , 4œ" –4 Ñ œ ! e dove si è posto B =#, œ " 8 # –4 BÑ – #. 84 ÐB 4œ" La precedente relazione evidenzia la classica scomposizione della varianza totale =# nella varianza all'interno dei gruppi =#A e nella varianza fra i gruppi =#, (vedi Fattorini, 1997). È facile inoltre verificare che 8" 8 # – – " Ñ# . =#, œ ÐB# B 8# Dunque, risulta # # – Bß – =# Ñ œ ln - 8 ln =# 8=A 8=, œ ln - 8 ln =# 8 . 6ÐBß # #=# #=# # # Di conseguenza, la determinazione campionaria di V è data da – Bß – =# Ñ 6ÐB –" ß B –# ß =# ÑÓ œ expŠ 8 ln =# 8 ln =# ‹ < œ expÒ6ÐBß A A # # 8Î# 8Î# =#, ># œ Œ" # œ Œ" , =A 8# dove > œ È8 # =, . =A Le quantità =#, e =#A sono le determinazioni campionarie di due statistiche W,# e WA# indipendenti. Questo risultato è una generalizzazione dell'Esempio 1.2.5, in quanto le statistiche W,# e WA# sono trasformate rispettivamente delle medie e delle varianze campionarie di campioni indipendenti. Inoltre, dal momento che 8WA# œ 8 # 4œ" 84 W4# , 8 84 La verifica d'ipotesi dove le statistiche 84 W4# Î8 µ ;#84 " sono indipendenti in quanto i campioni sono indipendenti , per la proprietà i) della §A.3.2, si ha 8WA# Î8 µ ;#8# . Dal momento che risulta 8W,# 8W # 8WA# œ 8 8 8 e che 8W # Î8 µ ;#8" , ancora per la proprietà i) della §A.3.2 si deve necessariamente concludere che 8W,# Î8 µ ;#" . Dunque, se L! è vera, > è la determinazione campionaria della statistica – – 8W,# Î8 W, 8" 8# Ð8 #Ñ \ # \ " È X œ 8# œË œÊ , WA Ð8WA# Î8ÑÎÐ8 #Ñ 8# WA distribuita come una > di Student con Ð8 #Ñ gradi di libertà. Inoltre < è una funzione monotona decrescente di ± > ± e quindi i test costruiti su V e ± X ± sono equivalenti. Tenendo presente la relazione fra le statistiche X e ± X ± , dal momento che rifiutare L! per piccole determinazioni di V è equivalente a rifiutare per quelle elevate di ± X ± , la regione critica del test è data da g" œ Ö>À > Ÿ >8#ß"αÎ# ß > >8#ß"αÎ# × . Dato che la distribuzione di X è simmetrica, se si è osservato il valore campionario >, il livello di significatività osservato risulta infine α9== œ # PrÐ>8# ± > ± Ñ . Anche se in questo caso la distribuzione della statistica test è nota per campioni finiti, si noti tuttavia che per grandi campioni la quantità # ln < œ 8 lnŒ" ># 8# . è la determinazione di una statistica # ln V8 Ä ;#" , in quanto vi sono tre parametri, di cui due da stimare sotto ipotesi di base. Esempio 4.3.3. In un esperimento è stata misurata la secrezione di tromboglobulina urinaria in 12 pazienti sani e in 12 pazienti diabetici. I dati relativi all'esperimento clinico sono riportati nella Tavola 4.3.3. Tavola 4.3.3. Secrezione di tromboglobulina. paziente sano " # $ % & ' ( ) * "! "" "# B"3 % ." ' .$ ( .) ) .& ) .* "!.% "".& "#.! "$.) "(.' #%.$ $(.# paziente malato " # $ % & ' ( ) * "! "" "# B#3 "".& "#." "'." "(.) #%.! #).) $$.* %!.( &".$ & ' .# '".( '*.# Fonte: van Oost, Veldhayzen, Timmermans e Sixma (1983) Si sospetta che i pazienti diabetici abbiano una secrezione di tromboglobulina differente dai pazienti sani, ovvero si vuole verificare il sistema di ipotesi L! À ." œ .# œ . contro –" œ "$.&$$$, B –# œ $&.#(&!, =# œ ((.%*$* e =# œ $('.'$$&, L" À ." Á .# . Dal momento che B " # Capitolo 4 85 allora =A œ ##(.!'$(, da cui > œ $.$)$). Di conseguenza, il livello di significatività osservato risulta α9== œ # PrÐ>## $.$)$)Ñ œ !.!!#( . Dato che la significatività osservata è molto bassa, vi è una forte indicazione a concludere che i pazienti diabetici abbiano una secrezione di tromboglobulina differente dai pazienti sani. Infatti, si può respingere L! ad ogni livello di significatività α !.!!#(. Risulta # ln < œ "!.!&'" e dunque si ha α8ß9== œ PrÐ;#" "!.!&'"Ñ œ !.!!"& , un risultato che conferma le conclusioni precedenti. 4.3.5. Il test J di Snedecor per l'omogeneità delle varianze. Si supponga di considerare due campioni casuali indipendenti ÐB"" ß á ß B"8" Ñ e ÐB#" ß á ß B#8# Ñ rispettivamente da \" µ R Ð." ß 8" Ñ e \# µ R Ð.# ß 8# Ñ, ovvero da due variabili casuali Normali indipendenti con differenti medie e varianze. Se inoltre 8 œ 8" 8# è la numerosità campionaria globale, il modello statistico è dato da 08 À 08 ÐB"" ß á ß B"8" ß B#" ß á ß B#8# Ñ œ $$ # Y." ß.# ß8" ß8# œ 84 4œ" 3œ" B43 .4 " 9 Ÿ È84 È84 dove Ð." ß .# ß 8" ß 8# Ñ − ‘# ‚ ‘ ‚ ‘ e dove per semplicità di notazione si è eliminato la dipendenza di 08 dai parametri. Si vuole verificare il sistema di ipotesi L! À 8" œ 8# œ 8 contro L" À 8" Á 8# . Dunque, si ha @ œ ÖÐ." ß .# ß 8" ß 8# ÑÀ Ð." ß .# ß 8" ß 8# Ñ − ‘# ‚ ‘ ‚ ‘ × e @! œ ÖÐ." ß .# ß 8" ß 8# ÑÀ 8" œ 8# ß ." − ‘ß .# − ‘× . –4 e =# rappresentano rispettivamente le realizzazioni campionarie della media campionaria Se B 4 – \ 4 e della varianza campionaria W4# per il j-esimo campione, la funzione di log-verosimiglianza è data da # 6Ð." ß .# ß 8" ß 8# Ñ œ ln - 4œ" œ 84 84 # – 4 .4 Ñ # Ó ln 84 Ò= ÐB # #84 4 . In maniera analoga all'Esempio 3.1.2, adoperando la disugualianza del medesimo esempio rispettivamente con . œ =#" e . œ =## , si ha # 6Ð." ß .# ß 8" ß 8# Ñ Ÿ ln - 4œ" # Ÿ ln - 4œ" š 84 =4# 84 –" ß B – # ß 8 " ß 8# Ñ ln 84 œ 6ÐB # #84 Ÿ 84 84 ln =#4 › # # –" ß B – # ß =# ß =# Ñ œ œ 6ÐB " # max 6Ð." ß .# ß 8" ß 8# Ñ . Ð." ß.# ß8" ß8# Ñ−@ Inoltre, tenendo presente la definizione di =#A data nella §4.3.4, si ha 86 La verifica d'ipotesi 8 8=# –" ß B –# ß 8ß 8Ñ ln 8 A œ 6ÐB # #8 8 8 –" ß B – # ß =# ß =# Ñ œ Ÿ ln - ln =#A œ 6ÐB max 6Ð." ß .# ß 8" ß 8# Ñ . A A # # Ð." ß.# ß8" ß8# Ñ−@! 6Ð." ß .# ß 8ß 8Ñ Ÿ ln - Di conseguenza, la determinazione campionaria di V è data da –" ß B –# ß =# ß =# Ñ 6ÐB –" ß B –# ß =# ß =# ÑÓ œ exp 8 ln =# < œ expÒ6ÐB A A " # A # œ exp– # 4œ" # 84 # # Ðln =A ln =4 Ñ— œ $ # 4œ" 8" 8" Î# 8# 8# Î# 8# " œŠ ‹ Š ‹ ”" • 8 8 Ð8" "Ñ0 # 4œ" 84 ln =4# # 84 Î# =#A =#4 8" Î# Ð8" "Ñ0 "• ” 8# " 8# Î# , dove =#-" . =#-# 0œ # Dal momento che le statistiche Ð84 "ÑW-4 Î8 µ ;#84 " sono indipendenti in quanto i campioni sono indipendenti, se L! è vera, 0 è una determinazione della statistica J œ # # W-" ÒÐ8" "ÑW-" Î8ÓÎÐ8" "Ñ œ , # # W-# ÒÐ8# "ÑW-# Î8ÓÎÐ8# "Ñ distribuita come una J di Snedecor con Ð8" "Ñ e Ð8# "Ñ gradi di libertà. In questo caso, < non è una funzione biunivoca di 0 e quindi i test costruiti su V e J non sono equivalenti. Tuttavia, notando che < œ <Ð0 Ñ è una funzione prima crescente e successivamente decrescente, allora la regione critica del test è del tipo g" œ Ö0 À 0 Ÿ -" ß 0 -# ×, dove -" e -# vanno scelti in modo tale che <Ð-" Ñ œ <Ð-# Ñ e PrÐ-" J8" "ß8# " -# Ñ œ " α. Questa procedura risulta piuttosto complessa e quindi usualmente si adotta come regione critica g" œ Ö0 À 0 Ÿ J8" "ß8# "ßαÎ# ß 0 J8" "ß8# "ß"αÎ# × . Dato che la distribuzione di J non è simmetrica, il livello di significatività osservato non è definito. Tuttavia, dato che per 8" e 8# elevati la distribuzione di J è approssimativamente simmetrica, se si è osservato il valore campionario 0 , usualmente si pone α9== œ # minÖPrÐJ8" "ß8# " Ÿ 0 Ñß PrÐJ8" "ß8# " 0 Ñ× . Per grandi campioni la quantità # # ln < œ 84 ln 4œ" . =#A =#4 è la determinazione di una statistica # ln V8 Ä ;#" , in quanto vi sono quattro parametri, di cui tre da stimare sotto ipotesi di base. Quando non si è sicuri che l'ipotesi di omoschedasticità nella §4.3.4 risulti valida, si dovrebbe eseguire in maniera preliminare il test analizzato in questa sezione e successivamente, se l'ipotesi di base è accettata, si dovrebbe procedere con la verifica di ipotesi sulle medie. Tuttavia, se i due test sono effettuati rispettivamente ai livelli di significatività α" e α# , allora l'ipotesi di ugualianza delle medie verrà accettata al livello Ð" α" ÑÐ" α# Ñ, dal momento che si può dimostrare che le due statistiche test sono indipendenti. Dunque, in effetti il livello di Capitolo 4 87 significatività complessivo sarà dato da α œ α" α# α" α# . Questa serie di test successivi è detta test in cascata. In generale le statistiche test di un test in cascata non sono indipendenti e quindi diventa estremamente complesso calcolare il livello di significatività globale. Esempio 4.3.4. Una fabbrica produce un tipo specifico di sfere di acciaio del diametro di 1 micron. Alla fine di una giornata di produzione sono stati estratti due campioni casuali di 10 sfere fra quelle prodotte da due macchinari ed è stato misurato il loro diametro, ottenendo i dati della Tavola 4.3.4. Tavola 4.3.4. Diametro delle sfere (in micron). sfera mac. 1 " # $ % & ' ( ) * "! B"3 ".") ".%# !.'* !.)) ".'# ".!* ".&$ ".!# "."* ".$# sfera mac. 2 " # $ % & ' ( ) * "! B#3 ".(# ".'# ".'* !.(* ".(* !.(( ".%% ".#* ".*' !.** Fonte: Romano (1977) Si vuole controllare se la produzione è sotto controllo, ovvero se i due macchinari producono sfere con la medesima precisione, e dunque si vuole verificare il sistema di ipotesi L! À 8" œ 8# œ 8 contro L" À 8" Á 8# . Dal momento che per questi dati è immediato verificare –" œ "."*%!, B –# œ ".%!'!, =# œ !.!(&&, =# œ !."'&", allora si ha 0 œ !.%&(%. Di che B -" -# conseguenza, il livello di significatività osservato risulta α9== œ # PrÐJ*ß* !.%&(%Ñ œ !.#&*# . Dato che la significatività osservata è abbastanza alta, si può concludere che i due macchinari producono sfere con la medesima precisione. Infatti, si può accettare L! ad ogni livello di significatività α !.#&*#. Dal momento che # ln < œ ".%*"), si ha α8ß9== œ PrÐ;#" ".%*")Ñ œ !.##"* , un risultato che conferma le conclusioni precedenti. Supponiamo di voler verificare inoltre il sistema di ipotesi L! À ." œ .# œ . contro L" À ." Á .# . Dal momento che si ha =A œ !."#!$, allora > œ ".#*'&. Il livello di significatività osservato risulta α9== œ # PrÐ>") ".#*'&Ñ œ !.#""# . Dato che la significatività osservata è abbastanza alta, si può concludere che i due macchinari producono sfere con il medesimo diametro. I due test sono in cascata e si può scegliere i livelli di significatività pari a α" œ α# œ " È" !.!& ¶ !.!#&$ per accettare l'ipotesi di base ad un livello di significatività globale pari a α œ !.!&. 4.3.6. Il test > di Student per dati appaiati. Si supponga di considerare due campioni casuali dipendenti ÐB"" ß á ß B"8 Ñ e ÐB#" ß á ß B#8 Ñ, relativi ad un gruppo di 8 soggetti su cui è stata osservata una certa variabile casuale prima e dopo un trattamento. In questo caso l'obiettivo è quello di valutare l'efficacia del trattamento. I dati di questo tipo sono detti dati appaiati. Al fine di analizzare queste osservazioni si costruisce il nuovo campione casuale Ð." ß á ß .8 Ñ, dove .3 œ B#3 B"3 . Supponendo che questo ultimo campione casuale provenga da H µ R Ð.ß 8Ñ, la 88 La verifica d'ipotesi verifica dell'efficacia del trattamento si riduce a considerare il sistema di ipotesi L! À . œ ! contro L" À . Á ! (o eventualmente l'opportuno sistema di ipotesi direzionale). In questo caso, è sufficiente applicare le procedure di verifica di ipotesi basate sul test > di Student discusse nelle §4.3.1 e §4.3.2. Esempio 4.3.5. Su 8 pazienti con anemia cronica grave è stato misurato l'indice di infarto prima e dopo un trattamento medico e i relativi dati sono stati riportati nella Tavola 4.3.5. Tavola 4.3.5. Indice di infarto dei pazienti con anemia (in ml/battito/m# ). paziente prima " "!* # &( $ &$ % &( & ') ' (# ( &" ) '& dopo &' %% && %! '# %' %* %" .3 &$ "$ # "( ' #' # #% Fonte: Bhatia, Manchanda e Roy (1969) Per vedere se il trattamento è stato effettivo e quindi per determinare se l'indice di infarto è diminuito, si vuole verificare dunque il sistema di ipotesi L! À . œ ! contro L" À . !. Dal – momento che si ha . œ "(.$(&! e =- œ "'.$)%&, allora > œ #.)!&&. Dunque, il livello di significatività osservato risulta α9== œ PrÐ>( Ÿ #.)!&&Ñ œ !.!"$# . Dato che la significatività osservata è piuttosto bassa, si deve concludere che il trattamento è stato effettivo, dal momento che si può respingere L! ad ogni livello di significatività α !.!"$#. 4.3.7. L'analisi della varianza ad un criterio. Si supponga di considerare 7 campioni casuali indipendenti ÐB4" ß á ß B484 Ñ rispettivamente dalle variabili casuali \4 µ R Ð.4 ß 8Ñ, ovvero da 7 variabili casuali Normali indipendenti con differenti medie e uguale varianza. Sia inoltre 8œ 7 4œ" 84 la numerosità campionaria globale. In questo caso, il modello statistico è dato da 08 À 08 ÐB"" ß á ß B"8" ß á ß B7" ß á ß B787 Ñ œ $$ 7 84 Y." ßáß.7 ß8 œ 4œ" 3œ" B43 .4 " 9 Ÿ È8 È8 dove Ð." ß á ß .7 ß 8Ñ − ‘7 ‚ ‘ e dove per semplicità di notazione si è eliminato la dipendenza di 08 dai parametri. Si vuole verificare il sistema di ipotesi L! À ." œ á œ .7 œ . contro L" À .4 Á .6 , b4 Á 6 œ "ß á ß 7. Dunque, si ha @ œ ÖÐ." ß á ß .7 ß 8ÑÀ Ð." ß á ß .7 ß 8Ñ − ‘7 ‚ ‘ × , mentre @! œ ÖÐ." ß á ß .7 ß 8ÑÀ ." œ á œ .7 ß 8 − ‘ × . –4 e =# rappresentano rispettivamente le realizzazioni campionarie della media campionaria Se B 4 – \ 4 e della varianza campionaria W4# per il j-esimo campione, allora estendendo i risultati della §4.3.4 la funzione di log-verosimiglianza è data da Capitolo 4 89 7 6Ð." ß á ß .7 ß 8Ñ œ ln - 4œ" š 84 84 # – 4 .4 Ñ # Ó › ln 8 Ò= ÐB # #8 4 8 8=# " œ ln - ln 8 A # #8 #8 7 – 4 .4 Ñ # , 84 ÐB 4œ" dove =#A " œ 8 7 84 =4# . 4œ" In maniera analoga alla §4.3.4, si ha 8 8=#A –" ß á ß B –7 ß 8Ñ 6Ð." ß á ß .7 ß 8Ñ Ÿ ln - ln 8 œ 6ÐB # #8 8 8 –" ß á ß B – 7 ß =# Ñ Ÿ ln - ln =#A œ 6ÐB A # # œ max 6Ð." ß á ß .7 ß 8Ñ . Ð." ßáß.7 ß8Ñ−@ Inoltre, tenendo presente che se L! è vera si dispone in effetti di un unico campione da una R Ð.ß 8Ñ, allora – á ß Bß – =# Ñ œ 6Ð.ß á ß .ß 8Ñ Ÿ 6ÐBß max Ð." ßáß.7 ß8Ñ−@! 6Ð." ß á ß .7 ß 8Ñ , dove –œ " B 8 7 –4 84 B 4œ" e " = œ 8 7 84 – #. ÐB43 BÑ # 4œ" 3œ" In completa analogia con la §4.3.4, si ha dunque =# œ =#A =#, , dove =#, " œ 8 7 –4 BÑ – #. 84 ÐB 4œ" Di conseguenza, risulta – á ß Bß – =# Ñ œ ln - 8 ln =# 8 . 6ÐBß # # In questo caso, la determinazione campionaria di V è data da – á ß Bß – =# Ñ 6ÐB –" ß á ß B –7 ß =# ÑÓ œ expŠ 8 ln =# 8 ln =# ‹ < œ expÒ6ÐBß A A # # 8Î# 8Î# =# Ð7 "Ñ0 œ Œ" #, œ ”" , • =A 87 dove 90 La verifica d'ipotesi 0œ Ð8 7Ñ=#, . Ð7 "Ñ=#A Tenendo presente i risultati della §4.3.4, =#, e =#A sono le determinazioni campionarie di due # statistiche W,# e WA# indipendenti. Inoltre, dal momento che 8WA# Î8 œ 7 4œ" 84 W4 Î8, dove le statistiche 84 W4# Î8 µ ;#84 " sono indipendenti, per la proprietà i) della §A.3.2, si ha # 8WA# Î8 µ ;87 . Risulta 8W,# 8W # 8WA# œ 8 8 8 mentre si ha 8W # Î8 µ ;#8" di nuovo per la proprietà i) della §A.3.2, e quindi si deve necessariamente concludere che 8W,# Î8 µ ;#7" . Dunque, se L! è vera, 0 è la determinazione campionaria della statistica J œ Ð8 7ÑW,# Ð8W,# Î8ÑÎÐ7 "Ñ œ , Ð7 "ÑWA# Ð8WA# Î8ÑÎÐ8 7Ñ distribuita come una J di Snedecor con Ð7 "Ñ e Ð8 7Ñ gradi di libertà. In questo caso, < è una funzione monotona decrescente di 0 e quindi i test costruiti su V e J sono equivalenti. Dal momento che rifiutare L! per piccole determinazioni di V è equivalente a rifiutare per determinazioni elevate di J , la regione critica del test è data da g" œ Ö0 À 0 J7"ß87ß"α × . Se si è osservato il valore campionario 0 , il livello di significatività osservato risulta infine α9== œ PrÐJ7"ß87 0 Ñ . Anche se la distribuzione della statistica test è nota per campioni finiti, per grandi campioni # ln < œ 8 ln”" Ð7 "Ñ0 •, 87 . è la determinazione di una statistica # ln V8 Ä ;#7" , in quanto vi sono Ð7 "Ñ parametri, di cui due da stimare sotto ipotesi di base. Esempio 4.3.6. In tre zone nei pressi di Bimini Lagoon alle Bahamas sono stati effettuati alcuni prelievi di acqua e sono stati misurati i relativi coefficienti di salinità (numero di parti per mille) ottenendo in questa maniera i dati della Tavola 4.3.6. Tavola 4.3.6. Indici di salinità (numero di parti per mille). zona 1 " # $ % & ' ( ) * "! "" "# B"3 $(.&% $(.!" $'.(" $(.!$ $(.$# $(.!" $(.!$ $(.(! $(.$' $'.(& $(.%& $).)& zona 2 " # $ % & ' ( ) B#3 %!."( %!.)! $*.(' $*.(! %!.(* %!.%% $*.(* $*.$) zona 3 " # $ % & ' ( ) * "! Fonte: Till (1974) B$3 $*.!% $*.#" $*.!& $).#% $).&$ $).(" $).)* $).'' $).&" %!.!) Capitolo 4 91 Si è interessati a determinare se la salinità è identica nelle tre zone considerate, ovvero il sistema di ipotesi L! À ." œ .# œ .$ œ . contro L" À .4 Á .6 , b4 Á 6 œ "ß #ß $. Dal momento –" œ $(.$"$$, B –# œ %!."!$), B –$ œ $).)*#!, =# œ !.$!!), =# œ !.#%(" e =# œ !.#$%), che B " # $ allora =#A œ !.#'%& e =#, œ ".#*$%, da cui 0 œ ''.!#"!. Di conseguenza, il livello di significatività osservato risulta α9== œ PrÐJ#ß#( ''.!#"!Ñ ¶ ! . Dato che la significatività osservata è estremamente bassa, vi è una forte indicazione a concludere che le salinità sono differenti nelle tre zone considerate. Inoltre # ln < œ &$.#!!! e dunque si ha α8ß9== œ PrÐ;## &$.#!!!Ñ ¶ ! , un risultato che conferma le conclusioni precedenti. 4.3.8. La regressione lineare. Si consideri il modello di regressione lineare dell'Esempio 1.1.8 e si supponga di voler verificare il sistema di ipotesi L! À , œ ! contro L" À , Á !. Dunque, @ œ ÖÐ+ß ,ß 8ÑÀ Ð+ß ,ß 8Ñ − ‘# ‚ ‘ × e @! œ ÖÐ+ß ,ß 8ÑÀ , œ !ß + − ‘ß 8 − ‘ × . In base ai risultati dell'Esempio 3.1.5, si ha max 6Ð+ß ,ß 8Ñ œ 6Ð+ß s s,ß =#< Ñ , Ð+ß,ß8Ñ−@ # dove s + œ –C, s, œ =DC Î=#D e =<# œ =C# =DC Î=D# . Inoltre, tenendo presente la disugualianza dell'Esempio 3.1.2 con . œ =#C , risulta # 8 8 # – +Ñ# Ó Ÿ ln - 8 ln 8 8=C œ 6ÐCß – !ß 8Ñ ln 8 Ò=C ÐC # #8 # #8 8 8 – !ß =# Ñ œ max 6Ð+ß ,ß 8Ñ . Ÿ ln - ln =#C œ 6ÐCß C # # Ð+ß,ß8Ñ−@! 6Ð+ß !ß 8Ñ œ ln - Inoltre, si ha =#C œ =C# # =#DC =DC # # œ =C# Ð" (# Ñ =C# (# œ =<# ==# , =D =D dove =#< œ =C# Ð" (# Ñ e ==# œ =C# (# , mentre (# œ =#DC =#D =C# è il coefficiente di determinazione lineare. È noto che l'indice (# rappresenta la percentuale di variabilità spiegata dal modello lineare (vedi Fattorini, 1997). Dunque, la varianza totale =#C può essere scomposta in una parte spiegata dal modello lineare, ovvero =#= , ed in una parte residua, ovvero =#< . In questo caso, la determinazione campionaria di V è data da 8 8 – !ß =# Ñ 6Ð+ß < œ expÒ6ÐCß s s,ß =<# ÑÓ œ exp’ lnÐ=<# ==# Ñ ln =<# “ C # # 8Î# # 8Î# = 0 œ Œ" =# œ Œ" , =< 8# 92 La verifica d'ipotesi dove =#= 0 œ Ð8 #Ñ # . =< # Tenendo presente i risultati della §3.1.5, essendo =#= œ =D#s, , allora =<# e ==# sono le determinazioni campionarie di due statistiche W<# e W=# indipendenti. Inoltre, dal momento che s # Î8 µ ;"# , se L! è vera, 0 è la determinazione campionaria di 8W<# Î8 µ ;#8# e 8W=# Î8 œ 8=D# F una statistica J œ Ð8 #Ñ W=# 8W=# Î8 , œ W<# Ð8W<# Î8ÑÎÐ8 #Ñ distribuita come una J di Snedecor con " e Ð8 #Ñ gradi di libertà. In questo caso, < è una funzione monotona decrescente di 0 e quindi i test costruiti su V e J sono equivalenti. Dal momento che rifiutare L! per piccole determinazioni di V è equivalente a rifiutare per determinazioni elevate di J , la regione critica del test è data da g" œ Ö0 À 0 J"ß8#ß"α × . Se si è osservato il valore campionario 0 , il livello di significatività osservato risulta infine α9== œ PrÐJ"ß8# 0 Ñ . Esempio 4.3.7. Su 36 piante di eucalipto sono state rilevate rispettivamente la densità e la durezza di Janka, ottenendo in questa maniera i dati della Tavola 4.3.7. Tavola 4.3.7. Densità e durezza degli eucalipti. eucalipto " # $ % & ' ( ) * "! "" "# "$ "% "& "' "( ") densità #%.( #%.) #(.$ #).% #).% #*.! $!.$ $#.( $&.' $).& $).) $*.$ $*.% $*.* %!.$ %!.' %!.( %!.( durezza %)% %#( %"$ &"( &%* '%) &)( (!% *(* *"% "!(! "!#! "#"! *)* ""'! "!"! ""!! ""$! eucalipto "* #! #" ## #$ #% #& #' #( #) #* $! $" $# $$ $% $& $' densità %#.* %&.) %'.* %).# &".& &".& &$.% &'.! &'.& &(.$ &(.' &*.# &*.) ''.! '(.% ').) '*." '*." durezza "#(! "")! "%!! "('! "("! #!"! "))! "*)! ")#! #!#! "*)! #$"! "*%! $#'! #(!! #)*! #(%! $"%! Fonte: Williams (1959) Si noti che la durezza di Janka è una importante caratteristica del legname che risulta tuttavia difficilmente rilevabile, mentre la densità può essere misurata in modo semplice. Sarebbe dunque opportuna l'esistenza di un legame lineare fra le due quantità, in modo tale che la durezza di Janka possa essere prevista sulla base della densità. Di conseguenza, si è interessati a verificare il sistema di ipotesi L! À , œ ! contro L" À , Á !. Una volta considerati gli scarti delle misurazioni relative alla densità, è immediato verificare che s + œ "%'*.%(## e s, œ &(.&!'(. Capitolo 4 93 Inoltre, dal momento che (# œ !.*%*$, si ottiene 0 œ '$'.*(*%. Dunque, il livello di significatività osservato risulta α9== œ PrÐJ"ß$% '$'.*(*%Ñ ¶ ! . Dato che la significatività osservata è estremamente bassa, vi è una netta indicazione a concludere che esiste un forte legame lineare fra la durezza di Janka e la densità. In effetti l'indice (# evidenzia che circa il *&% della variabilità è spiegata dal modello lineare. I dati della Tavola 4.3.7 sono rappresentati graficamente nella Figura 4.3.1 insieme con la retta di regressione. 3500 3000 2500 2000 1500 1000 500 0 − 20 − 10 0 10 20 30 Figura 4.3.1. Diagramma per punti e retta di regressione per i dati della Tavola 4.3.7. 4.3.9. I test per dati categoriali. Si supponga di disporre di un campione casuale di 8 osservazioni da una variabile qualitativa \ che assume valori su 5 categorie esaustive e mutuamente esclusive. Sia inoltre :4 la probabilità di osservare un valore nella j-esima categoria e sia 84 la frequenza assoluta di osservazioni nella medesima categoria. Ovviamente, si ha 5 4œ" 84 œ 8. L'informazione campionaria è contenuta nel vettore di frequenze Ð8" ß á ß 85 Ñ, dette appunto frequenze osservate. Dal momento che il campione è casuale e che le categorie sono esaustive e mutuamente esclusive, allora Ð8" ß á ß 85 Ñ è la realizzazione di un vettore casuale ÐR" ß á ß R5 Ñ distribuito come Q ?Ð8à :" ß á ß :5 Ñ. Tenendo presente che :5 œ " 5" 4œ" :4 e che quindi solo i primi Ð5 "Ñ parametri sono distinti, il modello statistico in questo caso è dato da Y:" ßáß:5" œ 8 08 À 08 Ð8" ß á ß 85 à :" ß á ß :5" Ñ œ Œ 8" á 8 5 $ :484 IE Ð8" ß á ß 85 ÑŸ , 5 4œ" dove l'insieme E è definito nella §A.2.2, mentre Ð:" ß á ß :5" Ñ − W5" e 5" W5" œ Ð:" ß á ß :5" ÑÀ :4 − Ð!ß "Ñß 4œ" :4 Ÿ "ß 4 œ "ß á ß 5 "Ÿ . Si vuole verificare il sistema di ipotesi L! À :4 œ :!4 , 4 œ "ß á ß 5 ", contro L" À :4 Á :!4 , b4 œ "ß á ß 5 ", dove Ð:!" ß á ß :!Ð5"Ñ Ñ − W5" e :05 œ " 5" 4œ" :04 . Si ha @ œ ÖÐ:" ß á ß :5" ÑÀ Ð:" ß á ß :5" Ñ − W5" × , mentre risulta @! œ ÖÐ:" ß á ß :5" ÑÀ :4 œ :!4 ß 4 œ "ß á ß 5 "× . 94 La verifica d'ipotesi Per evidenti motivi le componenti del vettore Ð8:!" ß á ß 8:!5 Ñ sono dette frequenze attese. Quindi, se si pone s:4 œ 84 Î8, la funzione di log-verosimiglianza è data da 5 6Ð:" ß á ß :5" Ñ œ ln - 8 :4 ln :4 , Ð:" ß á ß :5" Ñ − W5" . s 4œ" Tenendo presente la disugualianza della teoria dell'informazione 5 5 +4 ln ,4 Ÿ +4 ln +4 , 4œ" dove +4 !, ,4 ! e 5 4œ" +4 5 4œ" ,4 œ 4œ" œ " (vedi Rao, 1973), si ottiene 5 5 6Ð:" ß á ß :5" Ñ œ ln - 8 :4 ln :4 Ÿ ln - 8 s 4œ" :4 ln s :4 s 4œ" œ 6Ð: s" ß á ß s:5" Ñ œ 6Ð:" ß á ß :5" Ñ . max Ð:" ßáß:5" Ñ−@ Inoltre, è immediato verificare che 6Ð:!" ß á ß :!Ð5"Ñ Ñ œ max Ð:" ßáß:5" Ñ−@! 6Ð:" ß á ß :5" Ñ . La determinazione campionaria di V è data da < œ expÒ6Ð:!" ß á ß :!Ð5"Ñ Ñ 6Ð: : 5" ÑÓ s" ß á ß s œ exp–8 5 s:4 ln s:4 — œ $ 5 5 s:4 ln :!4 8 4œ" 4œ" 8: s4 :!4 s:4 4œ" . La distribuzione per campioni finiti di V non può essere ottenuta in modo semplice e quindi è conveniente adoperare i risultati per grandi campioni. Dunque, la quantità 5 # ln < œ #8 s:4 ln 4œ" :!4 s:4 . è la determinazione di una statistica # ln V8 Ä ;#5" , in quanto vi sono Ð5 "Ñ parametri. Tenendo presente le proprietà della Multinomiale (vedi §A.2.2), si ha ÔÎ :R#" !" ÖÐ ÖÐ :R#5 Ö Ð !5 I8 Ð:!" ß á ß :!Ð5"Ñ Ñ œ EÖÐ ã ÖÐ :R#5 ÕÏ !5 8 Î :!" Ð :8 !5 œÐ Ð ã Ï :8!5 8 :!5 8 :!# R5 # :!5 8 :!5 ã 8 :!5 R5 # :!5 R# # :!# R5 # :!5 ã 8 :!5 â â ä â â â ä â R5 # :!5 8 :!5 8 :!5 ã :!Ð5"Ñ 8 8 :!5 R5 # :!5 R5 # :!5 ã R5" # :!Ð5"Ñ Ñ Ó Ó. Ó R5 # :!5 Ñ× ÓÙ ÓÙ ÓÙ ÓÙ ÓÙ ÒØ Ò Dunque, sulla base della discussione fatta nella §4.2.3, una statistica che fornisce un test equivalente a # ln V8 per grandi campioni è data da Capitolo 4 95 U8 œ Ð: :5" :!Ð5"Ñ ÑT I8 Ð:!" ß á ß :!Ð5"Ñ ÑÐ: : 5" :!Ð5"ÑÑ s" :!" ß á ß s s" :!" ß á ß s 5" œ 4œ" 5" œ 4œ" 5" œ 4œ" 8Ð: s4 :!4 Ñ# :!4 5" 5" 4œ" 6œ" 8Ð: s4 :!4 ÑÐ: s6 :!6 Ñ :!5 Ð8: s4 8:!4 Ñ# 8 5" Ð: s :!4 Ñ— 8:!4 :!5 – 4œ" 4 Ð8: s4 8:!4 Ñ# 8Ð: s5 :!5 Ñ# œ 8:!4 :!5 5 4œ" # Ð84 8:!4 Ñ# . 8:!4 La statistica test U8 è la cosiddetta statistica di Pearson. Dato che U8 ha le medesime proprietà . per grandi campioni di # ln V8 allora risulta U8 Ä ;#5" . Tuttavia, si può dimostrare che U8 converge più rapidamente di # ln V8 (vedi Ferguson, 1996). Infatti, una numerosità campionaria di 8 #& è solitamente adeguata per l'approssimazione per grandi campioni, qualora nessuna delle frequenze attese sia minore di ". In caso contrario, si può raggruppare le categorie in modo da ottenere frequenze attese maggiori di " per ogni categoria. Infine, la regione critica per grandi campioni di U8 è data da g8ß" œ Ö;À ; ;#5"ß"α × , mentre per un dato valore campionario ; il livello di significatività osservato risulta α8ß9== œ PrÐ;#5" ;Ñ . Esempio 4.3.8. In un esperimento di genetica sono stati considerati ibridi di pomodoro con un rapporto atteso di quattro fenotipi pari a 9À 3À 3À 1. I dati della Tavola 4.3.8 sono relativi al numero di piante generate per ogni fenotipo. Tavola 4.3.8. Numero di piante di pomodoro per fenotipo. Fenotipo Alto, foglia corta Alto, foglia a patata Nano, foglia corta Nano, foglia a patata Frequenze osservate *#' #)) #*$ "!% Fonte: McArthur (1931) Si vuole verificare sperimentalmente i risultati della teoria genetica, ovvero il sistema di ipotesi L! À :" œ *Î"'ß :# œ $Î"'ß :$ œ $Î"' contro L" À :4 Á :!4 ß b4 Á 6 œ "ß #ß $. Ovviamente risulta :% œ "Î"'. Dal momento che 8 œ "'"", allora è immediato ricavare che s:" œ !.&(%), s:# œ !."()), s:$ œ !.")"* e s:% œ !.!'%&. Dunque, risulta # ln < œ ".%((', con un livello di significatività osservato per grandi campioni α8ß9== œ PrÐ;#$ ".%(('Ñ œ !.')(& . Inoltre, si ha ; œ ".%')(, con un livello di significatività osservato per grandi campioni α8ß9== œ PrÐ;#$ ".%')(Ñ œ !.')*& . Data l'elevata numerosità campionaria i due test forniscono ovviamente risultati quasi equivalenti, e quindi si deve concludere che i risultati teorici sono in questo caso supportati dall'evidenza empirica. 96 La verifica d'ipotesi 4.3.10. I test per l'indipendenza nelle tavole di contingenza. Si supponga di disporre di un campione casuale di 8 osservazioni da una coppia di variabili qualitative Ð\ß ] Ñ che assumono valori rispettivamente su 5 e 2 categorie esaustive e mutuamente esclusive. Sia inoltre :46 la probabilità di osservare un valore contemporaneamente nella j-esima categoria di \ e nella lesima categoria di ] e sia 846 la frequenza assoluta di osservazioni nella medesima categoria. 2 2 5 Ovviamente, risulta che 54œ" 6œ" 846 œ 8. Inoltre, si pone 6œ" 846 œ 84 e 4œ" 846 œ 86 . Questo tipo di osservazioni campionarie viene usualmente organizzato nella cosiddetta tabella di contingenza (vedi Tavola 4.3.9). Tavola 4.3.9. Tabella di contingenza. " " 8"" # 8#" ã ã 4 84" ã ã 5 85" Totale 8" # 8"# 8## ã 84# ã 85# 8# â â â ä â 6 8"6 8#6 ã 846 ã â 856 â 86 â â â â ä â â 2 8"2 8#2 ã 842 ã 852 82 Totale 8" 8# ã 84 ã 85 8 Si noti che l'informazione campionaria è contenuta nel vettore di frequenze Ð8"" ß á ß 8"2 ß á ß 85" ß á ß 852 Ñ. Dal momento che il campione è casuale e che le categorie sono esaustive e mutuamente esclusive, allora Ð8"" ß á ß 8"2 ß á ß 85" ß á ß 852 Ñ è la realizzazione di un vettore casuale Q ?Ð8à :"" ß á ß :"2 ß á ß :5" ß á ß :52 Ñ. Tenendo presente che solo i primi Ð52 "Ñ parametri sono distinti, il modello statistico in questo caso è dato da Y:"" ßáß:"2 ßáß:5"ßáß:5Ð2"Ñ œ œ08 À 08 Ð8"" ß á ß 8"2 ß á ß 85" ß á ß 852 Ñ œ œŒ 5 2 8 $$ :46846 IE Ð8"" ß á ß 8"2 ß á ß 85" ß á ß 852 Ñ 8"" á 8"2 á 85" á 852 4œ" 6œ" , dove per semplicità di notazione si è eliminato la dipendenza di 08 dai parametri e dove l'insieme E è definito nella §A.2.2, mentre Ð:"" ß á ß :"2 ß á ß :5" ß á ß :5Ð2"Ñ Ñ − W5Ð2"Ñ e 5 2" W5Ð2"Ñ œ Ð:"" ß á ß :"2 ß á ß :5" ß á ß :5Ð2"Ñ ÑÀ :46 − Ð!ß "Ñß 4œ" 6œ" :46 Ÿ "Ÿ . Si denoti ora con :4 la probabilità di avere una osservazione nella j-esima categoria di \ , ovvero :4 œ 26œ" :46 , e con :6 la probabilità di avere una osservazione nella l-esima categoria di ] , ovvero :6 œ 54œ" :46 . Risulta dunque interessante verificare l'indipendenza delle due variabili categoriali, ovvero il sistema di ipotesi L! À :46 œ :4 :6 ß 4 œ "ß á ß 5ß 6 œ "ß á 2 , contro L" À :46 Á :4 :6 ß b4 œ "ß á ß 5ß 6 œ "ß á ß 2 . Dunque, si ha @ œ ÖÐ:"" ß á ß :"2 ß á ß :5" ß á ß :5Ð2"Ñ ÑÀ Ð:"" ß á ß :"2 ß á ß :5" ß á ß :5Ð2"ÑÑ − W5Ð2"Ñ× e @! œ ÖÐ:"" ß á ß :"2 ß á ß :5" ß á ß :5Ð2"Ñ ÑÀ :46 œ :4 :6 ß 4 œ "ß á ß 5ß 6 œ "ß á 2× . Quindi, se si pone s:46 œ 846 Î8, la funzione di log-verosimiglianza è data da 5 2 6Ð:"" ß á ß :"2 ß á ß :5" ß á ß :5Ð2"Ñ Ñ œ ln - 8 : 46 ln :46 , s 4œ" 6œ" Capitolo 4 97 con Ð:"" ß á ß :"2 ß á ß :5" ß á ß :5Ð2"Ñ Ñ − W5Ð2"Ñ . Tenendo presente i risultati della §4.3.9, si ottiene inoltre 5 2 6Ð:"" ß á ß :"2 ß á ß :5" ß á ß :5Ð2"Ñ Ñ œ ln - 8 : 46 ln :46 s 4œ" 6œ" 5 2 Ÿ ln - 8 :"2 ß á ß s :5" ß á ß s : 5Ð2"Ñ Ñ s:46 ln s:46 œ 6Ð: s"" ß á ß s 4œ" 6œ" œ max Ð:"" ßáß:"2 ßáß:5" ßáß:5Ð2"Ñ Ñ−@ 6Ð:"" ß á ß :"2 ß á ß :5" ß á ß :5Ð2"Ñ Ñ . In modo analogo alla §4.3.9, e tenendo presente che sotto ipotesi di base la verosimiglianza dipende solo da Ð:" ß á ß :Ð5"Ñ ß :" ß á ß :Ð2"Ñ Ñ, posto s :4 œ 84 Î8 e s :6 œ 86 Î8 si ha 5 2 6Ð:" ß á ß :Ð5"Ñ ß :" ß á ß :Ð2"Ñ Ñ œ ln - 8 : 4 ln :4 8 s 4œ" 5 2 Ÿ ln - 8 s:4 ln s:4 8 4œ" œ : 6 ln:6 s 6œ" :Ð5"Ñ ß s :" ß á ß s:Ð2"Ñ Ñ s:6 ln s:6 œ 6Ð: s" ß á ß s 6œ" max Ð:" ßáß:Ð5"Ñ ß:" ßáß:Ð2"Ñ Ñ−@! 6Ð:" ß á ß :Ð5"Ñ ß :" ß á ß :Ð2"Ñ Ñ . La determinazione campionaria di V è data da < œ exp[6Ð: :" ß á ß s :Ð2"Ñ Ñ 6Ð: :"2 ß á ß s : 5" ß á ß s : 5Ð2"Ñ Ñ] s" ß á ß s:Ð5"Ñ ß s s"" ß á ß s œ exp–8 5 2 5 s:4 ln s:4 8 4œ" 2 s:6 ln s:6 8 4œ" 6œ" 6œ" s:46 ln: s46 — œ s 4 s 6 # s:8: # s:8: 4 6 5 2 4œ" 6œ" s 46 # # s:8: 46 5 2 4œ"6œ" È evidente che la distribuzione per campioni finiti di V non può essere ottenuta in modo semplice e quindi è conveniente adoperare i risultati per grandi campioni. Dunque la quantità 5 # ln < œ #8 2 5 s:4 ln s:4 4œ" 2 s:6 ln s:6 6œ" :46 ln s :46 s 4œ" 6œ" . è la determinazione di una statistica # ln V8 Ä ;#Ð5"ÑÐ2"Ñ , in quanto vi sono Ð52 "Ñ parametri, di cui Ð5 2 #Ñ da stimare sotto ipotesi di base. Con una dimostrazione analoga a quella della §4.3.9, una statistica che fornisce un test equivalente a # ln V8 per grandi campioni è data da 5 2 U8 œ 4œ" 6œ" Ð846 8: s4s:6 Ñ# , 8: s4s:6 detta statistica di Pearson per l'indipendenza. Dato che U8 ha le medesime proprietà per grandi . campioni di # ln V8 allora si ha U8 Ä ;#Ð5"ÑÐ2"Ñ . Anche in questo caso una numerosità campionaria di 8 #& è solitamente adeguata per l'approssimazione per grandi campioni, qualora nessuna delle frequenze attese sia minore di ". Infine, la regione critica per grandi campioni di U8 è data da 98 La verifica d'ipotesi g8ß" œ Ö;À ; ;#Ð5"ÑÐ2"Ñß"α × , mentre per un dato valore campionario ; il livello di significatività osservato risulta α8ß9== œ PrÐ;#Ð5"ÑÐ2"Ñ ;Ñ. Esempio 4.3.9. I dati della tabella di contingenza della Tavola 4.3.10 sono stati raccolti durante uno studio della malattia di Hodgkin. Ognuno dei 538 malati è stato classificato per tipologie istologiche (indicate con le sigle LP, NS, MC e LD) e per la risposta dopo tre mesi di trattamento. Tavola 4.3.10. positiva LP (% NS ') MC "&% LD ") Totale $"% parziale nessuna ") "# "' "# &% &) "! %% *) "#' Totale "!% *' #'' (# &$) Fonte: Dunsmore e Daly (1987) Si vuole verificare che la risposta al trattamento è indipendente dalla tipologia istologica del malato, ovvero il sistema di ipotesi L! À :46 œ :4 :6 ß 4 œ "ß #ß $ß %ß 6 œ "ß #ß $, contro L" À :46 Á :4 :6 ß b4 œ "ß #ß $ß %ß 6 œ "ß #ß $. È immediato ricavare che # ln < œ ').#*&&, con un livello di significatività osservato per grandi campioni α8ß9== œ PrÐ;#' ').#*&&Ñ ¶ ! . Inoltre, si ha ; œ (&.)*!", con un livello di significatività osservato per grandi campioni α8ß9== œ PrÐ;#' (&.)*!"Ñ ¶ ! . Data l'elevata numerosità campionaria due test forniscono ovviamente risultati quasi equivalenti, ovvero si deve concludere che la risposta al trattamento dipende dalla tipologia istologica del malato. Capitolo 5 La stima per intervalli 5.1. Gli intervalli di confidenza 5.1.1. La definizione di intervallo di confidenza. Si consideri un modello statistico Y) , dove ) è un parametro univariato. Piuttosto che selezionare sulla base del campione ÐB" ß á ß B8 Ñ un unico valore come nella stima per punti, può essere utile dal punto di vista operativo ottenere un insieme di valori plausibili di ). Supponiamo che esista una funzione T À V8 ‚ @ Ä ‘ , tale che T œ T Ð\" ß á ß \8 à )Ñ abbia una distribuzione che non dipende da ) . La variabile casuale T , detta quantità pivot, non è una statistica dal momento che dipende dal parametro ). Se -" e -# sono due valori tali che Pr) Ö-" T Ð\" ß á ß \8 à )Ñ -# × œ " α , e se P œ PÐ\" ß á ß \8 Ñ e Y œ Y Ð\" ß á ß \8 Ñ sono statistiche tali che ÖÐB" ß á ß B8 ÑÀ -" T ÐB" ß á ß B8 à )Ñ -# × Í Í ÖÐB" ß á ß B8 ÑÀ PÐB" ß á ß B8 Ñ ) Y ÐB" ß á ß B8 Ñ× , allora ÐPÐB" ß á ß B8 Ñß Y ÐB" ß á ß B8 ÑÑ è detto intervallo di confidenza per ) al livello di confidenza Ð" αÑ. In questo contesto, il termine “confidenza” è da intendersi nel senso di sicurezza. La nozione di intervallo di confidenza deve essere adoperata con una certa cautela, ovvero non si deve affermare che il vero valore del parametro )! è contenuto in un intervallo con probabilità pari a Ð" αÑ. In termini rigorosi di probabilità, una volta che l'intervallo di confidenza è stato determinato sul campione, questo contiene il vero valore )! con probabilità ! o ". Si può affermare invece che l'intervallo di confidenza è la determinazione di un procedimento casuale che sceglie intervalli in modo tale che la probabilità di ottenere un intervallo contenente )! è pari a Ð" αÑ. È possibile ottenere un intervallo di confidenza solo quando T ÐB" ß á ß B8 à )Ñ è funzione monotona di ). Tuttavia, il concetto di intervallo di confidenza può essere generalizzato. Data una quantità pivot T , se F § ‘ è un insieme tale che Pr) ÖT Ð\" ß á ß \8 à )Ñ − F× œ " α , e se IÐ\" ß á ß \8 Ñ è un insieme casuale tale che ÖÐB" ß á ß B8 ÑÀ T ÐB" ß á ß B8 à )Ñ − F× Í ÖÐB" ß á ß B8 ÑÀ ) − IÐB" ß á ß B8Ñ× , allora IÐB" ß á ß B8 Ñ è detto insieme di confidenza per ) al livello di confidenza Ð" αÑ. Ovviamente, la nozione di intervallo di confidenza è molto più utile dal punto di vista operativo di quella di insieme di confidenza. Infine, quando la quantità pivot è una variabile casuale discreta, allora esiste un numero finito o contabile di livelli di confidenza ottenibili, che vengono detti livelli di confidenza naturali. 100 La stima per intervalli Esempio 5.1.1. Se si considera un campione casuale da \ µ R Ð.ß "Ñ, una possibile quantità – pivot è data da È8Ð\ .Ñ. Questa variabile casuale è in effetti una quantità pivot, dal – momento che la sua distribuzione non dipende da . essendo È8Ð\ .Ñ µ R Ð!ß "Ñ. Scelto un livello di confidenza α, risulta – Pr. Ö D"αÎ# È8Ð\ .Ñ D"αÎ# × œ " α , da cui – .Ñ D"αÎ# × Í ÖÐB" ß á ß B8 ÑÀ D"αÎ# È8ÐB Í – D"αÎ# " . B – D"αÎ# " ÐB" ß á ß B8 ÑÀ B . È8 È8 Ÿ Si deve dunque concludere che – D"αÎ# " ß B – D"αÎ# " B È8 È8 è un intervallo di confidenza per . al livello di confidenza Ð" αÑ. 5.1.2. La relazione fra gli intervalli di confidenza e il test statistico. Viene ora evidenziata la stretta connessione che esiste tra il problema della stima per intervalli e quello della verifica di ipotesi. Questa è anche la ragione per cui la stima per intervalli è stata analizzata successivamente alla teoria relativa alla verifica di ipotesi. Dato un modello statistico Y) e il sistema di ipotesi L! À ) œ )! contro L" À ) Á )! , si consideri un test corretto al livello di significatività α. Se V! è la regione di accettazione del test, è immediato verificare che V! dipende dal valore prefissato )! di ). Dunque risulta V! œ V! Ð)Ñ. Inversamente, per un data realizzazione campionaria ÐB" ß á ß B8 Ñ deve esistere un insieme IÐB" ß á ß B8 Ñ di valori di ) per i quali si accetta l'ipotesi di base. I due insiemi sono equivalenti, ovvero ÖÐB" ß á ß B8 ÑÀ ÐB" ß á ß B8 Ñ − V! Ð)Ñ× Í ÖÐB" ß á ß B8 ÑÀ ) − IÐB" ß á ß B8Ñ× . Dal momento che ÖÐB" ß á ß B8 ÑÀ ÐB" ß á ß B8 Ñ − V! Ð)Ñ× œ ÖÐB" ß á ß B8 ÑÀ IV! Ð)Ñ ÐB" ß á ß B8Ñ œ "× e Pr) ÖÐ\" ß á ß \8 Ñ − V! Ð)Ñ× œ Pr) ÖIV! Ð)Ñ Ð\" ß á ß \8 Ñ œ "× œ " α , se come quantità pivot si considera la variabile casuale IV! Ð)Ñ Ð\" ß á ß \8 Ñ, allora IÐB" ß á ß B8 Ñ è un insieme di confidenza al livello di confidenza Ð" αÑ. Quindi, l'insieme di tutti i valori ) per cui si accetta l'ipotesi di base costituisce un insieme di confidenza per ). Nel caso che IÐB" ß á ß B8 Ñ sia un intervallo, con la precedente procedura si ottiene ovviamente un intervallo di confidenza e questa situazione è frequente con i modelli usualmente adoperati in pratica. Partendo dunque da un test opportuno è possibile costruire un intervallo di confidenza al livello di confidenza desiderato. Inoltre, più il test prescelto ha funzione potenza elevata più l'intervallo di confidenza risultante è desiderabile, dal momento che a priori dal campionamento la probabilità che esso contenga un qualunque valore ) diverso da )! è bassa. È dunque buona regola costruire intervalli di confidenza a partire da un test che gode di buone proprietà. Nel caso che si costruisca insiemi di confidenza a partire dal test del rapporto delle verosimiglianze, la regione di accettazione per il sistema di ipotesi L! À ) œ )! contro L" À ) Á )! risulta Capitolo 5 101 V! œ ÖÐB" ß á ß B8 ÑÀ PÐ)à B" ß á ß B8 Ñ -α × , dove -α œ <α max PÐ)à B" ß á ß B8 Ñ ) −@ e Pr) ÐV Ÿ <α Ñ œ α. Dunque, il relativo insieme di confidenza IÐB" ß á ß B8 Ñ al livello di confidenza Ð" αÑ è dato da tutti i valori di ) − @ per cui la verosimiglianza PÐ)à B" ß á ß B8 Ñ è maggiore di -α . Quando la verosimiglianza è una funzione prima crescente e successivamente decrescente, si ottiene un intervallo di confidenza. T T Se il modello statistico risulta Y) dove ) œ Ð)E ß )F Ñ , dove )E è unidimensionale, supponiamo di essere interessati a costruire un insieme di confidenza per )E a partire dal test del rapporto delle verosimiglianze. In questo caso la regione di accettazione per il sistema di ipotesi L! À )E œ )!E contro L" À )E Á )!E è data da V! œ ÖÐB" ß á ß B8 ÑÀ P: Ð)E à B" ß á ß B8 Ñ -α × . Di conseguenza, il relativo insieme di confidenza IÐB" ß á ß B8 Ñ al livello di confidenza Ð" αÑ è dato da tutti i valori di )E − @E per cui la verosimiglianza profilo P: Ð)E à B" ß á ß B8 Ñ è maggiore di -α œ <α max PÐ)à B" ß B# ß á ß B8 Ñ )−@ dove Pr) ÐV Ÿ <α Ñ œ α. Anche in questo caso, quando la verosimiglianza profilo è una funzione prima crescente e successivamente decrescente, si ottiene un intervallo di confidenza. Esempio 5.1.2. Dato un campione casuale da \ µ R Ð.ß 8Ñ, si vuole costruire un intervallo di confidenza per .. Se si considera il sistema di ipotesi L! À . œ .! contro L" À . Á .! , dalla §4.3.1 è noto che la regione di accettazione per il test del rapporto delle verosimiglianze risulta V! œ ÐB" ß á ß B8 ÑÀ >8"ß"αÎ# – .Ñ È8ÐB =- >8"ß"αÎ# Ÿ , che è equivalente all'insieme – >8"ß"αÎ# =- . B – >8"ß"αÎ# =. ÐB" ß á ß B8 ÑÀ B È8 È8 Ÿ Dunque, – >8"ß"αÎ# =- ß B – >8"ß"αÎ# =B È8 È8 costituisce un intervallo di confidenza per . al livello di confidenza Ð" αÑ. Se si considera dunque di nuovo i dati dell'Esempio 4.3.1, si vuole costruire un intervallo di confidenza al livello di confidenza del 95% per il rapporto dei lati dei rettangoli usati dai nativi americani Shoshoni. Dunque, si sceglie α œ !.!&, e tenendo presente i risultati dell'Esempio 4.3.1 si ha – >"*ß!.*(& =- ß B – >"*ß!.*(& =B È#! È#! œ Ð!.'"(#ß !.(!$)Ñ . 102 La stima per intervalli Esempio 5.1.3. Dato un campione casuale da \ µ R Ð.ß 8Ñ, si vuole costruire un intervallo di confidenza per 8. Se si considera il sistema di ipotesi L! À 8 œ 8! contro L" À 8 Á 8! , dalla §4.3.3 è noto che la regione di accettazione per il test del rapporto delle verosimiglianze può essere scelta come V! œ œÐB" ß á ß B8 ÑÀ ;#8"ßαÎ# 8=# # ;8"ß" αÎ# 8 che è equivalente all'insieme ÐB" ß á ß B8 ÑÀ 8=# ;#8"ß"αÎ# 8 Ÿ # ;8"ß αÎ# 8=# . Di conseguenza, 8=# ß 8=# # ;#8"ß"αÎ# ;8"ß αÎ# costituisce un intervallo di confidenza per 8 al livello di confidenza Ð" αÑ. Sulla base della discussione dell'Esempio 4.3.3, questo intervallo di confidenza non corrisponde esattamente a quello si sarebbe ottenuto a partire dal test del rapporto delle verosimiglianze a causa della scelta semplificata fatta per i quantili. Se si considera dunque di nuovo i dati dell'Esempio 4.3.1, un intervallo di confidenza per 8 al livello di confidenza del 95% è dato da #!=# ß #!=# ;#"*ß!.*(& ;#"*ß!.!#& œ Ð!.!!%'ß !.!"($Ñ . Esempio 5.1.4. Dato il modello di regressione lineare dell'Esempio 1.1.8, si vuole costruire un intervallo di confidenza per , . Se si considera il sistema di ipotesi L! À , œ ,! contro L" À , Á ,! , in maniera analoga alla §4.3.8 la regione di accettazione per il test del rapporto delle verosimiglianze è data da s ,Ñ# V! œ œÐB" ß á ß B8 ÑÀ Ð8 #ÑÐ, =#D J"ß8#ß"α =#< . Essendo >8ß"αÎ# œ ÈJ"ß8ß"α per la relazione fra la >8 e la J"ß8 (vedi §A.3.4), allora la precedente regione di accettazione può essere anche espressa come s ,Ñ =D >8#ß"αÎ# V! œ œÐB" ß á ß B8 ÑÀ >8#ß"αÎ# È8 #Ð, =< , che è equivalente all'insieme ÐB" ß á ß B8 ÑÀ s, >8#ß"αÎ# =< =< , s, >8#ß"αÎ# Ÿ. =D È 8 # =D È 8 # Di conseguenza, s, >8#ß"αÎ# =< =< ß s, >8#ß"αÎ# =D È 8 # =D È 8 # è un intervallo di confidenza per , al livello di confidenza Ð" αÑ. Capitolo 5 103 Se si considera di nuovo i dati dell'Esempio 4.3.7, un intervallo di confidenza per , al livello di confidenza del 95% è dato da s, >$%ß!.*(& =< =< ß s, >$%ß!.*(& =D È$% =D È$% œ Ð&#.))!!ß '#."$$$Ñ . Esempio 5.1.5. Dato un campione casuale da \ µ F3Ð"ß :Ñ, si vuole costruire un intervallo di confidenza per :. Se si considera il sistema di ipotesi L! À : œ :! contro L" À : Á :! , –, è una funzione prima crescente e dall'Esempio 4.2.5 si ha che < œ <Ð>Ñ, dove > œ 8B successivamente decrescente. Dunque, la regione di accettazione per il test del rapporto delle verosimiglianze è del tipo V! œ ÖÐB" ß á ß B8 ÑÀ >" Ð:Ñ > ># Ð:Ñ× , dove Pr: Ö>" Ð:Ñ X ># Ð:Ñ× œ " α e <Ö>" Ð:Ñ× œ <Ö># Ð:Ñ×. Tuttavia, in maniera analoga alla §4.3.3, è conveniente scegliere >" Ð:Ñ e ># Ð:Ñ in modo che α Pr: ÖX Ÿ >" Ð:Ñ× œ Pr: ÖX ># Ð:Ñ× œ . # Dal momento che X µ F3Ð8ß :Ñ, allora risulta 8 Pr: ÐX >Ñ œ 3œ> 8 Š ‹:3 Ð" :Ñ83 œ PrÐ^ Ÿ :Ñ , 3 dove ^ µ F/Ð!ß "à >ß 8 > "Ñ (vedi §A.1.5). In modo analogo si ha Pr: ÐX Ÿ >Ñ œ PrÐ^ :Ñ, dove in questo caso ^ µ F/Ð!ß "à > "ß 8 >Ñ. Inoltre, essendo F/Ð!ß "à >ß 8 > "Ñ œ > > Ð8 > "ÑJ#Ð8>"Ñß#> F/Ð!ß "à > "ß 8 >Ñ œ >" > " Ð8 >ÑJ#Ð8>Ñß#Ð>"Ñ e (vedi §A.3.4), la regione di accettazione è equivalente a œÐB" ß á ß B8 ÑÀ > >" : > Ð8 > "ÑJ#Ð8>"Ñß#>ß"αÎ# > " Ð8 >ÑJ#Ð8>Ñß#Ð>"ÑßαÎ# Si deve dunque concludere che Œ > >" ß > Ð8 > "ÑJ#Ð8>"Ñß#>ß"αÎ# > " Ð8 >ÑJ#Ð8>Ñß#Ð>"ÑßαÎ# è un intervallo di confidenza per : al livello di confidenza Ð" αÑ. Se 8 œ "! e > œ ' un intervallo di confidenza per : al livello di confidenza del 95% è dato da Œ ' ' &J"!ß"#ß!.*(& ß ( ( %J)ß"%ß!.!#& œ Ð!.#'#'ß !.)()#Ñ . 104 La stima per intervalli 5.2. La stima per intervalli con grandi campioni 5.2.1. Gli intervalli di confidenza con grandi campioni. Molte volte non è nota la distribuzione esatta del rapporto delle verosimiglianze e non è possibile costruire l'intervallo di confidenza a partire dal relativo test. In questo caso, si può tuttavia fare riferimento alle proprietà per grandi campioni del rapporto delle verosimiglianze. Dato il modello statistico Y) e il sistema di ipotesi L! À ) œ )! contro L" À ) Á )! , supponendo verificate le condizioni della §3.3.2, sulla base dei risultati contenuti nella §4.2.3, la statistica test # ln V8 ha la stessa distribuzione per grandi campioni della statistica test s 8 ÑÐK s 8 )! Ñ# . I test basati sulle due statistiche sono equivalenti e godono quindi delle sM 8 ÐK stesse proprietà ottimali per grandi campioni, anche se la seconda statistica è più opportuna in questo contesto teorico. Dal momento che risulta # s 8 ÑÐK s 8 )! Ñ# ;"ß" s 8 ÐK lim Pr)! ÖM α× œ " α , 8Ä∞ la regione di accettazione per grandi campioni del test basato sulla statistica precedente è data dall'insieme V8ß! Ð)Ñ œ ÖÐB" ß á ß B8 ÑÀ sM 8 Ðs)8 ÑÐs)8 )Ñ# ;#"ß"α × . Inoltre, tenendo presente la relazione fra la R Ð!ß "Ñ e la ;#" (vedi Esempio 4.2.2) si ha l'equivalenza ÖÐB" ß á ß B8 ÑÀ sM 8 Ðs)8 ÑÐs)8 )Ñ# ;#"ß"α × Í Ú Þ Ý á " " s s Í ÛÐB" ß á ß B8 ÑÀ )8 D"αÎ# ) )8 D"αÎ# ß. Ý s s s s É É M 8 Ð) 8 Ñ M 8 Ð) 8 Ñ á Ü à Dunque, si deve concludere che Î Ñ " " Ðs)8 D"αÎ# Ó ß s)8 D"αÎ# ÉsM 8 Ðs)8 Ñ ÉsM 8 Ðs)8 Ñ Ò Ï è un intervallo di confidenza per ) per grandi campioni al livello di confidenza Ð" αÑ. Mentre questa costruzione di intervalli di confidenza è sempre possibile, difficilmente si ottiene l'intervallo di confidenza partendo dalla statistica test # ln V8 . Infine, la precedente procedura fornisce intervalli ottimi, almeno per grandi campioni, dal momento che il test basato sulla s 8 ÑÐK s 8 )! Ñ# × è uniformemente più potente in senso asintotico. s 8 ÐK successione di statistiche ÖM T T Se il modello statistico risulta Y) dove ) œ Ð)E ß )F Ñ dove )E è unidimensionale, sulla base dei risultati della §4.2.3, un intervallo di confidenza per )E per grandi campioni al livello di confidenza Ð" αÑ è dato da Î Ñ " " Ðs)E8 D"αÎ# Ó, ß s)E8 D"αÎ# s s s s É M E8 Ð) 8 Ñ É M E8 Ð) 8 Ñ Ò Ï dove con sM E8 Ðs ) 8 Ñ si denota l'informazione osservata di Fisher relativa a )E . Esempio 5.2.1. Se si considera un campione casuale da \ µ R Ð.ß 8Ñ, tenendo presenti i risultati dell'Esempio 3.3.10, si ha che Capitolo 5 105 – D"αÎ# = ß B – D"αÎ# = B È8 È8 e =# D"αÎ# Ê #=% # #=% ß = D"αÎ# Ê 8 8 sono intervalli di confidenza per . e 8 per grandi campioni al livello di confidenza Ð" αÑ. Questo risultato serve unicamente ad esemplificare, dal momento che si dispone degli intervalli di confidenza per campioni finiti. Esempio 5.2.2. Se si considera un campione casuale da \ µ F3Ð"ß :Ñ tenendo presenti i risultati dell'Esempio 3.1.8, allora risulta che – – – – – D"αÎ# Ê BÐ" BÑ ß B – D"αÎ# Ê BÐ" BÑ B 8 8 è un intervallo di confidenza per : per grandi campioni al livello di confidenza Ð" αÑ. – œ ', un intervallo di confidenza per : per grandi campioni al livello di Se 8 œ "! e 8B confidenza del 95% è dato da – – – – – D!.*(& Ê BÐ" BÑ ß B – D!.*(& Ê BÐ" BÑ B "! "! œ Ð!.#*'$ß !.*!$'Ñ . Tenendo presente i risultati dell'Esempio 5.1.5, è evidente che questo intervallo fornisce una buona approssimazione dell'intervallo per campioni finiti. In una indagine è stata considerata la patologia del russare su un campione casuale di 2484 individui. È risultato che 1104 dei soggetti esaminati soffrono di questa patologia in modo più o – œ ""!%Î#%)% œ !.%%%%, un meno grave (fonte: Norton e Dunn, 1985). Dal momento che si ha B intervallo di confidenza per grandi campioni al livello di confidenza del *&% per la proporzione di individui che russano è dato da – – – – – D!.*(& Ê BÐ" BÑ ß B – D!.*(& Ê BÐ" BÑ B #%)% #%)% œ Ð!.%#%*ß !.%'%!Ñ . Esempio 5.2.3. Se si considera un campione casuale da \ µ [ Ð!ß "à :Ñ, dal momento che non si può esprimere in forma esplicita lo stimatore di massima verosimiglianza, allora non è possibile ottenere una forma generale per l'intervallo di confidenza. Tuttavia, per il campione specifico dell'Esempio 3.1.10, essendo in questo caso s: œ #.)$&#& e sM 8 Ð:Ñ s œ $.#*#!#, scegliendo α œ !.!&, allora Ð".(&&!ß $.*"&&Ñ è un intervallo di confidenza per : per grandi campioni al livello di confidenza del *&%. 5.2.2. Le trasformazione stabilizzatrice della varianza e gli intervalli di confidenza. Dal momento che l'impiego della distribuzione per grandi campioni comporta un'approssimazione, può essere conveniente considerare una riparametrizzazione per migliorare il grado di approssimazione. Supponendo verificate le condizioni della §3.3.2, se 1Ð)Ñ œ ( MÐ)Ñ"Î# . ) è la trasformazione stabilizzatrice della varianza, allora è immediato dimostrare che 106 La stima per intervalli . s 8 Ñ 1Ð)! ÑÓ# Ä ;"# . 8Ò1ÐK Tenendo presente la discussione della sezione precedente, questa statistica è equivalente al rapporto delle verosimiglianze e quindi gode di proprietà ottime per costruire intervalli di confidenza per 1Ð)Ñ per grandi campioni. Dal momento che risulta # s 8 Ñ 1Ð)! ÑÓ# ;"ß" lim Pr)! Ö8Ò1ÐK α× œ " α , 8Ä∞ la regione di accettazione per grandi campioni del test basato su questa statistica è data dall'insieme # V8ß! Ð)Ñ œ ÖÐB" ß á ß B8 ÑÀ 8Ò1Ðs)8 Ñ 1Ð)ÑÓ# ;"ß" α× . Tenendo presente che 1 è una funzione biunivoca, si ha l'equivalenza # ÖÐB" ß á ß B8 ÑÀ 8Ò1Ðs)8 Ñ 1Ð)ÑÓ# ;"ß" α× Í Í Í " " ÐB" ß á ß B8 ÑÀ 1Ðs)8 Ñ D"αÎ# 1Ð)Ñ 1Ðs)8 Ñ D"αÎ# Í È8 È8 Ÿ " " ÐB" ß á ß B8 ÑÀ 1" –1Ðs)8 Ñ D"αÎ# ) 1" –1Ðs)8 Ñ D"αÎ# , È8 — È 8 —Ÿ ovvero " " 1" –1Ðs)8 Ñ D"αÎ# ß 1" –1Ðs)8 Ñ D"αÎ# — È8 È8 — è intervallo di confidenza per ) per grandi campioni. Questa procedura consente di eliminare il problema della stima della varianza e quindi rende più stabili gli intervalli di confidenza ottenuti. Esempio 5.2.4. Se si considera un campione casuale da \ µ F3Ð"ß :Ñ, la trasformazione stabilizzatrice della varianza è data da 1Ð:Ñ œ ( " .: œ # sin" È: . È:Ð" :Ñ Di conseguenza, si ha che – D"αÎ# sin# –sin" ÈB " – D"αÎ# " ß sin# –sin" ÈB — #È8 #È 8 — è un intervallo di confidenza per ) per grandi campioni al livello di confidenza Ð" αÑ. Questo intervallo di confidenza seleziona insiemi di valori solo in Ð!ß "Ñ, ovvero all'interno dello spazio parametrico. L'intervallo ottenuto nell'Esempio 5.2.2 invece può selezionare valori al di fuori dello spazio parametrico e questo motivo lo rende poco opportuno. – œ ', un intervallo di confidenza per : per grandi campioni al livello di Se 8 œ "! e 8B confidenza del 95% è dato da Capitolo 5 107 – D!.*(& sin# –sin" ÈB " – D!.*(& " ß sin# –sin" ÈB — — #È"! #È"! œ Ð!.#*')ß !.)'&*Ñ , Tenendo presente i risultati dell'Esempio 5.1.5, questo intervallo fornisce una approssimazione migliore di quella dell'Esempio 5.2.2. Se si considera di nuovo i dati dell'Esempio 5.2.2, un intervallo di confidenza per grandi campioni al livello di confidenza del *&% per la proporzione di individui che russano risulta Ð!.%#%(ß !.%'%"Ñ. 5.3. Le regioni di confidenza 5.3.1. La definizione di regione di confidenza. In questa sezione viene generalizzato il concetto di intervallo di confidenza nel caso che si disponga di un vettore di parametri ) . Sia Y) un modello statistico, e T una quantità pivot. Se F § ‘ è un insieme tale che Pr) ÖT Ð\" ß á ß \8 à )Ñ − F× œ " α , e se IÐ\" ß á ß \8 Ñ § ‘5 è un insieme casuale tale che per ogni ) ÖÐB" ß á ß B8 ÑÀ T ÐB" ß á ß B8 à )Ñ − F× Í ÖÐB" ß á ß B8 ÑÀ ) − IÐB" ß á ß B8Ñ× , allora IÐB" ß á ß B8 Ñ è detta regione di confidenza per ) al livello di confidenza Ð" αÑ. Le quantità pivot più opportune sono quelle che forniscono regioni di confidenza convesse o almeno connesse, dal momento che sono le più facili da usare in modo operativo. Si può dimostrare che esiste un legame fra la regione di confidenza e la regione di accettazione del test per il sistema di ipotesi L! À ) œ )! contro L" À ) Á )! . Partendo da un test opportuno è possibile costruire una regione di confidenza al livello di confidenza desiderato. Nel caso che si costruisca regioni di confidenza a partire dal test del rapporto delle verosimiglianze, in maniera analoga al caso univariato, si può verificare che la regione di confidenza IÐB" ß á ß B8 Ñ al livello di confidenza Ð" αÑ è data da tutti i valori di ) − @ per cui la verosimiglianza PÐ)à B" ß á ß B8 Ñ è maggiore di -α œ <α max PÐ)à B" ß á ß B8 Ñ , )−@ T T Ñ , dove )E è un parametro a Ð5 2Ñ dove Pr) ÐV Ÿ <α Ñ œ α. Inoltre, se si ha ) œ Ð)ET ß )F componenti, la regione di confidenza IÐB" ß á ß B8 Ñ al livello di confidenza Ð" αÑ è data da tutti i valori di )E − @E per cui la verosimiglianza profilo P: Ð)E à B" ß á ß B8 Ñ è maggiore di -α . Esempio 5.3.1. Dato un campione casuale da \ µ R Ð.ß 8Ñ, si vuole costruire una regione di – confidenza per Ð.ß 8Ñ. Supponiamo di scegliere come quantità pivot 8W # Î8 8Ð\ .Ñ# Î8. – Tenendo presente i risultati dell'Esempio 1.2.5 è noto che 8W # Î8 8Ð\ .Ñ# Î8 µ ;#8 e scelto quindi un livello di confidenza α si ha – 8W # Ð\ .Ñ# 8 ;#8ß"α œ " α , Pr.ß8 œ 8 8 da cui œÐB" ß á ß B8 ÑÀ – .Ñ # 8=# ÐB 8 ;#8ß"α 8 8 8 – .Ñ# ;# Í šÐB" ß á ß B8 ÑÀ =# ÐB › 8ß"α 8 In questo caso la regione di confidenza IÐB" ß á ß B8 Ñ per Ð.ß 8Ñ al livello di confidenza Ð" αÑ – 8=# Î;# è data dall'epigrafico di una parabola nel piano Ð.ß 8Ñ con vertice ÐBß 8ß"α Ñ. Questa 108 La stima per intervalli regione di confidenza è convessa, ma tuttavia è illimitata. Per questo modello è molto laborioso ottenere la regione di confidenza a partire dal test del rapporto delle verosimiglianze. 5.3.2. Le regioni di confidenza per grandi campioni. È evidente che è piuttosto difficile determinare una regione di confidenza partendo dal test del rapporto delle verosimiglianze, come è stato evidenziato nella precedente sezione. Tuttavia, nel caso di grandi campioni la teoria si semplifica in modo elegante. Dato il modello statistico Y) e il sistema di ipotesi L! À ) œ )! contro L" À ) Á )! , supponendo verificate le condizioni della §3.3.2, nella 4.2.3 si è evidenziato che la statistica test s 8 )! ÑTsI8 ÐK s 8 ÑÐK s 8 )! Ñ è equivalente alla statistica test # ln V8 . Dal momento che ÐK risulta s 8 )! ÑTsI8 ÐK s 8 ÑÐK s 8 )! Ñ ;#5ß"α × œ " α , lim Pr)! ÖÐK 8Ä∞ la regione di accettazione per grandi campioni del test basato sulla statistica precedente è data dall'insieme V8ß! Ð) Ñ œ ÖÐB" ß á ß B8 ÑÀ Ðs ) 8 )ÑTsI8 Ðs ) 8 ÑÐs ) 8 )Ñ ;#5ß"α × . La regione di confidenza per ) per grandi campioni al livello di confidenza Ð" αÑ è data da Ö) À Ð) s ) 8 ÑTsI8 Ðs ) 8 ÑÐ) s ) 8 Ñ ;#5ß"α × , ovvero dall'insieme dei punti contenuti in un ellissoide di centro s ) 8 con direzioni degli assi date dagli autovettori di sI8 Ðs ) 8 Ñ e con lunghezza degli assi pari a #É;#5ß"α Îα4 , dove α4 è il j-esimo autovalore di sI8 Ðs ) 8 Ñ. Questa regione di confidenza è anche detto ellissoide di confidenza. Per gli stessi motivi esposti nella §5.2.1, questa procedura fornisce regioni di confidenza ottime per grandi campioni. T T Infine, se risulta ) œ Ð)ET ß )F Ñ , dove )E è un parametro a Ð5 2Ñ componenti, la regione di confidenza per )E per grandi campioni al livello di confidenza Ð" αÑ è data da Ö)E À Ð)E s ) E8 ÑTsIE8 Ðs ) 8 ÑÐ)E s ) E8 Ñ ;#52ß"α × , ovvero dall'insieme dei punti contenuti in un ellissoide di centro s ) E8 con direzioni degli assi date dagli autovettori di sIE8 Ðs ) 8 Ñ e con lunghezza degli assi pari a #É;#52ß"α Îα4 , dove α4 è il j-esimo autovalore di sIE8 Ðs ) 8 Ñ e sIE8 Ðs ) 8 Ñ è l'informazione osservata di Fisher relativa a )E . Esempio 5.3.2. Dato il terzo modello statistico dell'Esempio 1.1.7, tenendo presente i risultati dell'Esempio 3.3.10, si ha che œÐ.ß 8ÑÀ 8 – # Ð. BÑ Ð8 =# Ñ # 8 ;##ß"α =# #=% costituisce una ellisse di confidenza per Ð.ß 8Ñ per grandi campioni al livello di confidenza – =# Ñ ed ha gli assi paralleli agli assi cartesiani di Ð" αÑ. Questa ellisse è centrata in ÐBß # lunghezze rispettivamente pari a #É=# ;##ß"α Î8 e #É#=% ;#ß" α Î8. Se si considera di nuovo i dati dell'Esempio 4.3.1, una ellisse di confidenza per Ð.ß 8Ñ per grandi campioni al livello di confidenza del *&% è centrata in Ð!.''!&ß !.!!)"Ñ ed ha gli assi paralleli agli assi cartesiani di lunghezze rispettivamente pari a !.!*)( e !.!"#&. Esempio 5.3.3. Dato il modello di regressione lineare dell'Esempio 1.1.8, si vuole costruire una regione di confidenza per Ð+ß ,Ñ per grandi campioni. È evidente che Capitolo 5 109 Ð+ß ,ÑÀ 8 Ð+ s +Ñ# Ð, s,Ñ# 8 ;##ß"α Ÿ =#< =<# Î=D# costituisce una ellisse di confidenza per Ð+ß ,Ñ per grandi campioni al livello di confidenza Ð" αÑ. Questa ellisse è centrata in Ð+ß s s,Ñ ed ha gli assi paralleli agli assi cartesiani di lunghezze # # rispettivamente pari a #É=#< ;##ß"α Î8 e #É=<# ;#ß" α ÎÐ8=D Ñ. Se si considera di nuovo i dati dell'Esempio 4.3.8, allora una ellisse di confidenza per Ð+ß ,Ñ per grandi campioni al livello di confidenza del *&% è centrata in Ð"%'*.%(##ß &(.&!'(Ñ ed ha gli assi paralleli agli assi cartesiani di lunghezze pari a "%&.")(" e "!.)%#). 5.4. Alcuni esempi di intervalli di confidenza 5.4.1. Gli intervalli di confidenza e la distribuzione Esponenziale. Dato un campione casuale da \ µ IÐ!ß 5Ñ, si vuole costruire un intervallo di confidenza per 5 . Se si considera il sistema di ipotesi L! À 5 œ 5! contro L" À 5 Á 5! , dall'Esempio 4.2.4 è noto che il rapporto delle – 5! . Quando L! è vera, ? è la determinazione verosimiglianze è funzione di ? œ #8BÎ campionaria di una statistica Y distribuita come una Chi-quadrato con #8 gradi di libertà, – essendo 8\Î5! distribuita come una KÐ!ß "à 8Ñ (vedi Esempio 1.2.2). Tuttavia, < non è una funzione biunivoca di ? e quindi i test costruiti su V e Y non sono equivalenti. Dal momento che < œ <Ð?Ñ è una funzione prima crescente e successivamente decrescente, risulta che la regione di accettazione del test è del tipo Ö?À -" Ÿ ? Ÿ -# ×, dove -" e -# vanno scelti in modo tale che <Ð-" Ñ œ <Ð-# Ñ e PrÐ-" Ÿ ;##8 Ÿ -# Ñ œ " α. Tuttavia, tenendo presente la discussione fatta nell'Esempio 4.3.3, questa procedura risulta complessa ed è conveniente invece adottare come regione di accettazione approssimata per il test del rapporto delle verosimiglianze – #8B # , V! œ œÐB" ß á ß B8 ÑÀ ;##8ßαÎ# ;#8ß" αÎ# 5 che è equivalente all'insieme ÐB" ß á ß B8 ÑÀ – #8B ;##8ß"αÎ# 5 – #8B Ÿ. # ;#8ß αÎ# Di conseguenza, – #8B ;##8ß"αÎ# ß – #8B # ;#8ß αÎ# . costituisce un intervallo di confidenza per 5 al livello di confidenza Ð" αÑ. Tenendo presenti i risultati dell'Esempio 3.3.9, si ha che – – – D"αÎ# B ß B – D"αÎ# B B È8 È8 costituisce un intervallo di confidenza per 5 per grandi campioni al livello di confidenza Ð" αÑ. La trasformazione stabilizzatrice della varianza è data da 1Ð5Ñ œ ( Di conseguenza, risulta che " . 5 œ ln 5 . 5 110 La stima per intervalli – D"αÎ# " ß exp ln B – D"αÎ# " exp–ln B — – È8 È8 — è un intervallo di confidenza per 5 per grandi campioni al livello di confidenza Ð" αÑ. Questo intervallo di confidenza seleziona insiemi di valori solo in Ð!ß ∞Ñ, ovvero lo spazio parametrico. L'intervallo per grandi campioni ottenuto in precedenza invece può selezionare valori negativi (e quindi al di fuori dello spazio parametrico) e questo motivo lo rende poco opportuno. Al fine di illustrare i precedenti risultati teorici sono stati considerati i dati della Tavola 5.4.1. In questa tavola sono stati riportati i tempi di rottura in ore (operative) di un campione casuale di 20 componenti elettronici. Tavola 5.4.1. Tempi di rottura (in ore). componente B3 " '#() # $""$ $ &#$' % ""&)% & "#'#) ' ((#& ( )'!% ) "%#'' * '"#& "! *$&! componente "" "# "$ "% "& "' "( ") "* #! B3 $#"# *!!$ $&#$ "#))) *%'! "$$%" "()!* #)"# "")#& #$*) Fonte: Angus (1982). – œ )&'$.&, un intervallo di confidenza al livello di confidenza del Dal momento che si ha B *&% per 5 è dato da – %!B ß – %!B # ;#%!ß!.*(& ;%!ß! .!#& œ Ð&((#.$!#*ß "%!"*.&'$(Ñ . Dalla precedente discussione si ha inoltre che due intervalli di confidenza per 5 approsimativamente al livello del 95% sono dati da – D!.*(& B – – B – D!.*(& B ßB È#! È#! œ Ð%)!*.'"%(ß "#$"(.$)&$Ñ e – D!.*(& " ß exp ln B – D!.*(& " exp–ln B — – È#! È#! — œ Ð&&#%.#'&"ß "$#(%.)!$$Ñ . L'intervallo di confidenza ottenuto con la trasformazione stabilizzatrice della varianza fornisce una migliore approssimazione. 5.4.2. Gli intervalli di confidenza e la distribuzione Uniforme. Dato un campione casuale da \ µ Y Ð!ß $ Ñ, si vuole costruire un intervallo di confidenza per $ . Se si considera il sistema di ipotesi L! À $ œ $! contro L" À $ Á $! , tenendo presente l'Esempio 3.1.4, la determinazione campionaria del rapporto delle verosimiglianze è data da - $!8 IÐ!ß"Ñ ÐBÐ8Ñ Î$! Ñ BÐ8Ñ <œ œŒ 8 - BÐ8Ñ $! 8 IÐ!ß"Ñ Œ BÐ8Ñ $! , Capitolo 5 111 Si noti che < è funzione di BÐ8Ñ Î$! . Dunque, quando L! è vera, BÐ8Ñ Î$! è la determinazione campionaria di una statistica \Ð8Ñ Î$! distribuita come una F/Ð!ß "à 8ß "Ñ (vedi Esempio 1.2.6). È facile verificare che < è una funzione monotona crescente di BÐ8Ñ Î$! e quindi i test costruiti su V / \Ð8Ñ Î$! sono equivalenti. Dal momento che il quantile di ordine α di una F/Ð!ß "à 8ß "Ñ è dato da α"Î8 , la regione di accettazione per il test del rapporto delle verosimiglianze risulta BÐ8Ñ V! œ šÐB" ß á ß B8 ÑÀ α"Î8 "› , $ che è equivalente all'insieme ÖÐB" ß á ß B8 ÑÀ BÐ8Ñ $ BÐ8Ñ α"Î8 × . Di conseguenza, ÐBÐ8Ñ ß BÐ8Ñ α"Î8 Ñ è un intervallo di confidenza per $ al livello di confidenza Ð" αÑ. Non si può ottenere un intervallo per grandi campioni sulla base dei risultati della §5.2.1, dal momento che non risultano verificate le condizioni della §3.3.2. Capitolo 6 L'inferenza multivariata 6.1. Il campionamento con osservazioni multivariate 6.1.1. La matrice campionaria e il modello statistico multivariato. In questo capitolo saranno considerati per semplicità solo i risultati relativi ad un campionamento casuale, anche se i concetti esposti possono essere facilmente estesi a contesti più ampi. Dunque, se invece di 8 realizzazioni indipendenti di una variabile casuale \ , si dispone di 8 realizzazioni indipendenti di un vettore casuale k œ Ð\" ß á ß \. ÑT con funzione di ripartizione congiunta J ÐxÑ, allora l'esperimento produce la cosiddetta matrice campionaria di ordine Ð. ‚ 8Ñ data da Î B"" ã Ï B." dove á ä á B"8 Ñ ã œ Ð x " ß á ß x8 Ñ , B.8 Ò Î B"3 Ñ ã x3 œ , Ï B.3 Ò rappresenta la i-esima osservazione campionaria. La j-esima riga della matrice campionaria, ovvero ÐB4" ß á ß B48 Ñ, costituisce un campione casuale univariato di 8 osservazioni relativo alla variabile casuale \4 . Con considerazioni simili a quelle fatte nella §1.1.1, risulta evidente che prima del rilevamento ogni osservazione campionaria k3 è un vettore casuale la cui distribuzione è identica a quella del vettore casuale k . Di conseguenza, la funzione di ripartizione congiunta di Ðk" ß á ß k8 Ñ risulta J8 Ðx" ß á ß x8 Ñ œ $ J Ðx3 Ñ . 8 3œ" La definizione di modello statistico si estende in modo ovvio alla struttura multivariata. Supponiamo che la funzione di ripartizione J Ðxà )Ñ relativa al vettore casuale k sia specificata a meno di un insieme di parametri ) − @ e che in corrispondenza di J Ðxà )Ñ esista una funzione di densità o di probabilità congiunta 0 Ðxà )Ñ. Dunque, se 08 Ðx" ß á ß x8 à )Ñ è la funzione di densità o di probabilità congiunta relativa a J8 Ðx" ß á ß x8 à )Ñ e se il campionamento è casuale, allora il modello statistico multivariato è dato da 08 À 08 Ðx" ß á ß x8 à )Ñ œ $ 0 Ðx3 à )ÑŸ , 8 Y) œ 3œ" dove ) − @. Infine, lo spazio campionario risulta V8 œ . f8ß) , ) −@ dove f8ß) œ f) ‚ á ‚ f) e f) è il supporto di 0 Ðxà )Ñ. Capitolo 6 113 Esempio 6.1.1. Nella statistica inferenziale univariata esistono numerosi modelli statistici alternativi a quello relativo ad un campionamento casuale da una variabile casuale normale. Come è stato visto nei precedenti capitoli, questi modelli vengono ampiamente applicati e per essi sono disponibili numerose procedure inferenziali ben collaudate e di facile utilizzo. Al contrario, nella statistica multivariata il modello relativo ad un campionamento casuale da un vettore normale multivariato, ovvero da k µ R. Ð.ß DÑ, svolge un ruolo veramente fondamentale e spesso costituisce l'unico modello disponibile. Questo modello può essere espresso come 08 À 08 Ðx" ß á ß x8 à .ß DÑ œ $ detÐ#1DÑ"Î# exp” 8 Y .ßD œ 3œ" " Ðx3 .ÑT D" Ðx3 .Ñ•Ÿ # dove . − ‘. e D !. La notazione D ! serve ad indicare che la matrice D è definita positiva. Dal momento che la matrice di varianza-covarianza contiene solo Ò. Ð. "ÑÎ#Ó parametri distinti, in questo modello sono presenti Ò. . Ð. "ÑÎ#Ó parametri in totale. Inoltre, lo spazio parametrico è dato dal cartesiano di ‘. con lo spazio costituito dall'insieme delle matrici simmetriche definite positive di ordine . . 6.1.2. Il vettore medio campionario e la matrice di varianza-covarianza campionaria. La definizione di statistica data nella §1.2.1 si applica in modo immediato al presente contesto multivariato. Dato un modello statistico Y) , si definisce come statistica un vettore di trasformazioni misurabili a 5 componenti TÀ V8 Ä ‘5 che non dipende da ) , mentre un valore t œ TÐx" ß á ß x8 Ñ è detto realizzazione campionaria di T relativa alla matrice campionaria Ðx" ß á ß x8 Ñ. È opportuno ora considerare in maggiore dettaglio le generalizzazioni multivariate delle statistiche media e varianza campionaria. Si consideri dunque un modello statistico Y) relativo ad un campionamento casuale dal vettore casuale k per cui esistono il vettore medio EÐk Ñ œ . e la matrice di varianza-covarianza VarÐk Ñ œ D. La realizzazione campionaria del vettore medio campionario è data – Î B" Ñ –x œ ã , –. Ò ÏB dove –4 œ " B 8 8 B43 , 3œ" rappresenta la media campionaria relativa alle 8 determinazioni della variabile casuale \4 . Il vettore medio campionario può anche essere scritto come combinazione lineare delle 8 osservazioni campionarie, ovvero –x œ " 8 8 x3 . 3œ" Da un punto di vista probabilistico, –x è dunque una realizzazione del vettore casuale " – k œ 8 8 k3 , 3œ" ottenuto dalla combinazione lineare dei vettori casuali Ðk" ß á ß k8 Ñ. Di conseguenza 114 L'inferenza multivariata 8 " – EÐk Ñ œ 8 EÐk3 Ñ œ . , 3œ" e tenendo presente l'indipendenza dei vettori casuali Ðk" ß á ß k8 Ñ, risulta " – VarÐk Ñ œ # 8 8 VarÐk3 Ñ œ 3œ" " D. 8 – Esempio 6.1.2. Dato un campione casuale da k µ R. Ð.ß DÑ, dal momento che k è una combinazione lineare di vettori casuali indipendenti ed ugualmente distribuiti k3 µ R. Ð.ß DÑ, – in base alla proprietà i) della §A.4.1, si ha k µ R. Ð.ß 8" DÑ, ovvero i risultati ottenuti in questa sezione risultano verificati. La realizzazione campionaria della matrice di varianza-covarianza campionaria è data Î ="" ã Sœ Ï =. " á ä á =". Ñ ã , Ò =.. ovvero una matrice quadrata di ordine . , simmetrica e positiva semidefinita, il cui generico elemento di posto Ð4ß 6Ñ risulta =46 œ " 8 8 –4 ÑÐB63 B –6 Ñ . ÐB43 B 3œ" In altri termini, gli elementi della diagonale di S sono le varianze delle determinazioni di ogni singola variabile casuale, mentre gli altri elementi sono le covarianze tra le determinazioni di ogni coppia di variabili casuali. La matrice S può essere anche espressa come " Sœ 8 8 Ðx3 –xÑÐx3 –xÑT 3œ" e di conseguenza la matrice di varianza-covarianza campionaria è data della matrice casuale fœ " 8 8 – – Ðk3 k ÑÐk3 k ÑT . 3œ" Al fine di derivare le proprietà della matrice di varianza-covarianza campionaria, risulta conveniente esprimere S nel modo seguente Sœ œ " 8 " 8 8 3œ" 8 ÒÐx3 .Ñ Ð–x .ÑÓÒÐx3 .Ñ Ð–x .ÑÓT Ðx3 .ÑÐx3 .ÑT Жx .ÑЖx .ÑT . 3œ" Dunque, la matrice di varianza-covarianza campionaria è data da fœ Di conseguenza si ha " 8 8 3œ" – – Ðk3 .ÑÐk3 .ÑT Ðk .ÑÐk .ÑT . Capitolo 6 115 EÐf Ñ œ " 8 " œ 8 8 – – EÖÐk3 .ÑÐk3 .ÑT × EÖÐk .ÑÐk .ÑT × 3œ" 8 3œ" 81 – VarÐk3 Ñ VarÐk Ñ œ D. 8 Esempio 6.1.3. Dato un campione casuale da k µ R. Ð.ß DÑ, si consideri i vettori scarto – W 3 œ k3 k œ 8 -34 k4 , 4œ" dove le costanti -34 sono definite nell'Esempio 1.2.5. Dal momento che – k œ 8 . 4 k4 , 4œ" dove di nuovo le costanti .4 sono definite nell'Esempio 1.2.5, in analogia con il medesimo – esempio sulla base della proprietà ii) della §A.4.1, i vettori casuali W3 e k sono indipendenti. Di conseguenza, essendo " fœ 8 8 W3 W3T , 3œ" – una trasformata dei vettori scarto, allora anche f e k sono indipendenti. Inoltre, dall'espressione della matrice di varianza-covarianza si ottiene 8 – – Ðk3 .ÑÐk3 .ÑT œ 8f 8Ðk .ÑÐk .ÑT . 3œ" Tenendo presente che k3 µ R. Ð.ß DÑ sono indipendenti, dalla §A.4.2 si ha 8 Ðk3 .ÑÐk3 .ÑT µ [. ÐDß 8Ñ , 3œ" – mentre, essendo k µ R. Ð.ß 8" DÑ, si ha – – 8Ðk .ÑÐk .ÑT µ [. ÐDß "Ñ . – Dal momento che f e k sono indipendenti, per la proprietà i) della §A.4.2, si deve concludere che 8f µ [. ÐDß 8 "Ñ . Dunque i risultati di questa sezione sono confermati, dal momento che in base alla §A.4.2 si ha EÐf Ñ œ " 81 EÐ8f Ñ œ D. 8 8 6.1.3. La funzione di verosimiglianza con matrici campionarie. Dato un modello statistico Y) relativo ad un campionamento casuale, una volta che la matrice campionaria Ðx" ß á ß x8 Ñ è stata osservata, è immediato estendere il concetto di funzione di verosimiglianza al caso multivariato. Di nuovo la funzione di verosimiglianza è la funzione PÀ @ Ä ‘ ∪ Ö!× data da 116 L'inferenza multivariata PÐ)Ñ œ PÐ)à x" ß á ß x8 Ñ œ -08 Ðx" ß á ß x8 à )Ñ œ - $ 0 Ðx3 à )Ñ , ) − @ , 8 3œ" mentre la funzione di log-verosimiglianza è data da 8 6Ð)Ñ œ 6Ð)à x" ß á ß x8 Ñ œ ln - ln 0 Ðx3 à )Ñ , ) − @ . 3œ" Esempio 6.1.4. Dato un campione casuale da k µ R. Ð.ß DÑ, la verosimiglianza risulta PÐ.ß DÑ œ - $ detÐ#1D)"Î# expœ 8 3œ" œ - detÐDÑ8Î# exp " # 8 3œ" " Ðx3 .ÑT D" Ðx3 .Ñ # Ðx3 .ÑT D" Ðx3 .ÑŸ , . − ‘. ß D ! . Si ha 8 8 T " trÒD" Ðx3 .ÑÐx3 .ÑT Ó Ðx3 .Ñ D Ðx3 .Ñ œ 3œ" 3œ" œ tr–D" 8 3œ" Ðx3 .ÑÐx3 .ÑT — œ trÖD Ò8S 8Жx .ÑЖx .ÑT Ó× œ 8 trÐD" SÑ 8 trÒD" Жx .ÑЖx .ÑT Ó œ 8 trÐD" SÑ 8Жx .ÑT D" Жx .Ñ , " dove si è tenuta presente la relazione ottenuta nella §6.1.2. Dunque, risulta infine 8 8 PÐ.ß DÑ œ - detÐDÑ8Î# exp’ trÐD" S) Жx .ÑT D" Жx .Ñ“ . # # Inoltre, la log-verosimiglianza è data da 8 8 8 6Ð.ß DÑ œ ln - ln detÐDÑ trÐD" SÑ Ð–x .ÑT D" Жx .Ñ . # # # 6.2. La stima per punti con osservazioni multivariate 6.2.1. Gli stimatori con matrici campionarie e le relative proprietà. I concetti considerati nel Capitolo 2 si estendono in modo ovvio al contesto multivariato. Dunque, dato un modello statistico Y) relativo ad un campionamento casuale, il procedimento di stima per punti fa corrispondere ad ogni matrice campionaria Ðx" ß á ß x8 Ñ − V8 un valore ) − @ per mezzo dello stimatore, che risulta di nuovo definito come ~ K À V8 Ä @ . Di conseguenza, la realizzazione campionaria dello stimatore, ovvero la stima, è data da ~ ~ ) œ KÐx" ß á ß x8 Ñ. Per quanto riguarda le condizioni di regolarità date nella §2.1.2, se si considera un modello statistico Y) relativo ad un campionamento casuale, la condizione a) si riduce a richiedere che le distribuzioni 0 Ðxà )Ñ specificate dal modello statistico siano distinte per valori distinti di ) − @, Capitolo 6 117 mentre la condizione b) rimane inalterata. Inoltre, la condizione c) si riduce all'esistenza delle derivate ` 0 Ðxà )Ñ `) e `# 0 Ðxà )Ñ ` )` )T per ogni ) − @ e per ogni x − f) (a meno di insiemi di probabilità nulla), mentre la condizione d) risulta ( ` ` 0 Ðxà )Ñ . / œ ( 0 Ðxà )Ñ . / ` ) f) f) ` ) e ( `# `# x / 0 Ð à ) Ñ . œ ( 0 Ðxà )Ñ . / . T ` ) ` ) T f) f) ` ) ` ) La definizione di correttezza e di coerenza di una stimatore rimangono inalterate nel contesto ~ multivariato, ovvero si dice che lo stimatore K è corretto per ) se ~ EÐKÑ œ ) , per ogni ) − @, mentre se Y8ß) è un modello statistico per ogni 8, allora si dice che lo stimatore ~ K8 è coerente per ) se ~ : K 8 Ä )! , dove )! è il vero valore del parametro nella popolazione. In modo ovvio si può estendere anche il concetto di vettore di funzioni punteggio, ovvero nel caso di campionamento casuale si ha 8 s 8 Ð ) à x" ß á ß x8 Ñ œ s 8 Ð ) Ñ œ sÐ)à x3 Ñ , 3œ" dove sÐ) à x3 Ñ œ sÐ)Ñ œ ` ln 0 Ðx3 à )Ñ , `) è il vettore delle funzioni punteggio relative all'i-esima osservazione campionaria. In questo caso la matrice di informazione di Fisher può essere espressa come I8 Ð) Ñ œ 8VarÒsÐ)à k ÑÓ œ 8E” ` sÐ)à k Ñ• œ 8IÐ)Ñ , `) dove IÐ) Ñ œ VarÒsÐ)à k ÑÓ è la matrice di informazione di Fisher relativa ad una sola ´ risulta dunque osservazione campionaria. Il limite inferiore di Rao-Cramer " ~ VarÐKÑ IÐ)Ñ" , 8 ~ per cui l'efficienza di uno stimatore K corretto per ) è data da ~ ~ effÐKÑ œ detÒVarÐKÑI8 Ð)ÑÓ" . 118 L'inferenza multivariata ~ Per quanto riguarda la sufficienza nel contesto multivariato, uno stimatore K è detto sufficiente per ) se per ogni Ðx" ß á ß x8 Ñ − V8 e Ðy" ß á ß y8 Ñ − V8 si ha ~ ~ KÐx" ß á ß x8 Ñ œ KÐy" ß á ß y8 Ñ Ê PÐ)à x" ß á ß x8 Ñ º PÐ)à y" ß á ß y8 Ñ per ogni ) − @. In questo caso il criterio di fattorizzazione di Neyman richiede che ~ 08 Ðx" ß á ß x8 à )Ñ œ 28 Ðx" ß á ß x8 Ñ1Ð)à )Ñ . Esempio 6.2.1. Dato un campione casuale da k µ R. Ð.ß I. Ñ, ovvero data una versione ridotta del modello statistico dell'Esempio 6.1.1, allora risulta 08 À 08 Ðx" ß á ß x8 à .Ñ œ $ Ð#1Ñ8Î# exp” 8 Y. œ 3œ" " Ðx3 .ÑT Ðx3 .Ñ•Ÿ . # dove . − ‘. . In questo caso la verosimiglianza è data da 8 PÐ.Ñ œ - exp’ Жx .ÑT Жx .Ñ“ , # per cui il vettore delle funzioni punteggio risulta s 8 Ð . à x" ß á ß x8 Ñ œ ` 8 ’ln - Жx .ÑT Жx .Ñ“ œ 8Жx .Ñ , `. # mentre la matrice d'informazione di Fisher è data da I8 Ð.Ñ œ Eœ ` – Ò8Ðk .ÑÓ T `. œ 8 I. . ´ risulta Di conseguenza, il limite inferiore di Rao-Cramer ~Ñ VarÐ. " I. , 8 – – – per cui essendo EÐk Ñ œ . e VarÐk Ñ œ 8" I. in base ai risultati della §6.1.2, allora k è uno stimatore efficiente per .. Inoltre è immediato verificare mediante il criterio di fattorizzazione – che k è anche sufficiente. 6.2.2. Gli stimatori di massima verosimiglianza con matrici campionarie. Se si considera un modello statistico Y) relativo ad un campionamento casuale, data la matrice campionaria Ðx" ß á ß x8 Ñ si dice stima di massima verosimiglianza di ) quel valore s ) − @ tale che PÐs )Ñ œ max PÐ)Ñ , )−@ che costituisce ovviamente una condizione equivalente a 6Ðs )Ñ œ max 6Ð)Ñ . )−@ sÐx" ß á ß x8 Ñ dello La stima di massima verosimiglianza è la realizzazione campionaria s )œK s. Inoltre, se ) può essere ripartito in due componenti stimatore di massima verosimiglianza K T T T ) œ Ð)E ß )F Ñ , tali che )E − @E e )F − @F , la verosimiglianza profilo relativa a )E risulta P: Ð)E Ñ œ P: Ð)E à x" ß á ß x8 Ñ œ max PÐ)E ß )F Ñ . )F −@F Capitolo 6 119 Supponiamo ora che siano soddisfatte le condizioni di regolarità sul modello statistico e che per semplicità lo stima di massima verosimiglianza coincida con l'unica soluzione ottenuta dall'equazione di verosimiglianza s 8 Ð ) à x" ß á ß x8 Ñ œ ` 6Ð)à x" ß á ß x8 Ñ œ ! . `) In questo caso, sulla base dei risultati si può facilmente dimostrare che lo stimatore di massima verosimiglianza è coerente per ), ovvero si ha : s8 Ä K )! , dove )! è il vero valore del parametro nella popolazione. Inoltre, se l'informazione di Fisher IÐ) Ñ è definita positiva, allora si ha anche . s 8 )! Ñ Ä È8ÐK R5 Ö!ß IÐ)! Ñ" × . Esempio 6.2.2. Dato un campione casuale da k µ R. Ð.ß DÑ, si vuole determinare la stima di massima verosimiglianza di . e D. Dall'Esempio 6.1.4 si ha 8 8 8 6Ð.ß DÑ œ ln - ln detÐDÑ trÐD" SÑ Ð–x .ÑT D" Жx .Ñ # # # 8 8 " Ÿ ln - ln detÐDÑ trÐD SÑ œ 6Жxß DÑ œ max 6Ð.ß DÑ . # # .−‘. Nella precedente espressione si è tenuto presente che D !, per cui anche D" !, in modo tale che la forma quadratica Жx .ÑT D" Жx .Ñ è definita positiva e quindi raggiunge il minimo quando . œ –x. Per D ! si ha ln detÐDÑ trÐD" DÑ Ÿ ln detÐDÑ . , dove D ! è una matrice quadrata di costanti di ordine . . Al fine di dimostrare la precedente disugualianza, si noti che dalle assunzioni fatte si ha anche D" D !, per cui la matrice D" D ha autovalori Ðα" ß á ß α. Ñ tali che α4 !. Dunque ln detÐDÑ trÐD" DÑ œ ln detÐDÑ ln detÐDÑ ln detÐDÑ trÐD" DÑ œ ln detÐDÑ ln detÐD" DÑ trÐD" DÑ œ ln detÐDÑ ln $ α4 . . 4œ" 4œ" α4 . œ ln detÐDÑ Ðln α3 α3 Ñ Ÿ ln detÐDÑ . , 4œ" dove si è tenuto presente che ln α4 α4 Ÿ " . Adoperando la disugualianza con D œ S, si ha 8 8 6Жxß DÑ œ ln - ln detÐDÑ trÐD" SÑ # # 8 8. Ÿ ln - ln detÐSÑ œ 6Жxß SÑ œ max 6Ð.ß DÑ . # # .−‘. ßD! 120 L'inferenza multivariata Dunque Жxß SÑ costituisce la stima di massima verosimiglianza di Ð.ß DÑ, per cui lo stimatore di – massima verosimiglianza è dato da Ðk ß f Ñ. Tenendo presente i risultati dell'Esempio 6.1.3 si ha – – inoltre che k µ R. Ð.ß 8" DÑ e 8f µ [. ÐDß 8 "Ñ e che k e f sono indipendenti. Si può – verificare che Ðk ß f Ñ è asintoticamente corretto, coerente e sufficiente. Esempio 6.2.3. Dato un campione casuale da k µ R. Ð.ß DÑ, si vuole determinare la stima di massima verosimiglianza degli autovalori e degli autovettori di D. Dunque, se D œ >A>T dove > è una matrice ortogonale di ordine . e A œ diagÐ-" ß á ß -. Ñ, supponendo senza perdita di generalità che -" á -. , allora l'obiettivo è quello di ottenere la stima di massima verosimiglianza di A e >. Nel caso in cui tutti gli autovalori sono distinti, ovvero se -" Á á Á -. , allora la rappresentazione di D è unica e gli autovalori e gli autovettori sono funzioni biunivoche di D. Di conseguenza, a meno di matrici campionarie di probabilità nulla, la matrice di varianzacovarianza campionaria ammette una rappresentazione unica S œ GLGT , dove G è una matrice ortogonale di ordine . , mentre L œ diagÐ6" ß á ß 6. Ñ e Ð6" ß á ß 6. Ñ sono gli autovalori campionari di S che senza perdita di generalità possono essere scelti come 6" á 6. . In base alla proprietà di equivarianza della stima di massima verosimiglianza, allora le stime di massima verosimiglianza di A e > risultano rispettivamente L e G. Quando invece solo i primi / autovalori sono distinti, ovvero se -" Á á Á -/ e -/" œ á œ -. œ -, allora la rappresentazione di D non è unica e la proprietà di equivarianza non può essere applicata. In questo caso, tenendo presente l'Esempio 6.1.4, la logverosimiglianza può essere espressa come 8 8 8 6Ð.ß Aß >Ñ œ ln - ln detÐAÑ trÐ>A" >T GLGT Ñ Ð–x .ÑT >A" >T Жx .Ñ # # # e massimizzando in maniera analoga all'Esempio 6.2.1 si ha 8 8 6Ð.ß Aß >Ñ Ÿ ln - ln detÐAÑ trÐ>A" >T GLGT Ñ œ 6Жxß Aß >Ñ œ max 6Ð.ß Aß >Ñ . # # .−‘. Si ha A œ diagÐA" ß -I./ Ñ con A" œ diagÐ-" ß á ß -/ Ñ. Inoltre, sia >" la matrice di ordine Ð. ‚ /Ñ costituita dai primi / autovettori di > e sia ># la matrice di ordine Ò. ‚ Ð. /ÑÓ costituita dai restanti Ð. /Ñ autovettori di >. Analogamente, sia L" œ diagÐ6" ß á ß 6/ Ñ, sia G" la matrice di ordine Ð. ‚ /Ñ costituita dai primi / autovettori di G e sia G# la matrice di ordine Ò. ‚ Ð. /ÑÓ costituita dai restanti Ð. /Ñ autovettori di G. Di conseguenza, dalla precedente espressione si ha 8 8 " T T 6Жxß Aß >Ñ œ ln - ln detÒdiagÐA" ß -I./ ÑÓ trÒ>diagÐA" " ß - I. / Ñ> GLG Ó # # 8 8Ð. /Ñ œ ln - ln detÐA" Ñ ln # # 8 8 T T trÒ>diagÐA" trÒ>diagÐ!ß I./ Ñ>T GLGT Ó " ß !Ñ> GLG Ó # #8 8Ð. /Ñ œ ln - ln detÐA" Ñ ln # # 8 8 T T trÐ>" A" trÒdiagÐ!ß I./ ÑGLGT Ó . " >" GLG Ñ # #Dal momento che risulta – trÒdiagÐ!ß I./ ÑGLGT Ó œ trÒGT diagÐ!ß I./ ÑGLÓ œ trÒdiagÐ!ß I./ ÑLÓ œ Ð. /Ñ6 , – dove 6 œ Ð. /Ñ" . 4œ/" 64 , allora si ha Capitolo 6 121 – 8 8 8Ð. /Ñ 8Ð. /Ñ6 " T T – 6Ðxß Aß >Ñ œ ln - ln detÐA" Ñ trÐA" >" GL G>" Ñ ln - . # # # #s# di ordine La precedente espressione non dipende da ># e quindi qualsiasi matrice > Ò. ‚ Ð. /ÑÓ le cui colonne sono ortogonali costituisce la stima di massima verosimiglianza di s# œ G# . Inoltre, tenendo presente che gli ># anche se solitamente per convenzione si adotta > " elementi sulla diagonale di A" sono in ordine decrescente, quelli sulla diagonale di L sono in ordine crescente e che GT >" è una matrice le cui colonne sono ortogonali, allora T T " trÐA" " >" GLG >" Ñ trÐA" L" Ñ , e l'identità viene ottenuta quando >" œ G" (vedi Muirhead, 1982). Dunque, – 8 8 8Ð. /Ñ 8Ð. /Ñ6 6Жxß Aß >Ñ Ÿ ln - ln detÐA" Ñ trÐA" L Ñ ln " " # # # #sÑ œ max 6Ð.ß Aß >Ñ , œ 6Жxß Aß > .−‘. ß>− s œ Ð G" ß > s# Ñ, mentre rappresenta il gruppo delle matrici ortogonali di ordine . . dove > Applicando opportunamente alla precedente espressione la disugualianza ottenuta nell'Esempio – 6.2.2 e quella ottenuta nell'Esempio 3.1.2 rispettivamente con D œ L" e . œ 6, si ha sÑ Ÿ ln - 8 ln detÐL" Ñ 8/ 8Ð. /Ñ ln–6 8Ð. /Ñ 6Жxß Aß > # # # # 8 8Ð. /Ñ – 8. ln 6 œ ln - ln detÐL" Ñ # # # 8 8 . – œ ln - ln detÒdiagÐL" ß 6 I./ ÑÓ # # sß > sÑ œ œ 6Жxß A max 6Ð.ß Aß >Ñ , .−‘. ßA−ƒ" ß>− s œ diagÐL" ß–6 I./ Ñ, mentre ƒ" rappresenta il gruppo delle matrici diagonali di ordine . i dove A cui ultimi Ð. /Ñ elementi sulla diagonale sono uguali. Dunque, si deve concludere che le stime di massima verosimiglianza dei primi / autovalori di D sono date dai primi / autovalori di S, – mentre la stima dei restanti Ð. /Ñ autovalori coincidenti di D è data dalla media aritmetica 6 dei corrispondenti autovalori di S. Inoltre, le stime di massima verosimiglianza dei primi / autovettori di D sono date dai primi / autovettori di S, mentre le stime di massima verosimiglianza dei restanti Ð. /Ñ autovettori non sono uniche, anche se solitamente per convenzione si adottano gli ultimi Ð. /Ñ autovettori di S. Infine, si noti che risulta molto complicato determinare la distribuzione degli stimatori di massima verosimiglianza degli autovalori e degli autovettori (vedi Muirhead, 1982). 6.3. La verifica di ipotesi con osservazioni multivariate 6.3.1. Il test del rapporto delle verosimiglianze con matrici campionarie. Si consideri un modello statistico Y) relativo ad un campionamento casuale e il sistema di ipotesi L! À ) − @! contro L" À ) − @" . Il test del rapporto delle verosimiglianze è basato sulla statistica test V la cui realizzazione campionaria è data da max PÐ)à x" ß á ß x8 Ñ <œ ) −@! max PÐ)à x" ß á ß x8 Ñ ) −@ La regione critica del test è data da g" œ Ö<À < Ÿ <α ×, dove . 122 L'inferenza multivariata sup Pr) ÐV Ÿ <α Ñ œ α , ) −@! mentre, avendo osservato il valore campionario <, il livello di significatività osservato del test è dato da α9== œ sup Pr) ÐV Ÿ <Ñ . ) −@! Se inoltre si considera il sistema di ipotesi L! À ) œ )! contro L" À ) Á )! , supponendo verificate le condizioni della §4.2.3 per ottenere la normalità per grandi campioni degli stimatori di massima verosimiglianza, allora se L! è vera risulta . # ln V8 Ä ;#5 . Di conseguenza, la regione critica per grandi campioni del test basato sul rapporto delle verosimiglianze è data da g8ß" œ Ö<À # ln < ;#5ß"α × , mentre, per un dato valore campionario <, il livello di significatività osservato per grandi campioni risulta α8ß9== œ PrÐ;#5 # ln <Ñ . T T Se si suppone infine che ) œ Ð)ET ß )F Ñ , dove )E è un vettore a Ð5 2Ñ componenti e )F è un vettore a 2 componenti e si considera il sistema di ipotesi L! À )E œ )!E contro L" À )E Á )!E , allora se L! è vera risulta . # ln V8 Ä ;#52 . Dunque, la regione critica per grandi campioni del test basato sul rapporto delle verosimiglianze è data da g8ß" œ Ö<À # ln < ;#52ß"α × , mentre per un dato valore campionario <, il livello di significatività osservato per grandi campioni risulta α8ß9== œ PrÐ;#52 # ln <Ñ . Nelle prossime sezioni vengono considerate alcune applicazioni del test del rapporto delle verosimiglianze quando si dispone di matrici campionarie provenienti da popolazioni Normali multivariate. 6.3.2. Il test di Hotelling. Dato un campione casuale da k µ R. Ð.ß DÑ, si supponga di voler verificare il sistema di ipotesi L! À . œ .! contro L" : . Á .! . Si ha @ œ ÖÐ.ß DÑÀ . − ‘. ß D !× e @! œ ÖÐ.ß DÑÀ . œ .! ß D !× . Dai risultati dell'Esempio 6.2.2, è immediato ricavare che max 6Ð.ß DÑ œ 6Жxß SÑ . Ð.ßDÑ−@ Inoltre, si ha Capitolo 6 123 8 ln detÐDÑ # 8 œ ln - ln detÐDÑ # 8 œ ln - ln detÐDÑ # 6Ð.! ß DÑ œ ln - 8 8 trÐD" SÑ Ð–x .! ÑT D" Жx .! Ñ # # 8 8 " trÐD SÑ trÒD" Жx .! ÑЖx .! ÑT Ó # # 8 " trÖD ÒS Жx .! ÑЖx .! ÑT Ó× , # per cui adoperando nella precedente espressione la disugualianza ottenuta nell'Esempio 6.2.2 con D œ S Жx .! ÑЖx .! ÑT , si ottiene 8 8. ln detÒS Жx .! ÑЖx .! ÑT Ó # # œ 6Ò.! ß S Жx .! ÑЖx .! ÑT Ó œ max 6Ð.ß DÑ . 6Ð.! ß DÑ Ÿ ln - Ð.ßDÑ−@! Tenendo presente che per le proprietà dei determinanti si ha detÒS Жx .! ÑЖx .! ÑT Ó œ detÐSÑÒ" Жx .! ÑT S" Жx .! ÑÓ allora 8 8. 6Ò.! ß S Жx .! ÑЖx .! ÑT Ó œ ln - lnÖdetÐSÑÒ" Жx .! ÑT S" Жx .! ÑÓ× # # 8 8 2 8. , œ ln - ln detÐSÑ lnŒ" # # 8" # dove 2 œ Ð8 "ÑЖx .! ÑT S" Жx .! Ñ. Di conseguenza, la determinazione campionaria di V risulta < œ expÖ6Ò.! ß S Жx .! ÑЖx .! ÑT Ó 6Жxß SÑ× œ Œ" 2 8" 8Î# . Se L! è vera, 2 è la determinazione campionaria di una statistica L distribuita come una X.ß8" di Hotelling dal momento che – – – – L œ Ð8 "ÑÐk .! ÑT f " Ðk .! Ñ œ Ð8 "ÑÈ8Ðk .! ÑT Ð8f Ñ" È8Ðk .! Ñ – e che inoltre È8Ðk .! Ñ µ R. Ð!ß DÑ e 8f µ [. ÐDß 8 "Ñ sono indipendenti. Tenendo presente le proprietà della X di Hotelling date nella §A.4.2 si ha inoltre Lµ Ð8 "Ñ. J.ß8. . 8. Si noti che < è una funzione monotona decrescente di 2 e quindi i test costruiti su V e L sono equivalenti. Dal momento che rifiutare L! per piccole determinazioni di V è equivalente a rifiutare L! per determinazioni elevate di L , la regione critica del test risulta di conseguenza g" œ œ2À 2 Ð8 "Ñ. J.ß8.ß"α 8. . Se si è osservato il valore campionario 2 , il livello di significatività osservato risulta infine α9== œ PrœJ.ß8. 8. 2 Ð8 "Ñ. . Anche se la distribuzione della statistica test è nota per campioni finiti, per grandi campioni quando L! è vera la quantità 124 L'inferenza multivariata # ln < œ 8 lnŒ" 2 8" , . è la determinazione di una statistica # ln V8 Ä ;#. , in quanto vi sono Ò. . Ð. "ÑÎ#Ó parametri in totale, di cui Ò. Ð. "ÑÎ#Ó da stimare sotto ipotesi di base. Questa struttura di verifica di ipotesi può essere impiegata quando si dispone di dati appaiati, in maniera analoga a quanto visto nella §4.3.6. Si supponga di considerare due matrici campionarie Ðx"" ß á ß x"8 Ñ e Ðx#" ß á ß x#8 Ñ, relative ad un gruppo di 8 soggetti su cui sono state osservate . variabili casuali prima e dopo un trattamento. Analogamente alla §4.3.6, l'obiettivo è quello di valutare l'efficacia del trattamento. Dunque, si costruisce la nuova matrice campionaria Ðd" ß á ß d8 Ñ, dove d3 œ x#3 x"3 , e si suppone che provenga da W µ R Ð.ß DÑ. La verifica dell'efficacia del trattamento si riduce a considerare il sistema di ipotesi L! À . œ ! contro L" À . Á ! e di conseguenza possono essere applicate le procedure di verifica di ipotesi discusse in questa sezione. Esempio 6.3.1. Per confrontare due tipi di vernice anticorrosione, sono stati verniciati 15 pezzi di tubo di uguale lunghezza con la prima vernice e altri 15 sempre di uguale lunghezza con la seconda vernice. Successivamente, i tubi sono stati sepolti per un certo tempo a coppie di due in 15 differenti locazioni. Su ogni tubo sono state rilevate successivamente due variabili legate alla corrosione, ovvero la massima profondità delle macchie di corrosione e il numero di tali macchie, e le relative osservazioni sono state riportate nella Tavola 6.3.1. Tavola 6.3.1. Massima profondità (in millesimi di pollice) e numero di macchie di corrosione. prima vernice locazione profondità numero " ($ $" # %$ "* $ %( ## % &$ #' & &) $' ' %( $! ( &# #* ) $) $' * '" $% "! &' $$ "" &' "* "# $% "* "$ && #' "% '& "& "& (& ") seconda vernice profondità numero &" $& %" "% %$ "* %" #* %( $% $# #' #% "* %$ $( &$ #% &# #( &( "% %% "* &( $! %! ( ') "$ differenza profondità numero ## % # & % $ "# $ "" # "& % #) "! & " ) "! % ' " & "! ! # % #& ) ( & Fonte: Kramer e Jensen (1969) Si vuole determinare se le due vernici sono ugualmente efficaci nel prevenire la corrosione, ovvero si vuole verificare il sistema di ipotesi L! À . œ ! contro L" À . Á !. Dal momento che per questi dati si può verificare che )Þ!!!! – dœŒ $Þ!''( e SœŒ ""$Þ%''( "&Þ*$$$ "&Þ*$$$ #!Þ$#)* , allora si ha 2 œ "!Þ)")*. Dunque il livello di significatività osservato risulta Capitolo 6 125 α9== œ PrÐJ#ß"$ &Þ!#$"Ñ œ !Þ!#%# . Dato che la significatività osservata è piuttosto bassa, si deve concludere che le due vernici hanno diverse prestazioni, dal momento che si può respingere L! ad ogni livello di significatività α !Þ!#%#. Si ha inoltre # ln < œ )Þ&))# e dunque α8ß9== œ PrÐ;## )Þ&))#Ñ œ !Þ!"$' , un risultato che conferma le conclusioni precedenti. 6.3.3. Il test per la verifica di una matrice di varianza-covarianza diagonale a blocchi. Dato un campione casuale da k µ R. Ð.ß DÑ, si supponga di voler verificare il sistema di ipotesi L! À D œ D! œ diagÐD"" ß D## Ñ contro L" : D !, dove D"" è la matrice di varianza-covarianza relativa alle prime / componenti Ð\" ß á ß \/ Ñ del vettore casuale k , mentre D## è la matrice di varianza-covarianza relativa alle restanti Ð. /Ñ componenti Ð\/ ß \/" ß á ß \. Ñ del vettore casuale k . Questa ipotesi di base implica l'indipendenza dei due gruppi di componenti. Si ha @ œ ÖÐ.ß DÑÀ . − ‘. ß D !× e @! œ ÖÐ.ß DÑÀ . − ‘. ß D œ D! œ diagÐD"" ß D## Ñ× . Dai risultati dell'Esempio 6.2.2, è immediato ricavare che max 6Ð.ß DÑ œ 6Жxß SÑ . Ð.ßDÑ−@ Inoltre, si ha 8 ln detÐD! Ñ # 8 Ÿ ln - ln detÐD! Ñ # 6Ð.ß D! Ñ œ ln - 8 8 – trÐD" Ðx .ÑT D" Жx .Ñ ! SÑ # # 8 – trÐD" ! SÑ œ 6Ðxß D! Ñ œ max. 6Ð.ß D! Ñ , # .−‘ dal momento che Жx .ÑT D" Жx .Ñ ! (vedi Esempio 6.2.2). Tenendo presente che SœŒ S"" S#" S"# S## , dove S"" è la matrice di varianza-covarianza campionaria relativa alle prime / componenti del vettore casuale k , S## è la matrice di varianza-covarianza campionaria relativa alle restanti Ð. /Ñ componenti, mentre S"# œ ST#" è la matrice delle covarianze fra le prime / componenti e le restanti Ð. /Ñ componenti, allora 8 8 6Жxß D! Ñ œ ln - ln detÒdiagÐD"" ß D## ÑÓ trÒdiagÐD"" ß D## Ñ" SÓ # # 8 8 " œ ln - lnÒdetÐD"" ÑdetÐD## ÑÓ trÒdiagÐD" "" S"" ß D## S## ÑÓ # # 8 8 8 8 " œ ln - ln detÐD"" Ñ trÐD"" S"" Ñ ln detÐD## Ñ trÐD" ## S## Ñ . # # # # Adoperando nella precedente espressione due volte la disugualianza ottenuta nell'Esempio 6.2.2, rispettivamente con D œ S"" e D œ S## , si ottiene 126 L'inferenza multivariata 8 8/ 8 8Ð. /Ñ 6Жxß D! Ñ Ÿ ln - ln detÐS"" Ñ ln detÐS## Ñ # # # # 8 8. œ ln - ln detÒdiagÐS"" ß S## ÑÓ œ 6Ò–xß diagÐS"" ß S## ÑÓ œ max 6Ð.ß DÑ . # # Ð.ßDÑ−@! Di conseguenza, la determinazione campionaria di V risulta < œ expÖ6Ò–xß diagÐS"" ß S## ÑÓ 6Жxß SÑ× œ ” detÐS) • detÐS"" ÑdetÐS## Ñ 8Î# œ -8Î# , dove -œ detÐS) . detÐS"" ÑdetÐS## Ñ Per le proprietà dei determinanti si ha detÐSÑ œ detÐS"" ÑdetÐS## S#" S" "" S"# Ñ , da cui -œ detÐS## S#" S" detÐEÑ "" S"# Ñ œ , detÐS## Ñ detÐE HÑ " dove E œ 8ÐS## S#" S" "" S"# Ñ e H œ 8S#" S"" S"# . Dal momento che 8f µ [. ÐDß 8 "Ñ, allora per la proprietà ii) della §6.3.6, E e H sono le determinazioni campionarie di due matrici casuali X µ [./ ÐD## ß 8 " /Ñ e [ µ [./ ÐD## ß /Ñ indipendenti. Dunque, se L! è vera, è la determinazione campionaria della statistica Lœ detÐX Ñ , detÐX [Ñ distribuita come una L./ß8"/ß/ di Wilks. Inoltre, < è una funzione monotona crescente di - e quindi i test costruiti su V e L sono equivalenti. Dal momento che rifiutare L! per piccole determinazioni di V è equivalente a rifiutare per piccole determinazioni di L, la regione critica del test è data da g" œ Ö-À - Ÿ L./ß8"/ß/ßα × . Se si è osservato il valore campionario -, il livello di significatività osservato risulta infine α9== œ PrÐL./ß8"/ß/ Ÿ -Ñ . Anche se la distribuzione della statistica test è nota per campioni finiti, per grandi campioni, quando L! è vera, la quantità # ln < œ 8 ln” detÐS"" ÑdetÐS## Ñ •, detÐS) . è la determinazione di una statistica # ln V8 Ä ;#/Ð./Ñ , in quanto vi sono Ò. . Ð. "ÑÎ#Ó parametri in totale, di cui Ò. /Ð/ "ÑÎ# Ð. /ÑÐ. / "ÑÎ#Ó da stimare sotto ipotesi di base. Di conseguenza, la regione critica per grandi campioni è data da g8ß" œ Ö<À # ln < ;/#Ð./Ñß"α × , mentre la significatività osservata per grandi campioni risulta Capitolo 6 127 α8ß9== œ PrÐ;/#Ð./Ñ # ln <Ñ . Esempio 6.3.2. Sono state considerate 25 famiglie in cui erano presenti coppie di fratelli. Su ogni fratello di ogni coppia sono state rilevate la lunghezza e il diametro della testa, ottenendo le osservazioni della Tavola 6.3.1. Tavola 6.3.2. Lunghezza e diametro della testa di fratelli (in cm). famiglia " # $ % & ' ( ) * "! "" "# "$ "% "& "' "( ") "* #! #" ## #$ #% #& primo fratello lunghezza diametro "*" "&& "*& "%* ")" "%) ")$ "&$ "(' "%% #!) "&( ")* "&! "*( "&* ")) "&# "*# "&! "(* "&) ")$ "%( "(% "&! "*! "&* ")) "&" "'$ "$( "*& "&& ")' "&$ ")" "%& "(& "%! "*# "&% "(% "%$ "(' "$* "*( "'( "*! "'$ secondo fratello lunghezza diametro "(* "%& #!" "&# ")& "%* ")) "%* "(" "%# "*# "&# "*! "%* ")* "&# "*( "&* ")( "&" ")' "%) "(% "%( ")& "&# "*& "&( ")( "&) "'" "$! ")$ "&) "($ "%) ")# "%' "'& "$( ")& "&# "() "%( "(' "%$ #!! "&) ")( "&! Fonte: Frets (1921) Si vuole verificare se le misurazioni relative al primo fratello sono indipendenti dalle quelle relative al secondo fratello, ovvero si vuole verificare il sistema di ipotesi L! À D œ diagÐD"" ß D## Ñ contro L" : D !, dove D"" è la matrice di varianza-covarianza relativa alle componenti Ð\" ß \# Ñ, mentre D## è la matrice di varianza-covarianza relativa alle restanti componenti Ð\$ ß \% Ñ. Risulta Î ")&Þ(# Ñ "&"Þ"# Ó –x œ Ð Ð Ó. ")$Þ)% Ï "%*Þ#% Ò e Inoltre si ha Î *"Þ%)"' Ð &!Þ(&$' SœÐ ''Þ)(&# Ï %%Þ#'(# &!Þ(&$' &#Þ")&' %*Þ#&*# $$Þ'&"# ''Þ)(&# %*Þ#&*# *'Þ((%% &%Þ#()% %%Þ#'(# Ñ $$Þ'&"# Ó Ó. &%Þ#()% %$Þ##%% Ò 128 L'inferenza multivariata S"" œ Œ *"Þ%)"' &!Þ(&$' &!Þ($$' &#Þ")&) *'Þ((%% S## œ Œ &%Þ#()% &%Þ#()% %$Þ##%% e . Dal momento che detÐS) œ "!#&#&, detÐS"" Ñ œ "#$'Þ') e detÐS## Ñ œ #"*)Þ!*, allora risulta - œ !Þ$((#. Tenendo presenti i risultati della §A.4.2, il livello di significatività osservato è dato da α9== œ PrÐL#ß##ß# Ÿ !Þ$((#Ñ œ PrÐJ%ß%# 'Þ&*'%Ñ ¶ ! . Dal momento che la significatività osservata estremamente bassa, si deve concludere che i due gruppi di variabili non sono indipendenti. Inoltre si ha # ln < œ 'Þ&*'% e dunque α8ß9== œ PrÐ;#% #%Þ$((Ñ ¶ ! , un risultato che conferma le conclusioni precedenti. 6.3.4. Il test per la verifica di una matrice di varianza-covarianza diagonale. Dato un campione casuale da k µ R. Ð.ß DÑ, si supponga di voler verificare il sistema di ipotesi L! À D œ D! œ diagÐ5"" ß á ß 5.. Ñ contro L" : D !. Questa ipotesi di base implica l'indipendenza delle componenti del vettore k . Si ha @ œ ÖÐ.ß DÑÀ . − ‘. ß D !× e @! œ ÖÐ.ß DÑÀ . − ‘. ß D œ D! œ diagÐ5"" ß á ß 5.. Ñ× . Dai risultati dell'Esempio 6.2.2, si ricava che max 6Ð.ß DÑ œ 6Жxß SÑ . Ð.ßDÑ−@ In completa analogia con la §6.3.3 si ha 6Ð.ß D! Ñ Ÿ 6Жxß D! Ñ œ max 6Ð.ß D! Ñ . .−‘. Inoltre, tenendo presente la disugualianza ottenuta nell'Esempio 3.1.2 si ha 8 8 6Жxß D! Ñ œ ln - ln detÒdiagÐ5"" ß á ß 5.. ÑÓ trÒdiagÐ5"" ß á ß 5.. Ñ" SÓ # # . . =44 =44 8 8 8 . œ ln - ln$ 544 œ ln - Œ ln 544 # 4œ" # 4œ" 544 # 4œ" 544 Ÿ ln - 8 # . Ð ln =44 "Ñ œ ln - 4œ" 8 8. ln detÒdiagÐSÑÓ # # œ 6Ò–xß diagÐSÑÓ œ max 6Ð.ß DÑ , Ð.ßDÑ−@! per cui la determinazione campionaria di V risulta < œ expÖ6Ò–xß diagÐSÑÓ 6Жxß SÑ× œ œ detÒdiagÐSÑÓ detÐS) 8Î# . Capitolo 6 129 In questo caso è complesso ottenere la distribuzione esatta di V o di una sua trasformata. Tuttavia, per grandi campioni, quando L! è vera, la quantità # ln < œ 8 lnœ detÒdiagÐSÑÓ detÐS) . è la determinazione di una statistica # ln V8 Ä ;#.Ð."ÑÎ# , in quanto vi sono in totale Ò. . Ð. "ÑÎ#Ó parametri, di cui #. da stimare sotto ipotesi di base. Di conseguenza, la regione critica per grandi campioni è data da g8ß" œ Ö<À # ln < ;.# Ð."ÑÎ#ß"α × , mentre la significatività osservata per grandi campioni risulta α8ß9== œ PrÐ;.# Ð."ÑÎ# # ln <Ñ . 6.3.5. Il test per la verifica della sfericità. Dato un campione casuale da k µ R. Ð.ß DÑ, si supponga di voler verificare il sistema di ipotesi L! À D œ D! œ 5I. contro L" À D !. Questa ipotesi di base implica l'indipendenza e l'omoschedasticità delle componenti del vettore k e per questo motivo è detta ipotesi di sfericità . Si ha @ œ ÖÐ.ß DÑÀ . − ‘. ß D !× e @! œ ÖÐ.ß DÑÀ . − ‘. ß D œ D! œ 5I. × . Dai risultati dell'Esempio 6.2.2, si ricava che max 6Ð.ß DÑ œ 6Жxß SÑ . Ð.ßDÑ−@ In completa analogia con la §6.3.3 risulta 6Ð.ß D! Ñ Ÿ 6Жxß D! Ñ œ max 6Ð.ß D! Ñ . .−‘. Inoltre, tenendo presente la disugualianza ottenuta nell'Esempio 3.1.2 si ha 8. 8 8. 8. 6Жxß D! Ñ œ ln - ln 5 trÐSÑ Ÿ ln - ln 5 s # #5 # # 8 8. œ ln - ln detÐ5 œ 6Жxß 5 s I. Ñ s I. Ñ œ max 6Ð.ß DÑ , # # Ð.ßDÑ−@! dove 5 s œ . " trÐSÑ. La determinazione campionaria di V risulta dunque 5 s. – – < œ expÒ6Ðxß 5 s I. Ñ 6Ðxß SÑÓ œ – detÐS) — 8Î# . In questo caso è complesso ottenere la distribuzione esatta di V o di una sua trasformata. Tuttavia, per grandi campioni, quando L! è vera, la quantità 5 s. # ln < œ 8 ln– , detÐS) — 130 L'inferenza multivariata . è la determinazione di una statistica # ln V8 Ä ;#Ð.#ÑÐ."ÑÎ# , in quanto vi sono in totale Ò. . Ð. "ÑÎ#Ó parametri, di cui Ð. "Ñ da stimare sotto ipotesi di base. Di conseguenza, la regione critica per grandi campioni è data da g8ß" œ Ö<À # ln < ;#Ð.#ÑÐ."ÑÎ#ß"α × , mentre la significatività osservata per grandi campioni risulta α8ß9== œ PrÐ;#Ð.#ÑÐ."ÑÎ# # ln <Ñ . 6.3.6. Il test per la verifica dell'omogeneità degli ultimi Ð. /Ñ autovalori. Dato un campione casuale da k µ R. Ð.ß DÑ, supponiamo che k œ l X , dove l µ R. Ð.ß FÑ e X µ R. Ð!ß 5# I. Ñ sono vettori casuali indipendenti. Inoltre, supponiamo che <ÐFÑ œ / . , ovvero il vettore casuale l è degenere. Questa situazione campionaria si può verificare in pratica quando, pur essendo il vettore casuale l degenere, a causa di errori stocastici di misura X , il vettore casuale risultante k non appare degenere. In questo caso, pur essendo solo / le variabili che descrivono il fenomeno, si può essere indotti a considerarne . , rendendo inutilmente complessa l'analisi statistica. Se A e > rappresentano rispettivamente la matrice diagonale degli autovalori e la matrice degli autovettori di D, allora risulta D œ >A>T . Tenendo presente l'indipendenza di l e X , si ha la seguente ulteriore rappresentazione di D D œ F 5# I. œ >?>T 5# >>T œ >Ð? 5# I. Ñ>T , dove ? rappresenta la matrice diagonale degli autovalori di F. Quindi, risulta che A œ ? 5# I. . Tuttavia, solo i primi / autovalori di F sono non nulli, per cui ? œ diagÐ?" ß !Ñ , dove ?" œ diagÐ$" ß á ß $/ Ñ, ovvero A œ diagÐA" ß -I./ Ñ , dove A" œ diagÐ-" ß á ß -/ Ñ œ diagÐ$" 5# ß á ß $/ 5# Ñ mentre - œ 5 # . Al fine di decidere se esistono componenti ridondanti nel vettore casuale k , si deve dunque verificare il sistema di ipotesi L! À D œ >diagÐA" ß -I./ Ñ>T contro L" À D œ >A>T . Tenendo presente la notazione dell'Esempio 6.2.3, si ha @ œ ÖÐ.ß Aß >ÑÀ . − ‘. ß A − ƒß > − × e @! œ ÖÐ.ß DÑÀ Ð.ß Aß >ÑÀ . − ‘. ß A − ƒ" ß > − × . Sulla base dei risultati dell'Esempio 6.2.3 si ha dunque 8 8. 6Ð.ß Aß >Ñ œ 6Жxß Lß GÑ œ ln - ln detÐLÑ , # # .−‘. ßA−ƒß>− max mentre max .−‘. ßA−ƒ" ß>− sß > sÑ . 6Ð.ß Aß >Ñ œ 6Жxß A La determinazione campionaria di V risulta Capitolo 6 131 – detÒdiagÐL" ß 6I./ ÑÓ – – s s < œ expÒ6Ðxß Aß >Ñ 6Ðxß Lß GÑÓ œ œ detÐLÑ 8Î# – 6 œ Œ~ 6 8Ð./ÑÎ# ~ / dove 6 œ Ð#.4œ" 64 Ñ"ÎÐ./Ñ rappresenta la media geometrica degli ultimi Ð. /Ñ autovalori campionari. In questo caso è complesso ottenere la distribuzione esatta di V o di una sua trasformata. Tuttavia, per grandi campioni, quando L! è vera, la quantità – 6 # ln < œ 8Ð. /Ñ lnŒ ~ , 6 . è la determinazione di una statistica # ln V8 Ä ;#Ð./#ÑÐ./"ÑÎ# . Infatti, sotto ipotesi di base D è determinata da / autovalori distinti, un autovalore coincidente ed / autovettori a . componenti corrispondenti agli autovalori distinti, i quali sono inoltre vincolati da Ò/Ð/ "ÑÎ#Ó condizioni di ortonormalità. Dunque, considerando anche il vettore delle medie, sotto ipotesi di base vi sono Ò. / " ./ /Ð/ "ÑÎ#Ó parametri in totale. Inoltre, sotto ipotesi alternativa D è determinata da . autovalori e . autovettori, i quali sono inoltre vincolati da Ò. Ð. "ÑÎ#Ó condizioni di ortonormalità. Di conseguenza, vi sono Ò. . . # . Ð. "ÑÎ#Ó œ Ò. . Ð. "ÑÎ#Ó parametri in totale. La regione critica per grandi campioni è dunque data da g8ß" œ Ö<À # ln< ;#Ð./#ÑÐ./"ÑÎ#ß"α × , mentre la significatività osservata per grandi campioni risulta α8ß9== œ PrÐ;#Ð./#ÑÐ./"ÑÎ# # ln <Ñ . 6.3.6. Il test di Hotelling a due campioni. Si supponga di considerare due campioni casuali indipendenti Ðx"" ß á ß x"8" Ñ e Ðx#" ß á ß x#8# Ñ rispettivamente dai vettori casuali k" µ R. Ð." ß DÑ e k# µ R. Ð.# ß DÑ, ovvero si suppone l'omoschedasticità dei due vettori casuali. Sia inoltre 8 œ #6œ" 86 la numerosità campionaria globale. In questo caso, il modello statistico è dato da Y." ß.# ßD œ œ08 À 08 Ðx"" ß á ß x"8" ß x#" ß á ß x#87 à ." ß .# ß DÑ œ œ $$ detÐ#1DÑ"Î# exp” # 86 6œ" 3œ" " Ðx63 .6 ÑT D" Ðx63 .6 Ñ• # . dove ." ß .# − ‘. e D !. Si vuole verificare il sistema di ipotesi L! À ." œ .# œ . contro L" À .1 Á .2 . Si ha @ œ ÖÐ." ß .# ß DÑÀ ." ß .# − ‘. ß D !× e @! œ ÖÐ." ß .# DÑÀ ." œ .# ß D !× . Se –x6 e S6 rappresentano rispettivamente le realizzazioni campionarie del vettore medio – campionario k 6 e della matrice di varianza-covarianza campionaria f6 per l'6-esimo campione, allora la funzione di log-verosimiglianza è data da 132 L'inferenza multivariata # 6Ð." ß .# ß DÑ œ ln - 6œ" œ ln - ’ 86 86 86 ln detÐDÑ trÐD" S6 Ñ Ð–x6 .6 ÑT D" Жx6 .6 Ñ“ # # # 8 8 " ln detÐDÑ trÐD" WÑ # # # # 86 Жx6 .6 ÑT D" Жx6 .6 Ñ , 6œ" dove Wœ " 8 # 86 S6 . 6œ" In maniera analoga all'Esempio 6.2.2, adoperando la disugualianza del medesimo esempio con D œ W , si ha 8 8 6Ð." ß .# ß DÑ Ÿ ln - ln detÐDÑ trÐD" WÑ œ 6Жx" ß –x# ß DÑ œ max 6Ð." ß .# ß DÑ # # ." ß.# −‘. 8 8. Ÿ ln - ln detÐWÑ œ 6Жx" ß –x# ß WÑ œ max 6Ð." ß .# ß DÑ . # # Ð." ß.# ßDÑ−@ Inoltre, tenendo presente che se L! è vera si dispone in effetti di un unico campione da R. Ð.ß DÑ, si ottiene 6Ð. ß .ß DÑ Ÿ 6Жxß –xß SÑ œ max 6Ð." ß .# ß DÑ , Ð." ß.# ßDÑ−@ ! dove –x œ " 8 # 86 –x6 6œ" e 86 # " Sœ 8 Ðx63 –xÑÐx63 –xÑT . 6œ" 3œ" Si ha " Sœ 8 œ œ " 8 " 8 # 86 6œ" 3œ" # 86 6œ" 3œ" # ÒÐx63 –x6 Ñ Ð–x6 –xÑÓÒÐx63 –x6 Ñ Ð–x6 –xÑÓT " Ðx63 –x6 ÑÐx63 –x6 ÑT 8 86 S6 6œ" dove si è tenuto presente che " 8 # 86 Жx6 –xÑЖx6 –xÑT 6œ" 3œ" 86 Жx6 –xÑЖx6 –xÑT œ W B , 6œ" 86 3œ" Ðx63 Bœ # –x6 Ñ œ ! e dove si è posto " 8 # 86 Жx6 –xÑЖx6 –xÑT . 6œ" La precedente relazione è evidentemente una generalizzazione della relazione ottenuta nella §4.3.4, ovvero costituisce la scomposizione della matrice di varianza-covarianza totale S nella matrice di varianza-covarianza all'interno dei gruppi W e nella matrice di varianza-covarianza fra i gruppi B. È facile verificare che Capitolo 6 133 Bœ 8" 8# – Ðx# –x" ÑЖx# –x" ÑT . 8# Dunque, 8 8 " 6Жxß –xß SÑ œ ln - ln detÐSÑ trÐS" WÑ # # # œ ln - 8 8 " ln detÐSÑ trÐS" WÑ # # # 8 œ ln - ln detÐSÑ # 8 œ ln - ln detÐSÑ # 8 œ ln - ln detÐSÑ # # 6œ" # 86 Жx6 –xÑT S" Жx6 –xÑ 86 trÒS" Жx6 –xÑЖx6 –xÑT Ó 6œ" # 8 " " " trÐS WÑ tr–S 86 Жx6 –xÑЖx6 –xÑT — # # 6œ" 8 8 trÐS" WÑ trÐS" BÑ # # 8 8 8. trÒS" ÐW BÑÓ œ ln - ln detÐSÑ . # # # Di conseguenza, la determinazione campionaria di V è data da < œ expÒ6Жxß –xß SÑ 6Жx" ß –x# ß WÑÓ œ exp’ 8Î# 8 8 detÐWÑ 8Î# ln detÐSÑ ln detÐWÑ“ œ ” • œ- , # # detÐW BÑ dove -œ detÐWÑ . detÐW BÑ Le matrici B e W sono le determinazioni campionarie di due matrici casuali U e j indipendenti. Questo risultato è una generalizzazione dell'Esempio 6.1.3, in quanto le statistiche U e j sono trasformate rispettivamente dei vettori medi campionari e delle matrici di varianzacovarianza campionarie relative a matrici campionarie indipendenti. Inoltre, dal momento che # 8j œ 86 f6 , 6œ" dove le matrici casuali 86 f6 µ [. ÐDß 86 "Ñ sono indipendenti in quanto i campioni sono indipendenti, per la proprietà 3) della §A.4.2, si ha 8j µ [. ÐDß 8 #Ñ. Essendo 8f œ 8j 8U e 8f µ [. ÐDß 8 "Ñ, ancora per la proprietà i) della §A.4.2 si deve necessariamente concludere che 8U µ [. ÐDß "Ñ. Dunque, se L! è vera, - è la determinazione campionaria della statistica Lœ detÐj Ñ , detÐj U Ñ distribuita come una L di Wilks con Ð8 #Ñ e " gradi di libertà. Inoltre < è una funzione monotona crescente di - e quindi i test costruiti su V e L sono equivalenti. Dunque, dal momento che rifiutare L! per piccole determinazioni di V è equivalente a rifiutare per piccole determinazioni di L, la regione critica del test è data da g" œ Ö-À - Ÿ L.ß8#ß"ßα × . Se si è osservato il valore campionario -, il livello di significatività osservato risulta infine 134 L'inferenza multivariata α9== œ PrÐL.ß8#ß" Ÿ -Ñ . Partendo dall'espressione di <, si può ottenere una formulazione alternativa della statistica test. Infatti, tenendo presente la rappresentazione di B, si ha <œ” detÐW BÑ œ ÒdetÐW" ÑdetÐW BÑÓ8Î# œ detÐI. W" BÑ8Î# • detÐWÑ 8Î# 8" 8 # œ det’I. # W" Жx# –x" ÑЖx# –x" ÑT “ 8 8Î# 8Î# 8" 8 # – 2 " – T – – œ ’" # Ðx# x" Ñ W Ðx# x" Ñ“ œ Œ" , 8 8# 8Î# dove 2œ 8" 8# Ð8 #Ñ – Ðx# –x" ÑT W" Жx# –x" Ñ . 8# La quantità È8" 8# Î8Жx# –x" Ñ è la determinazione campionaria di un vettore casuale Ê 8" 8# – – Ðk # k " Ñ µ R. Ð!ß DÑ , 8 – – per la proprietà i) della §A.4.1, dal momento che k " e k # sono indipendenti in quanto i – campioni sono indipendenti e È8Ðk 6 .Ñ µ R. Ð!ß DÑ. Inoltre, il precedente vettore casuale è indipendente da j in quanto le due statistiche sono trasformate rispettivamente dei vettori medi campionari e delle matrici di varianza-covarianza campionarie relative a matrici campionarie indipendenti. Dunque, se L! è vera, 2 è la determinazione campionaria di una statistica L distribuita come una X.ß8# di Hotelling dal momento che 8" 8# Ð8 #Ñ – – – – Ðk # k " ÑT j " Ðk # k " Ñ # 8 8" 8# – 8" 8 # – – – œ Ð8 #ÑÊ Ðk # k " ÑT Ð8j Ñ" Ê Ðk # k " Ñ . 8 8 Lœ Tenendo presente le proprietà della statistica di Hotelling si ha inoltre Lµ Ð8 #Ñ. J.ß8." . 8." La quantità < è una funzione monotona decrescente di 2 e quindi i test costruiti su V e L sono equivalenti. Dal momento che rifiutare L! per piccole determinazioni di V è equivalente a rifiutare L! per determinazioni elevate di L , la regione critica del test risulta di conseguenza g" œ œ2À 2 Ð8 #Ñ. J.ß8."ß"α 8." . Se si è osservato il valore campionario 2 , il livello di significatività osservato risulta infine α9== œ PrœJ.ß8." 8." 2 Ð8 #Ñ. . Anche se la distribuzione della statistica test è nota per campioni finiti, per grandi campioni, quando L! è vera, la quantità # ln < œ 8 lnŒ" 2 8# , Capitolo 6 135 . è la determinazione di una statistica # ln V8 Ä ;#. , in quanto vi sono Ò#. . Ð. "ÑÎ#Ó parametri in totale, di cui Ò. . Ð. "ÑÎ#Ó da stimare sotto ipotesi di base. Esempio 6.3.3. Sono stati considerati 20 atleti di valore internazionale di cui 12 fondisti e 8 maratoneti. Su ogni atleta è stato misurato la massa grassa, la massa magra, il VO2 durante lo sforzo massimale, la concentrazione di acido lattico durante uno sforzo sub-massimale e il VO2 durante lo sforzo sub-massimale e le osservazioni sono state riportate nella Tavola 6.3.3. Per inciso, si noti che il VO2 costituisce una misura dell'efficienza aerobica di un atleta. Tavola 6.3.3. Caratteristiche fisiologiche dei fondisti e dei maratoneti. fondisti " # $ % & ' ( ) * "! "" "# massa grassa )Þ$ $Þ$ #Þ* "Þ% (Þ" $Þ# %Þ" "Þ) %Þ! $Þ) %Þ( !Þ* massa magra '&Þ) &(Þ' &*Þ* &'Þ' &*Þ# &)Þ* '&Þ) '(Þ' %*Þ' '#Þ& &%Þ& '!Þ" VO2 max &Þ(( %Þ&" %Þ)# %Þ$) &Þ$! %Þ*' &Þ%" &Þ#* %Þ$$ &Þ'! %Þ'( &Þ!% acido lattico $! $$ %' $( #' #% "* $# $* "' #% $" VO2 maratoneti submax %Þ(" " %Þ"& # %Þ#! $ $Þ** % %Þ#* & %Þ!( ' %Þ&( ( %Þ%% ) $Þ&$ %Þ(* $Þ*' %Þ"# massa grassa &Þ& %Þ) #Þ" #Þ) "Þ% #Þ! &Þ) "Þ* massa magra &)Þ( '!Þ# &$Þ( '"Þ& &&Þ' &*Þ$ &&Þ& '%Þ# VO2 max &Þ!( %Þ(% %Þ!% %Þ(( %Þ$* %Þ$( %Þ%( %Þ)% acido lattico "( $% $) %! %% "* #( #* VO2 submax %Þ$# %Þ!! $Þ%! %Þ#! $Þ** $Þ(" $Þ)& %Þ"! Fonte: Pollock, Jackson e Pate (1980) Si vuole verificare se i due gruppi di atleti hanno simili caratteristiche fisiologiche, ovvero si vuole verificare il sistema di ipotesi L! À ." œ .# œ . contro L" À ." Á .# . Si ha Î $Þ(*"( Ñ Ð &*Þ)%"( Ó Ó –x" œ Ð Ð &Þ!!'( Ó Ð Ó #*Þ(&!! Ï %Þ#$&! Ò e Î $Þ#)(& Ñ Ð &)Þ&)(& Ó Ó –x# œ Ð Ð %Þ&)'$ Ó . Ð Ó $"Þ!!!! Ï $Þ*%'$ Ò Inoltre, risulta Î Ð Ð S" œ Ð Ð %Þ$!&) "Þ!'%& !Þ%%(' %Þ'((" Ï !Þ##'$ e "Þ!'%& #%Þ!%*" "Þ)("" "$Þ*%(* "Þ%("# !Þ%%(' "Þ)("" !Þ#!*% #Þ"'%# !Þ"$*) %Þ'((" "$Þ*%(* #Þ"'%# '(Þ!#!) "Þ%'(* !Þ##'$ Ñ "Þ%("# Ó Ó !Þ"$*) Ó Ó "Þ%'(* !Þ""%% Ò 136 L'inferenza multivariata Î #Þ()'" Ð !Þ%')* Ð S# œ Ð !Þ#$$$ Ð 'Þ*$(& Ï !Þ"&!! !Þ%')* "!Þ')"" !Þ("&$ 'Þ$(&! !Þ&%*) !Þ#$$$ !Þ("&$ !Þ!*%" "Þ!'!! !Þ!()$ 'Þ(&*$ 'Þ$(&! "Þ!'!! )$Þ&!!! !Þ$*"$ !Þ$'"* "Þ%!)) !Þ"'$$ "Þ(##& !Þ""&# &Þ&)"# "!Þ*")) "Þ(##& ($Þ'"#& "Þ!$($ Dalle precedenti espressioni risulta Î Ð Ð WœÐ Ð $Þ'*(* !Þ%&"# !Þ$'"* &Þ&)"# Ï !Þ"*&) e Î Ð Ð BœÐ Ð !Þ!'"! !Þ"&") !Þ!&!* !Þ"&"$ Ï !Þ!$%* !Þ%&"# ")Þ(!"* "Þ%!)) "!Þ*")) "Þ"!#( !Þ"&") !Þ$((& !Þ"#'& !Þ$('$ !Þ!)'* !Þ!&!* !Þ"#'& !Þ!%#% !Þ"#'" !Þ!#*" !Þ"&"$ !Þ$('$ !Þ"#'" !Þ$(&! !Þ!)'' !Þ"&!! Ñ !Þ&%*) Ó Ó !Þ!()$ Ó . Ó !Þ$*"$ !Þ!(%& Ò !Þ"*&) Ñ "Þ"!#( Ó Ó !Þ""&# Ó Ó "Þ!$(# !Þ!*)% Ò !Þ!$%* Ñ !Þ!)'* Ó Ó !Þ!#*" Ó , Ó !Þ!)'' !Þ!#!! Ò per cui - œ !Þ&%**. Di conseguenza il livello di significatività osservato è dato da α9== œ PrÐL&ß")ß" Ÿ !Þ&%**Ñ œ PrÐJ"!ß#) #Þ#*#"Ñ œ !Þ!%"! . Visto il livello di significatività osservata, vi è una certa indicazione a rifiutare l'ipotesi di base, ovvero i due gruppi di atleti sembrano differire sulla base delle caratteristiche fisiologiche. Si ha inoltre # ln < œ ""Þ*&"& e di conseguenza la significatività osservata per grandi campioni risulta α8ß9== œ PrÐ;#& ""Þ*'"&Ñ œ !Þ!$&$ , un risultato che conferma le conclusioni precedenti. 6.3.7. L'analisi multivariata della varianza. Si supponga di considerare 7 campioni casuali indipendenti Ðx6" ß á ß x686 Ñ rispettivamente dai vettori casuali k6 µ R. Ð.6 ß DÑ, ovvero da 7 vettori casuali normali omoschedastici. Sia inoltre 8 œ 7 6œ" 86 la numerosità campionaria globale. Il modello statistico è dato da Y." ßáß.7 ßD œ œ08 À 08 Ðx"" ß á ß x"8" ß á ß x7" ß á ß x787 à ." ß á ß .7 ß DÑ œ œ $$ detÐ#1DÑ"Î# exp” 7 86 6œ" 3œ" " Ðx63 .6 ÑT D" Ðx63 .6 Ñ• # , dove .6 − ‘. e D !. Si vuole verificare il sistema di ipotesi L! À ." œ á œ .7 œ . contro L" À .6 Á .4 , b6 Á 4 œ "ß á ß 7. Dunque, si ha @ œ ÖÐ." ß á ß .7 ß DÑÀ .6 − ‘. ß D !ß 6 œ "ß á ß 7× e @! œ ÖÐ." ß á ß .7 ß DÑÀ ." œ á œ .7 ß D !× . Capitolo 6 137 Se –x6 e S6 rappresentano rispettivamente le realizzazioni campionarie del vettore medio – campionario k 6 e della matrice di varianza-covarianza campionaria f6 per l'l-esimo campione, estendendo in maniera ovvia i risultati della §6.3.6, la funzione di log-verosimiglianza è data da 8 8 " 6Ð." ß á ß .7 ß DÑ œ ln - ln detÐDÑ trÐD" WÑ # # # 7 86 Жx6 .6 ÑT D" Жx6 .6 Ñ , 6œ" dove Wœ " 8 7 86 S6 . 6œ" In maniera analoga alla §6.3.6, si ha 8 8 6Ð." ß á ß .7 ß DÑ Ÿ ln - ln detÐDÑ trÐD" WÑ # # œ 6Жx" ß á ß –x7 ß DÑ œ max 6Ð." ß á ß .7 ß DÑ ." ßáß.7 −‘. 8 8. ln detÐWÑ œ 6Жx" ß á ß –x7 ß WÑ # # max 6Ð." ß á ß .7 ß DÑ . Ÿ ln - œ Ð." ßáß.7 ßDÑ−@ Inoltre, tenendo presente che se L! è vera si dispone in effetti di un unico campione da una R. Ð.ß DÑ, allora si ottiene 6Ð. ß á ß .ß DÑ Ÿ 6Жxß á ß –xß SÑ œ max 6Ð." ß á ß .7 ß DÑ , Ð." ßáß.7 ßDÑ−@ ! dove –x œ " 8 7 86 –x6 6œ" e " Sœ 8 7 86 Ðx63 –xÑÐx63 –xÑT . 6œ" 3œ" In completa analogia con la §6.3.6 si ha S œ W B, dove Bœ " 8 7 86 Жx6 –xÑЖx6 –xÑT . 6œ" Dunque, 8 8. 6Жxß á ß –xß SÑ œ ln - ln detÐSÑ . # # Di conseguenza, la determinazione campionaria di V è data da < œ expÒ6Жxß á ß –xß SÑ 6Жx" ß á ß –x7 ß WÑÓ 8Î# 8 8 detÐWÑ 8Î# œ exp’ ln detÐSÑ ln detÐWÑ“ œ ” • œ- , # # detÐW BÑ dove 138 L'inferenza multivariata -œ detÐWÑ . detÐW BÑ In maniera analoga alla §6.3.6, B e W sono le determinazioni campionarie di due matrici casuali U e j indipendenti. Inoltre, dal momento che 7 8j œ 86 f6 , 6œ" dove le matrici casuali 86 f6 µ [. ÐDß 86 "Ñ sono indipendenti in quanto i campioni sono indipendenti, per la proprietà i) della §A.4.1, si ha 8j µ [. ÐDß 8 7Ñ. Dal momento che risulta 8f œ 8j 8U e che 8f µ [. ÐDß 8 "Ñ, ancora per la proprietà i) della §A.4.1 si deve necessariamente concludere che 8U µ [. ÐDß 7 "Ñ. Dunque, se L! è vera, - è la determinazione campionaria della statistica Lœ detÐj Ñ , detÐj U Ñ distribuita come una L di Wilks con Ð8 7Ñ e Ð7 "Ñ gradi di libertà. Inoltre < è una funzione monotona crescente di - e quindi i test costruiti su V e L sono equivalenti. Dal momento che rifiutare L! per piccole determinazioni di V è equivalente a rifiutare per piccole determinazioni di L, la regione critica del test è data da g" œ Ö-À - Ÿ L.ß87ß7"ßα × . Se si è osservato il valore campionario -, il livello di significatività osservato risulta infine α9== œ PrÐL.ß87ß7" Ÿ -Ñ . Anche se in questo caso la distribuzione della statistica test è nota per campioni finiti, per grandi campioni, quando L! è vera, la quantità # ln < œ 8 ln - , . è la determinazione di una statistica # ln V8 Ä ;#Ð7"Ñ. , in quanto è facile verificare che vi sono in totale Ò7. . Ð. "ÑÎ#Ó parametri, di cui Ò. . Ð. "ÑÎ#Ó da stimare sotto ipotesi di base. Esempio 6.3.4. Tre gruppi di pesci, ognuno dei quali era composto da 12 pesci, sono stati cucinati con tre diversi metodi di cottura. Successivamente, alcuni giudici hanno assaggiato ciascun pesce e hanno assegnato un punteggio sulla base di 4 variabili, ovvero l'aroma (A), il sapore (S), la consistenza (C) e il grado di umidità (U). Nella Tavola 6.3.4 sono riportati i punteggi medi dei giudici per ogni pesce e ogni metodo di cottura. Capitolo 6 139 Tavola 6.3.4. Punteggi dei giudici per i tre metodi di cottura dei pesci. metodo 1 1 # $ % & ' ( ) * "! "" "# A &Þ% &Þ# 'Þ" %Þ) &Þ! &Þ( 'Þ! %Þ! &Þ( &Þ' &Þ) &Þ$ B 'Þ! 'Þ# &Þ* &Þ! &Þ( 'Þ" 'Þ! &Þ! &Þ% &Þ# 'Þ" &Þ* C 'Þ$ 'Þ! 'Þ! %Þ* &Þ! 'Þ! &Þ) %Þ! %Þ* &Þ% &Þ# &Þ) D 'Þ( &Þ) (Þ! &Þ! 'Þ& 'Þ' 'Þ! &Þ! &Þ! &Þ) 'Þ% 'Þ! metodo 2 " # $ % & ' ( ) * "! "" "# A &Þ! %Þ) $Þ* %Þ! &Þ' 'Þ! &Þ# &Þ$ &Þ* 'Þ" 'Þ# &Þ" B &Þ$ %Þ* %Þ! &Þ" &Þ% &Þ& %Þ) &Þ" 'Þ" 'Þ! &Þ( %Þ* C &Þ$ %Þ# %Þ% %Þ) &Þ" &Þ( &Þ% &Þ) &Þ( 'Þ" &Þ* &Þ$ D 'Þ& &Þ' &Þ! &Þ) 'Þ# 'Þ! 'Þ! 'Þ% 'Þ! 'Þ# 'Þ! %Þ) metodo 3 " # $ % & ' ( ) * "! "" "# A %Þ) &Þ% %Þ* &Þ( %Þ# 'Þ! &Þ" %Þ) &Þ$ %Þ' %Þ& %Þ% B &Þ! &Þ! &Þ" &Þ# %Þ' &Þ$ &Þ# %Þ' &Þ% %Þ% %Þ! %Þ# C 'Þ& 'Þ! &Þ* 'Þ% &Þ$ &Þ) 'Þ# &Þ( 'Þ) &Þ( &Þ! &Þ' D (Þ! 'Þ% 'Þ& 'Þ% 'Þ$ 'Þ% 'Þ& &Þ( 'Þ' &Þ' &Þ* &Þ& Fonte: Baten, Tack e Baeder (1958) Si vuole verificare se i metodi di cottura non differiscono sulla base dei punteggi assegnati dai giudici, ovvero si vuole verificare il sistema di ipotesi L! À ." œ .# œ .$ œ . contro L" À .6 Á .4 , b6 Á 4 œ "ß #ß $. Si ha Î &Þ$)$$ Ñ &Þ(!)$ Ó –x" œ Ð Ð Ó &Þ%%"( Ï &Þ*)$$ Ò e mentre Inoltre e mentre Î &Þ#&)$ Ñ &Þ#$$$ Ó –x# œ Ð Ð Ó, &Þ$!)$ Ï &Þ)(&! Ò Î %Þ*(&! Ñ %Þ)$$$ Ó –x$ œ Ð Ð Ó. &Þ*!)$ Ï 'Þ#$$$ Ò Î !Þ$"$" Ð !Þ"%"! S" œ Ð !Þ#$** Ï !Þ#""% !Þ"%"! !Þ"(*" !Þ#"!& !Þ#!*$ !Þ#$** !Þ#"!& !Þ%!%" !Þ##** !Þ#""% Ñ !Þ#!*$ Ó Ó !Þ#*** !Þ%%%( Ò Î !Þ&$%" Ð !Þ$#)* S# œ Ð !Þ$%"# Ï !Þ"(&' !Þ$#)* !Þ$!## !Þ##)* !Þ"'$$ !Þ$%"# !Þ##)* !Þ$#%" !Þ"%(( !Þ"(&' Ñ !Þ"'$$ Ó Ó, !Þ"%(( !Þ#%&# Ò 140 L'inferenza multivariata Î !Þ#(!# Ð !Þ"()$ S$ œ Ð !Þ"%"* Ï !Þ"!"( !Þ"()$ !Þ"*$* !Þ"($* !Þ"%*( !Þ"%"* !Þ"($* !Þ#$*" !Þ"$)* !Þ"!"( Ñ !Þ"%*( Ó Ó. !Þ"$)* !Þ"*!' Ò !Þ#"'" !Þ##&" !Þ#!%% !Þ"(%" !Þ#%"! !Þ#!%% !Þ$##% !Þ"*&& !Þ"'#* Ñ !Þ"(%" Ó Ó !Þ"*&& !Þ#*$& Ò Dalle precedenti espressioni risulta Î !Þ$(#& Ð !Þ#"'" WœÐ !Þ#%"! Ï !Þ"'#* e Î Ð BœÐ !Þ!#*# !Þ!&)* !Þ!$)# Ï !Þ!#"" !Þ!&)* !Þ"#)! !Þ!'&! !Þ!$%& !Þ!$)# !Þ!'&! !Þ!''# !Þ!$)& !Þ!#"" Ñ !Þ!$%& Ó Ó, !Þ!$)& !Þ!##& Ò per cui - œ !Þ##!!. Di conseguenza il livello di significatività osservato risulta α9== œ PrÐL%ß$$ß# Ÿ !Þ##!!Ñ œ PrÐJ)ß'! )Þ%*!"Ñ ¶ ! . Dato che la significatività osservata estremamente bassa, si deve concludere che i tre metodi di cottura differiscono sostanzialmente. Inoltre # ln < œ &%Þ&!!) e dunque si ha α8ß9== œ PrÐ;#) &%Þ&!!)Ñ ¶ ! , un risultato che conferma le conclusioni precedenti. 6.3.8. Il test per la verifica della omoschedasticità. Si supponga di considerare 7 campioni casuali indipendenti Ðx6" ß á ß x686 Ñ rispettivamente dai vettori casuali k6 µ R. Ð.6 ß D6 Ñ. Sia inoltre 8 œ 7 6œ" 86 la numerosità campionaria globale. In questo caso, il modello statistico è dato da Y." ßáß.7 ßD" ßáßD7 œ œ08 À 08 Ðx"" ß á ß x"8" ß á ß x7" ß á ß x787 à ." ß á ß .7 ß D" ß á ß D7 Ñ œ $$ detÐ#1D6 Ñ"Î# exp” 7 86 6œ" 3œ" " Ðx63 .6 ÑT D" 6 Ðx63 .6 Ñ• # . dove .6 − ‘. e D6 !. Si vuole verificare il sistema di ipotesi L! À D" œ á œ D7 œ D contro L" À D6 Á D4 , b6 Á 4 œ "ß á ß 7. Si ha @ œ ÖÐ." ß á ß .7 ß D" ß á ß D7 ÑÀ .6 − ‘. ß D6 !ß 6 œ "ß á ß 7× e @! œ ÖÐ." ß á ß .7 ß D" ß á ß D7 ÑÀ .6 − ‘. ß D" œ á œ D7 œ D !× . Se –x6 e S6 rappresentano rispettivamente le realizzazioni campionarie del vettore medio – campionario k 6 e della matrice di varianza-covarianza campionaria f6 per l'l-esimo campione, allora la funzione di log-verosimiglianza è data da Capitolo 6 141 6Ð." ß á ß .7 ß D" ß á ß D7 Ñ œ 7 86 86 86 – – œ ln - Ðx6 .6 ÑT D" ’ ln detÐD6 Ñ trÐD" 6 S6 Ñ 6 Ðx6 .6 Ñ“ . # # # 6œ" – – Tenendo presente che ogni Жx6 .6 ÑT D" 6 Ðx6 .6 Ñ raggiunge il minimo per .6 œ x6 e adoperando nella precedente espressione la disugualianza ottenuta nell'Esempio 6.2.2 in maniera ripetuta con D œ S6 , si ottiene 7 6Ð." ß á ß .7 ß D" ß á ß D7 Ñ Ÿ ln - 6œ" š 86 86 ln detÐD6 Ñ trÐD" 6 S6 Ñ› # # œ 6Жx" ß á ß –x7 ß D" ß á ß D7 Ñ 7 86 86 . Ÿ ln - œ ln detÐS6 Ñ # # 6œ" œ ln - " # 7 86 ln detÐS6 Ñ 6œ" 8. # œ 6Жx" ß á ß –x7 ß S" ß á ß S7 Ñ œ max 6Ð." ß á ß .7 ß D" ß á ß D7 Ñ . Ð." ßáß.7 ßD" ßáßD7 Ñ−@ Inoltre, se L! è vera, allora si ha 6Ð." ß á ß .7 ß Dß á ß DÑ œ 7 œ ln - 6œ" œ ln - š 86 86 86 ln detÐDÑ trÐD" S6 Ñ Ð–x6 .6 ÑT D" Жx6 .6 Ñ› # # # 8 8 " ln detÐDÑ trÐD" WÑ # # # 7 86 Жx6 .6 ÑT D" Жx6 .6 Ñ . 6œ" Di conseguenza, adoperando la disugualianza ottenuta nell'Esempio 6.2.2 rispettivamente con D œ W , si ottiene 8 8 6Ð." ß á ß .7 ß Dß á ß DÑ Ÿ ln - ln detÐDÑ trÐD" WÑ œ 6Жx" ß á ß –x7 ß Dß á ß DÑ # # 8 8. Ÿ ln - ln detÐWÑ œ 6Жx" ß á ß –x7 ß Wß á ß WÑ # # œ max 6Ð." ß á ß .7 ß D" ß á ß D7 Ñ . Ð." ßáß.7 ßD" ßáßD7 Ñ−@! Dunque, la determinazione campionaria di V è data da detÐWÑ < œ expÒ6Жx" ß á ß –x7 ß Wß á ß WÑ 6Жx" ß á ß –x7 ß S" ß á ß S7 ÑÓ œ $ ” • detÐS6 Ñ 6œ" 7 86 Î# In questo caso è complesso ottenere la distribuzione esatta di V o di una sua trasformata. Tuttavia, per grandi campioni, quando L! è vera, la quantità 7 # ln < œ 6œ" 86 ln” . detÐWÑ •, detÐS6 Ñ è la determinazione di una statistica # ln V8 Ä ;#Ð7"Ñ.Ð."ÑÎ# , in quanto vi sono in totale Ò7. 7. Ð. "ÑÎ#Ó parametri, di cui Ò7. . Ð. "ÑÎ#Ó da stimare sotto ipotesi di base. Di conseguenza, la regione critica per grandi campioni è data da 142 L'inferenza multivariata g8ß" œ Ö<À # ln < ;#Ð7"Ñ.Ð."ÑÎ#ß"α × , mentre la significatività osservata risulta α8ß9== œ PrÐ;#Ð7"Ñ.Ð."ÑÎ# # ln <Ñ . Esempio 6.3.5. Con gli stessi dati dell'Esempio 6.3.4 si vuole verificare il sistema di ipotesi L! À D" œ D# œ D$ contro L" À D6 Á D4 , b6 Á 4 œ "ß #ß $. In questo caso è facile verificare che # ln < œ "(Þ(($$ e di conseguenza il livello di significatività osservato per grandi campioni risulta α8ß9== œ PrÐ;##! "(Þ(($$Ñ œ !Þ'!#$ . Questo valore è un valore elevato di α8ß9== che porta dunque ad accettare dunque l'ipotesi di omoschedasticità. 6.3.9. La regressione lineare multivariata. Supponiamo che la matrice campionaria Ðy" ß á ß y8 Ñ sia la determinazione di un insieme di vettori casuali indipendenti Ðl" ß á ß l8 Ñ, tali che l3 µ R. Ða Bz3 ß DÑ, dove a è un vettore di parametri di ordine . , B è una matrice di parametri di ordine Ð. ‚ /Ñ, mentre Ðz" ß á ß z8 Ñ costituisce una matrice di quantità note e fisse di ordine Ð/ ‚ 8Ñ. Ovviamente, in questo caso il campionamento non è casuale ed è immediato verificare che questa struttura campionaria costituisce una estensione multivariata del modello di regressione lineare. Analogamente all'Esempio 1.1.8, si suppone che la parametrizzazione sia fatta in modo tale che –z œ " 8 8 z3 œ ! . 3œ" In questo caso il modello statistico è dato da YaßBßD œ œ08 À 08 Ðy" ß á ß y8 à aß Bß DÑ œ œ $ detÐ#1DÑ"Î# exp” 8 3œ" " Ðy3 a Bz3 ÑT D" Ðy3 a Bz3 Ñ• # dove a − ‘. ß B − ‘./ ß D !. Si vuole verificare il sistema di ipotesi L! À B œ ! contro L" À B Á !. Si ha @ œ ÖÐaß Bß DÑÀ a − ‘. ß B − ‘./ ß D !× e @! œ ÖÐaß Bß DÑÀ B œ !ß a − ‘. ß D !× . La log-verosimiglianza può essere espressa come 8 " 6Ðaß Bß DÑ œ ln - detÐDÑ # # 8 Ðy3 a Bz3 ÑT D" Ðy3 a Bz3 Ñ . 3œ" Si indichi rispettivamente con –y e SC il vettore medio campionario e la matrice di varianzacovarianza campionaria relative a Ðy" ß á ß y8 Ñ e con SD la matrice di varianza-covarianza relativa a Ðz" ß á ß z8 Ñ. Sia inoltre Capitolo 6 143 SDC œ " 8 8 3œ" " Ðz3 –zÑÐy3 –yÑT œ 8 8 z3 y3T 3œ" la matrice di covarianza relativa a Ðz" ß á ß z8 Ñ e Ðy" ß á ß y8 Ñ, mentre sia SCD œ STDC . Si ha 8 Ðy3 a Bz3 ÑT D" Ðy3 a Bz3 Ñ œ 3œ" 8 œ 3œ" 8 œ ÒÐy3 –yÑ Bz3 Жy aÑÓT D" ÒÐy3 –yÑ Bz3 Жy aÑÓ trÖD" ÒÐy3 –yÑ Bz3 Жy aÑÓÒÐy3 –yÑ Bz3 Жy aÑÓT × 3œ" œ 8 trÖD" ÒSC BSD BT Жy aÑЖy aÑT SCD BT BSDC × , 8 8 – dove è stato tenuto presente che 3œ" z3 œ ! e 3œ" Ðy3 yÑ œ !. Inoltre, sommando e sottraendo la matrice SCD S" D SDC nella precedente espressione e raccogliendo opportunamente si ha 8 Ðy3 a Bz3 ÑT D" Ðy3 a Bz3 Ñ œ 3œ" T " " T – – œ 8 trÖD" ÒSC SCD S" D SDC ÐB SCD SD ÑSD ÐB SCD SD Ñ Ðy aÑÐy aÑ × " " " T œ 8 trÒD" ÐSC SCD S" D SDC ÑÓ 8 trÒD ÐB SCD SD ÑSD ÐB SCD SD Ñ Ó 8Жy aÑT D" Жy aÑ , Dunque, si ottiene infine 8 8 detÐDÑ ÖtrÒD" ÐSC SCD S" D SDC ÑÓ # # T " – " T – trÒD" ÐB SCD S" D ÑSD ÐB SCD SD Ñ Ó Ðy aÑ D Ðy aÑ× . 6Ðaß Bß DÑ œ ln - Sulla base di questi risultati, si ha dunque 8 8 sß DÑ , 6Ðaß Bß DÑ Ÿ ln - detÐDÑ trÒD" ÐSC SCD S" aß B D SDC ÑÓ œ 6Ðs # # s œ SCD S" dove sa œ –y e B D che ovviamente costituiscono le stime di massima verosimiglianza di a e B. Nella precedente espressione si è tenuto presente che D ! e dunque anche D" !, in modo tale che la forma quadratica Жy aÑT D" Жy aÑ è definita positiva e quindi raggiunge il minimo quando a œ –y. Nella stessa espressione si è notato che, essendo SD definita positiva in " T quanto matrice di varianza-covarianza, allora la matrice ÐB SCD S" è D ÑSD ÐB SCD SD Ñ " T definita positiva e quindi anche la matrice D" ÐB SCD S" Ñ S Ð B S S Ñ è definita D CD D D positiva. Di conseguenza, la traccia di questa matrice è maggiore o uguale a ! e raggiunge quindi il minimo in corrispondenza della matrice nulla, ovvero quando B SCD S" D œ !. Tenendo presente la disugualianza ottenuta nell'Esempio 6.2.2 con D œ SC SCD S" D SDC , si ottiene dunque sß DÑ Ÿ ln - 6Ðsaß B 8 8. sß EÑ œ max 6Ðaß Bß DÑ , detÐSC SCD S" œ 6Ðsaß B D SDC Ñ # # ÐaßBßDÑ−@ dove E œ SC SCD S" D SDC è la stima di massima verosimiglianza di D. È facile dimostrare che 144 L'inferenza multivariata Eœ " 8 8 s 3 ÑÐy3 sa Bz s 3 ÑT Ðy3 sa Bz 3œ" e dunque in effetti E costituisce la matrice delle medie degli scarti al quadrato dei valori s 3 . Di conseguenza, in maniera analoga alla §4.3.8, la osservati y3 dai valori stimati sa Bz matrice E rappresenta la matrice di varianza-covarianza residua. Tenendo presente le note fatte in precedenza, si ha inoltre che 8 8 6Ðaß !ß DÑ œ ln - detÐDÑ ÒtrÐD" SC Ñ Ð–y aÑT D" Жy aÑÓ # # 8 8. Ÿ ln - detÐSC Ñ œ 6Жyß !ß SC Ñ œ max 6Ðaß Bß DÑ . # # ÐaßBßDÑ−@! In maniera analoga alla §4.3.8, si noti che si ha la seguente scomposizione SC œ E H , dove H œ SCD S" D SDC rappresenta la matrice di varianza-covarianza spiegata dal modello lineare. Di conseguenza, si ha anche E œ SC SCD S" D SDC . La determinazione campionaria di V è dunque data da detÐSC SCD S" D SDC Ñ sß EÑÓ œ ” < œ expÒ6Жyß !ß SC Ñ 6Ðsaß B • detÐSC Ñ 8Î# œ -8Î# dove -œ detÐSC SCD S" detÐEÑ D SDC Ñ œ . detÐSC Ñ detÐE HÑ Dal momento che 8fC µ [. ÐDß 8 "Ñ, per la proprietà iii) della §A.4.2, E e H sono le determinazioni campionarie di due matrici casuali 8X µ [. ÐDß 8 " /Ñ e 8[ µ [. ÐDß /Ñ indipendenti. Dunque, se L! è vera, - è la determinazione campionaria della statistica Lœ detÐX Ñ , detÐX [Ñ distribuita come una L.ß8"/ß/ di Wilks. Inoltre, < è una funzione monotona crescente di - e quindi i test costruiti su V e L sono equivalenti. Dunque, dal momento che rifiutare L! per piccole determinazioni di V è equivalente a rifiutare per piccole determinazioni di L, la regione critica del test è data da g" œ Ö-À - Ÿ L.ß8"/ß/ßα × . Avendo osservato il valore campionario -, il livello di significatività osservato risulta infine α9== œ PrÐL.ß8"/ß/ Ÿ -Ñ . Anche se in questo caso la distribuzione della statistica test è nota per campioni finiti, per grandi campioni, quando L! è vera, la quantità # ln < œ 8 ln” detÐSC SCD S" D SDC Ñ •, detÐSC Ñ . è la determinazione di una statistica # ln V8 Ä ;#./ , in quanto vi sono Ò. ./ . Ð. "ÑÎ#Ó parametri in totale, di cui Ò. . Ð. "ÑÎ#Ó da stimare sotto ipotesi di base. Di conseguenza, la regione critica per grandi campioni è data da Capitolo 6 145 # g8ß" œ Ö<À # ln < ;./ ß"α × , mentre la significatività osservata risulta # α8ß9== œ PrÐ;./ # ln <Ñ . Esempio 6.3.6. Sono stati condotti 19 esperimenti che riguardavano una certa reazione chimica. Le variabili tenute sotto controllo sono state la temperatura, la concentrazione e il tempo. Si vuole verificare che esiste una relazione lineare di queste variabili con le variabili di risposta della reazione chimica, ovvero la quantità di materiale iniziale non trasformato, la quantità di materiale iniziale trasformato e la quantità di sottoprodotto non desiderato. Le osservazioni relative agli esperimenti sono riportati nella Tavola 6.3.5. Tavola 6.3.5. Risultati degli esperimenti relativi alle reazioni chimiche. Esperimento " # $ % & ' ( ) * "! "" "# "$ "% "& "' "( ") "* variabili di risposta non trasformato trasformato sottoprodotto %"Þ& %&Þ* ""Þ# $$Þ) &$Þ$ ""Þ# #(Þ( &(Þ& "#Þ( #"Þ( &)Þ) "'Þ! "*Þ* '!Þ' "'Þ# "&Þ! &)Þ! ##Þ' "#Þ# &)Þ' #%Þ& %Þ$ &#Þ% $)Þ! "*Þ$ &'Þ* #"Þ$ 'Þ% &&Þ% $!Þ) $(Þ' %'Þ* "%Þ( ")Þ! &(Þ$ ##Þ# #'Þ$ &&Þ! ")Þ$ *Þ* &)Þ* #)Þ! #&Þ! &!Þ$ ##Þ" "%Þ" '"Þ" #$Þ! "&Þ# '#Þ* #!Þ( "&Þ* '!Þ! ##Þ" "*Þ' '!Þ' "*Þ$ variabili sotto controllo temperatura concentrazione tempo "'# #$Þ! $Þ! "'# #$Þ! )Þ! "'# $!Þ! &Þ! "'# $!Þ! )Þ! "(# #&Þ! &Þ! "(# #&Þ! )Þ! "(# $!Þ! &Þ! "(# $!Þ! )Þ! "'( #(Þ& 'Þ& "(( #(Þ& 'Þ& "&( #(Þ& 'Þ& "'( $#Þ& 'Þ& "'( ##Þ& 'Þ& "'( #(Þ& *Þ& "'( #(Þ& $Þ& "(( #!Þ! 'Þ& "(( #!Þ! 'Þ& "'! $%Þ! (Þ& "'! $%Þ! (Þ& Fonte: Box e Youle (1955) Si vuole verificare se esiste o meno una relazione lineare fra le variabili di risposta e le variabili sotto controllo, ovvero si vuole verificare il sistema di ipotesi L! À B œ ! contro L" À B Á !. Si ha SD œ e Î $'Þ'$(" ""Þ&$"* Ï !Þ#"!& Î *%Þ!(!" #(Þ!'&! SC œ Ï &&Þ*#"% mentre ""Þ&$"* "(Þ!!&& "Þ"&(* #(Þ!'&! #"Þ!((" &Þ%(*& !Þ#"!& Ñ "Þ"&(* #Þ&#'$ Ò &&Þ*#"% Ñ &Þ%(*& , %#Þ)))) Ò 146 L'inferenza multivariata SCD Î $*Þ(%!( ""Þ##&# œ Ï ##Þ)')" Risulta quindi sœ B Î "Þ&%'! !Þ%!%' Ï !Þ*"$* Î %Þ#"*( "Þ"%#$ Eœ Ï $Þ%'*' mentre 'Þ*('$ Ñ #Þ)'&) . $Þ('$# Ò Î #!Þ"()* Ñ sa œ &'Þ$$') Ï #!Þ()%# Ò e Inoltre si ha )Þ*))# "Þ&"%$ 'Þ!*#% Î )*Þ)&!% #&Þ*##( Hœ Ï &#Þ%&") "Þ%#&' !Þ#*$! !Þ)**& #Þ#$(% Ñ "Þ!$$) . "Þ"&$& Ò "Þ"%#$ "$Þ"#*' *Þ%%(# $Þ%'*' Ñ *Þ%%(# , "#Þ"')$ Ò #&Þ*##( (Þ*%(& "%Þ*#'( &#Þ%&") Ñ "%Þ*#'( , $!Þ(#!% Ò per cui - œ !Þ!$$#. Di conseguenza il livello di significatività osservato risulta α9== œ PrÐL$ß"&ß$ Ÿ !Þ!$$#Ñ ¶ ! . Dato che la significatività osservata è estremamente bassa, si deve concludere che esiste un legame lineare fra le variabili di risposta e quelle di controllo per la reazione chimica considerata. Inoltre, # ln < œ '%Þ(#$# e dunque si ha α8ß9== œ PrÐ;#* '%Þ(#$#Ñ ¶ ! , un risultato che conferma le conclusioni precedenti. 6.4. Le regioni di confidenza con osservazioni multivariate 6.4.1. Le regioni di confidenza con matrici campionarie. Se Y) è un modello statistico relativo ad un campionamento casuale, allora si definisce quantità pivot T la trasformata T À V8 ‚ @ Ä ‘ , tale che T œ T Ðk" ß á ß k8 à )Ñ ha una distribuzione che non dipende da ). Se F § ‘ è un insieme tale che Pr) ÖT Ðk" ß á ß k8 à )Ñ − F× œ " α , e se IÐk" ß á ß k8 Ñ § ‘5 è un insieme casuale tale che per ogni ) ÖÐx" ß á ß x8 ÑÀ T Ðx" ß á ß x8 à )Ñ − F× Í ÖÐx" ß á ß x8 ÑÀ ) − IÐx" ß á ß x8 Ñ× , allora IÐx" ß á ß x8 Ñ è detta regione di confidenza per ) al livello di confidenza Ð" αÑ. Capitolo 6 147 Anche nel caso multivariato si può dimostrare che esiste un legame fra la regione di confidenza e la regione di accettazione del test per il sistema di ipotesi L! À ) œ )! contro L" À ) Á )! . Nel caso che si costruisca regioni di confidenza a partire dal test del rapporto delle verosimiglianze si può verificare che la regione di confidenza IÐx" ß á ß x8 Ñ al livello di confidenza Ð" αÑ è data da tutti i valori di ) − @ per cui la verosimiglianza PÐ)à x" ß á ß x8 Ñ è maggiore di -α œ <α max PÐ)à x" ß á ß x8 Ñ , )−@ T T dove Pr) ÐV Ÿ <α Ñ œ α. Inoltre, se si ha ) œ Ð)ET ß )F Ñ , dove )E è un parametro a Ð5 2Ñ componenti, si verifica che la regione di confidenza IÐx" ß á ß x8 Ñ al livello di confidenza Ð" αÑ è data da tutti i valori di )E − @E per cui la verosimiglianza profilo P: Ð)E à x" ß á ß x8 Ñ è maggiore di -α . 6.4.2. Gli ellissoidi di confidenza. Dato un campione casuale da k µ R. Ð.ß DÑ, si vuole costruire una regione di confidenza per .. Se si considera il sistema di ipotesi L! À . œ .! contro L" : . Á .! dalla §6.3.2 è noto che la regione di accettazione per il test del rapporto delle verosimiglianze è data da k! œ œÐx" ß á ß x8 ÑÀ Жx .ÑT S" Жx .Ñ . J.ß8.ß"α 8. . Di conseguenza, la regione di confidenza per . al livello di confidenza Ð" αÑ è data da T " œ.À Ð. –xÑ S Ð. –xÑ . J.ß8.ß"α 8. , ovvero dall'insieme dei punti contenuti in un ellissoide di centro –x con direzioni degli assi date dagli autovettori di S e con lunghezza degli assi pari a #Èα4 . J.ß8.ß"α ÎÐ8 . Ñ, dove α4 è il j-esimo autovalore di S. Questa regione di confidenza è detto ellissoide di confidenza del vettore medio. Esempio 6.4.1. Su 31 ciliegi del parco nazionale di Allegheny in Pennsylvania sono state misurate rispettivamente l'altezza e il volume, ottenendo in questa maniera le osservazioni della Tavola 6.4.1. Tavola 6.4.1. Altezza e volume dei ciliegi (in piedi e piedi cubi). ciliegio " # $ % & ' ( ) * "! "" "# "$ "% "& "' altezza (! '$ )" '' )! (* (' (& )& (" () (% (( )# )! )( volume ciliegio "!Þ$ "( "!Þ# ") ")Þ) "* "&Þ' #! ##Þ' #" #%Þ# ## #"Þ% #$ "*Þ" #% $$Þ) #& #&Þ( #' $%Þ& #( $'Þ$ #) %#Þ' #* &&Þ( $! &"Þ& $" ((Þ! altezza '& (# )$ (& (& (' '* (% )' '% )! (# )" )! )! volume "!Þ$ "'Þ% "*Þ( ")Þ# "*Þ* #"Þ! #"Þ$ ##Þ# #(Þ% #%Þ* $"Þ( $)Þ$ &&Þ% &)Þ$ &"Þ! Fonte: Ryan, Joiner e Ryan (1985) 148 L'inferenza multivariata Risulta –x œ Œ ('Þ!!!! $!Þ"("! e SœŒ $*Þ#*!$ '!Þ'$)( '!Þ'$)( #'"Þ%)'' . Dunque, i due autovalori di S sono dati da #$Þ)")* e #('Þ*&)!, mentre gli autovettori di S sono Ð!Þ#%(#ß !Þ*'*!Ñ e Ð!Þ*'*!ß !Þ#%(#Ñ. Di conseguenza, una ellisse di confidenza per Ð." ß .# Ñ al livello di confidenza del *&% è centrata in Ð('Þ!!ß $!Þ"(Ñ ed ha gli assi in direzione degli autovettori di lunghezze pari a %Þ'('! e "&Þ*%%*. Il diagramma di dispersione e il grafico dell'ellissi di confidenza sono riportati in Figura 6.4.1. 70 60 50 40 30 20 10 65 70 75 80 85 Figura 6.4.1. Ellissi di confidenza per Ð." ß .# Ñ al livello di confidenza del *&%. Appendice A.1. Alcune distribuzioni continue A.1.1. Le famiglie di posizione e scala. Nelle prossime sezioni vengono presentate a grandi linee le caratteristiche di alcune distribuzioni continue di uso frequente (per approfondimenti sulle distribuzioni continue univariate si può consultare i due manuali di Johnson e Kotz, 1972, vol. I e II). Nel seguito una variabile casuale ^ viene analizzata nella sua forma standard. La funzione di ripartizione e la funzione di densità di ^ vengono indicate rispettivamente con J^ ÐDÑ e 0^ ÐDÑ. A partire da una variabile casuale standard ^ , attraverso la trasformazione lineare \ œ - $^ , dove - − ‘ e $ − ‘ , si può generare la cosiddetta famiglia (di distribuzioni) di posizione e di scala. Questa famiglia è caratterizzata appunto dai parametri di posizione - e di scala $ . La variabile casuale non standard \ possiede funzione di ripartizione e funzione di densità date da J\ ÐBÑ œ J^ Œ B$ e 0\ ÐBÑ œ " B0^ Œ $ $ . Inoltre, supponendo EÐ^ # Ñ ∞, risulta . œ EÐ\Ñ œ - $ EÐ^Ñ e 5# œ VarÐ\Ñ œ $ # VarÐ^Ñ . In particolare, se EÐ^Ñ œ ! e VarÐ^Ñ œ ", i parametri di posizione e di scala coincidono rispettivamente con la media e lo scarto quadratico medio. Per evidenziare questa proprietà, nel seguito si adottano i simboli . e 5 al posto di - e $ . Infine, i parametri rimanenti di una distribuzione sono detti parametri di forma. A.1.2. La distribuzione Normale. La variabile casuale ^ è detta Normale standard se possiede la funzione di densità 0^ ÐDÑ œ 9ÐDÑ, dove 9ÐDÑ œ " " expŒ D # È#1 # . Il grafico della funzione di densità 9ÐDÑ è riportato in Figura A.1.1. La funzione di ripartizione di ^ viene indicata con FÐDÑ e non può essere ottenuta in forma analitica. I momenti della Normale standard risultano EÐ^ < Ñ œ œ ! " ‚ $ ‚ á ‚ Ð< "Ñ < dispari , < œ "ß #ß á . < pari 150 Appendice 0.4 0.3 0.2 0.1 0 −3 −2 −1 0 1 2 3 Figura A.1.1. Funzione di densità della Normale standard. Di conseguenza, si ha EÐ^Ñ œ ! e VarÐ^Ñ œ ". Quindi, per la Normale non standard \ i parametri di posizione e di scala coincidono con la media . e con lo scarto quadratico medio 5. Per indicare che ^ è Normale standard si adotta la notazione ^ µ R Ð!ß "Ñ, mentre se \ è Normale non standard si scrive \ µ R Ð.ß 5# Ñ. Il quantile di ordine α della Normale standard viene indicato con Dα . Per la Normale valgono le seguenti tre proprietà (vedi Fattorini, 1994): i) Se \ µ R Ð.ß 5# Ñ, allora ] œ + ,\ µ R Ð+ , .ß , # 5# Ñ , dove + e , sono costanti. ii) Se Ð\" ß á ß \5 Ñ è un vettore di variabili casuali indipendenti tale che \3 µ R Ð.3 ß 53# Ñ, allora 5 ] œ 5 Ð+3 ,3 \3 Ñ µ R 3œ" 5 ,3# 53# Ð+3 ,3 .3 Ñß 3œ" , 3œ" dove Ð+" ß á ß +5 Ñ e Ð," ß á ß ,5 Ñ sono vettori di costanti. iii) Se Ð\" ß á ß \5 Ñ è un vettore di variabili casuali indipendenti tale che \3 µ R Ð.ß 5# Ñ, allora le variabili casuali 5 ]" œ 5 - 3 \ 3 , ]# œ 3œ" .3 \ 3 , 3œ" dove Ð-" ß á ß -5 Ñ e Ð." ß á ß .5 Ñ sono vettori di costanti, sono indipendenti se e solo se 5 - 3 .3 œ ! . 3œ" A.1.3. La distribuzione Uniforme. La variabile casuale ^ è detta Uniforme standard se possiede la funzione di densità 0^ ÐDÑ œ IÐ!ß"Ñ ÐDÑ . Il grafico della funzione di densità di ^ è riportato in Figura A.1.2. La funzione di ripartizione di ^ risulta J^ ÐDÑ œ D IÐ!ß"Ñ ÐDÑ IÒ"ß∞Ñ ÐDÑ . I momenti della Uniforme standard sono dati da Appendice 151 EÐ^ < Ñ œ " , < œ "ß #ß á . <" Di conseguenza, risulta EÐ^Ñ œ "Î# e VarÐ^Ñ œ "Î"#. 1.2 1 0.8 0.6 0.4 0.2 0 − 0.5 0 0.5 1 1.5 Figura A.1.2. Funzione di densità della Uniforme standard. Per indicare che ^ è Uniforme standard si adotta la notazione ^ µ Y Ð!ß "Ñ, mentre se \ è Uniforme non standard si scrive \ µ Y Ð-ß - $ Ñ. La parametrizzazione in termini di - e - $ si usa per evidenziare che il supporto della variabile casuale non standard \ risulta Ð-ß - $ Ñ. A.1.4. La distribuzione Gamma. La variabile casuale ^ è detta Gamma standard se possiede la funzione di densità 0^ ÐDÑ œ " D :" expÐ DÑ IÐ!ß∞Ñ ÐDÑ , >Ð:Ñ dove : − ‘ è un parametro di forma. Per : œ " la variabile casuale ^ è detta Esponenziale standard. I grafici delle funzioni di densità di ^ per alcuni : sono riportati in Figura A.1.3. 1 0.8 0.6 0.4 0.2 0 0 1 2 3 4 5 6 7 Figura A.1.3. Funzioni di densità della Gamma standard per : œ "ß #ß $. La funzione di ripartizione di ^ è ottenibile in forma chiusa solo se : è intero, nel qual caso J^ ÐDÑ œ –" expÐ DÑ I momenti della Gamma standard risultano :" 3œ! D3 IÐ!ß∞Ñ ÐDÑ , : − . — 3x 152 Appendice EÐ^ < Ñ œ >Ð: <Ñ , < œ "ß #ß á . >Ð:Ñ Di conseguenza, si ha EÐ^Ñ œ : e VarÐ^Ñ œ :. Per indicare che ^ è Gamma standard con parametro di forma : si adopera la notazione ^ µ KÐ!ß "à :Ñ, mentre se \ è Gamma non standard si scrive \ µ KÐ-ß $ à :Ñ. La Esponenziale standard ^ viene indicata invece con la notazione ^ µ IÐ!ß "Ñ, mentre se \ è Esponenziale non standard si scrive \ µ IÐ-ß 5Ñ, dal momento che in questo caso il parametro di scala coincide con lo scarto quadratico medio. Per la Gamma valgono le seguenti due proprietà (vedi Fattorini, 1994): i) Se \ µ KÐ-ß $ à :Ñ, allora ] œ + ,\ µ KÐ+ -,ß , $ à :Ñ , dove + e , sono costanti. ii) Se Ð\" ß á ß \5 Ñ è un vettore di variabili casuali indipendenti con \3 µ KÐ-ß $ à :3 Ñ, allora 5 5 \3 µ K - ß $ à ] œ 3œ" :3 . 3œ" A.1.5. La distribuzione Beta. La variabile casuale ^ è detta Beta standard se possiede la seguente funzione di densità >Ð: ;Ñ :" D Ð" DÑ;" IÐ!ß"Ñ ÐDÑ , >Ð:Ñ>Ð;Ñ 0^ ÐDÑ œ dove : − ‘ e ; − ‘ sono parametri di forma. Se : œ ; œ ", la Beta standard si riduce alla Uniforme standard. I grafici della funzione di densità di ^ per alcuni valori di : e ; sono riportati nelle Figure A.1.4 e A.1.5. La funzione di ripartizione di ^ può essere ottenuta solo se : e ; sono interi, nel qual caso :;" J^ ÐDÑ œ 3œ: Œ :;" 3 D 3 Ð" DÑ:;"3 IÐ!ß"Ñ ÐDÑ IÒ"ß∞Ñ ÐDÑ , : − , ; − . Per la Beta standard si ha EÐ^ < Ñ œ >Ð: ;Ñ>Ð: <Ñ , < œ "ß #ß á , >Ð:Ñ>Ð: ; <Ñ da cui EÐ^Ñ œ : :; e VarÐ^Ñ œ :; . Ð: ;Ñ# Ð: ; "Ñ Per indicare che ^ è Beta standard con parametri di forma : e ; si adotta la notazione ^ µ F/Ð!ß "à :ß ;Ñ, mentre se \ è Beta non standard si scrive \ µ F/Ð-ß - $ à :ß ;Ñ. La parametrizzazione in termini di - e - $ viene impiegata per evidenziare che il supporto della variabile casuale non standard \ risulta Ð-ß - $ Ñ. Appendice 153 2 1.5 1 0.5 0 0 0.2 0.4 0.6 0.8 1 Figura A.1.4. Funzioni di densità della Beta standard per Ð:ß ;Ñ œ Ð!.$ß !.$Ñß Ð".$ß !.(Ñß Ð!.(ß ".$Ñ. 2 1.5 1 0.5 0 0 0.2 0.4 0.6 0.8 1 Figura A.1.5. Funzioni di densità della Beta standard per Ð:ß ;Ñ œ Ð#ß #Ñß Ð#ß %Ñß Ð%ß #Ñ. A.1.6. La distribuzione di Cauchy. La variabile casuale ^ è detta di Cauchy standard se possiede la seguente funzione di densità 0^ ÐDÑ œ " . 1Ð" D # Ñ Il grafico della funzione di densità di ^ è riportato in Figura A.1.6. 0.3 0.2 0.1 0 −4 −2 0 2 4 Figura A.1.6. Funzione di densità della Cauchy standard. La funzione di ripartizione di ^ risulta J^ ÐDÑ œ " " tan" ÐDÑ . # 1 154 Appendice La Cauchy standard non possiede momenti di alcun ordine. Per indicare che ^ è Cauchy standard si adotta la notazione ^ µ GÐ!ß "Ñ, mentre se \ è Cauchy non standard \ µ GÐ-ß $ Ñ. A.1.7. La distribuzione di Laplace. La variabile casuale ^ è detta di Laplace standard se possiede la seguente funzione di densità 0^ ÐDÑ œ " expÐ ± D ± Ñ . # Il grafico della funzione di densità di ^ è riportato in Figura A.1.7. 0.5 0.4 0.3 0.2 0.1 0 −4 −2 0 2 4 Figura A.1.7. Funzione di densità della Laplace standard. La funzione di ripartizione di ^ risulta J^ ÐDÑ œ " " expÐ ± D ± Ñ IÐ∞ß!Ó ÐDÑ Ò# expÐ ± D ± ÑÓ IÐ!ß∞Ñ ÐDÑ . # # Per la Laplace standard si ha EÐ^ < Ñ œ œ ! >Ð< "Ñ < dispari , < œ "ß #ß á . < pari Di conseguenza, risulta EÐ^Ñ œ ! e VarÐ^Ñ œ #. Quindi, per la Laplace non standard il parametro di posizione coincide con la media .. Per indicare che ^ è Laplace standard si adotta la notazione ^ µ PÐ!ß "Ñ, mentre se \ è Laplace non standard si scrive \ µ PÐ.ß $ Ñ. A.1.8. La distribuzione di Weibull. La variabile casuale ^ è detta di Weibull standard se possiede la seguente funzione di densità 0^ ÐDÑ œ :D :" expÐ D : Ñ IÐ!ß∞Ñ ÐDÑ , dove : − ‘ è un parametro di forma. I grafici della funzione di densità di ^ per alcuni valori di : sono riportati in Figura A.1.8. La funzione di ripartizione di ^ risulta J^ ÐDÑ œ Ò" expÐ D : ÑÓ IÐ!ß∞Ñ ÐDÑ . I momenti della Weibull standard sono dati da < EÐ^ < Ñ œ >Œ " , < œ "ß #ß á . : Di conseguenza, risulta Appendice 155 " EÐ^Ñ œ >Œ " : e # " VarÐ^Ñ œ >Œ " >Œ " : : # . Per indicare che ^ è Weibull standard si adotta la notazione ^ µ [ Ð!ß "à :Ñ, mentre se \ è Weibull non standard si scrive \ µ [ Ð-ß $ à :Ñ. 1 0.8 0.6 0.4 0.2 0 0 0.5 1 1.5 2 2.5 Figura A.1.8. Funzioni di densità della Weibull standard per : œ ".&ß #.!ß #.&. A.2. Alcune distribuzioni discrete A.2.1. Premessa. Nelle prossime sezione vengono analizzate brevemente le caratteristiche di alcune distribuzioni discrete di importanza fondamentale. Per ulteriori approfondimenti delle distribuzioni discrete è opportuno consultare il manuale di Johnson e Kotz (1972, vol. IV). A.2.2. La distribuzione Binomiale. La variabile casuale ^ è detta Binomiale se possiede la seguente funzione di probabilità 8 :^ ÐDÑ œ Š ‹ :D Ð" :Ñ8D IÖ!ß"ßáß8× ÐDÑ , D dove : − Ð!ß "Ñ e 8 − . I grafici della funzione di probabilità di ^ per alcuni valori di : e 8 sono riportati in Figura A.2.1. Per la Binomiale si ha EÐ^Ñ œ 8: e VarÐ^Ñ œ 8:Ð" :Ñ. Per indicare che ^ è Binomiale si adotta la notazione ^ µ F3Ð8ß :Ñ. Per la Binomiale vale la seguente proprietà (vedi Fattorini, 1994): i) Se Ð^" ß á ß ^5 Ñ è un vettore di variabili casuali indipendenti con ^3 µ F3Ð83 ß :Ñ, allora 5 ] œ 5 ^3 µ F3 3œ" 83 ß : . 3œ" La variabile casuale Binomiale può essere generalizzata al caso multivariato ottenendo la distribuzione Multinomiale. Il vettore di variabili casuali discrete Ð^" ß á ß ^5 Ñ è detto Multinomiale se possiede la seguente funzione di probabilità 156 Appendice 8 :Ð^" ßáß^5 Ñ ÐD" ß á ß D5 Ñ œ Œ D" á D 5 $ :4D4 IE ÐD" ß á ß D5 Ñ , 5 4œ" dove 5 Eœ ÐD" ß á ß D5 ÑÀ D4 − ß 4œ" D4 œ 8Ÿ e Ð:" ß á ß :5 Ñ è un vettore di parametri tale che :4 − Ð!ß "Ñ e che 5 4œ" :3 œ ". 0.25 0.2 0.15 0.1 0.05 0 0 2 4 6 8 10 0 2 4 6 8 10 0.25 0.2 0.15 0.1 0.05 0 Figura A.2.1. Funzioni di probabilità della Binomiale per : œ !Þ$ß !Þ& e 8 œ "!. Evidentemente, Ð^" ß á ß ^5 Ñ è un vettore degenere di variabili casuali e inoltre sono distinti solo Ð5 "Ñ parametri nel vettore Ð:" ß á ß :5 Ñ. Si può dimostrare che ^4 µ F3Ð8ß :4 Ñ, mentre EÐ^4 Ñ œ 8:4 , VarÐ^4 Ñ œ 8:4 Ð" :4 Ñ e CovÐ^4 ß ^6 Ñ œ 8:4 :6 (vedi Fattorini, 1994). Infine, per indicare che Ð^" ß á ß ^5 Ñ è Multinomiale si adotta la notazione Ð^" ß á ß ^5 Ñ µ Q ?Ð8à :" ß á ß :5 Ñ. A.2.3. La distribuzione di Poisson. La variabile casuale ^ è detta di Poisson se possiede la seguente funzione di probabilità :^ ÐDÑ œ expÐ .Ñ .D IÖ!ß"ßá× ÐDÑ , Dx dove . − ‘ . I grafici della funzione di probabilità di ^ per alcuni valori di . sono riportati in Figura A.2.2. Per la Poisson si ha EÐ^Ñ œ . e VarÐ^Ñ œ .. Per indicare che ^ è Poisson si adotta la notazione ^ µ T 9Ð.Ñ. Appendice 157 0.25 0.2 0.15 0.1 0.05 0 0 2 4 6 8 10 0 2 4 6 8 10 0.2 0.15 0.1 0.05 0 Figura A.2.2. Funzioni di probabilità della Poisson per . œ #ß %. Per la Poisson vale la seguente proprietà (vedi Fattorini, 1994): iÑ Se Ð^" ß á ß ^5 Ñ è un vettore di variabili casuali indipendenti tali che ^3 µ T 9Ð.3 Ñ, allora 5 5 ] œ .3 ^3 µ T 9 3œ" . 3œ" A.2.4. La distribuzione Ipergeometrica. La variabile casuale ^ è detta Ipergeometrica se possiede la seguente funzione di probabilità :^ ÐDÑ œ Q ‰ ˆ QD ‰ˆ R8D ˆ R8 ‰ IÖmaxÐ!ß8R Q ÑßáßminÐ8ßQ Ñ× ÐDÑ , dove 8 − , Q − , R − sono tali che 8 Ÿ R e Q Ÿ R . I grafici della funzione di probabilità di ^ per alcuni valori di 8, Q e R sono riportati in Figura A.2.3. Si ha EÐ^Ñ œ 8Q R e VarÐ^Ñ œ 8Q ÐR Q ÑÐR 8Ñ . R # ÐR "Ñ Per indicare che ^ è Ipergeometrica si adotta la notazione ^ µ MÐ8ß Q ß R Ñ. 158 Appendice 0.3 0.25 0.2 0.15 0.1 0.05 0 0 2 4 6 8 10 0 2 4 6 8 10 0.3 0.25 0.2 0.15 0.1 0.05 0 Figura A.2.3. Funzioni di probabilità della Ipergeometrica per Q œ "#ß #!, R œ %! e 8 œ "!. A.3. Le distribuzioni Chi-quadrato, t e F A.3.1. Premessa. In questa sezione si considera alcune distribuzioni fondamentali nella statistica inferenziale connesse alla Normale. Per i dettagli teorici della genesi di queste distribuzioni si veda Fattorini (1994). A.3.2. La distribuzione Chi-quadrato. Se Ð^" ß á ß ^8 Ñ è un vettore di variabili casuali indipendenti tali che ^3 µ R Ð!ß "Ñ, allora la trasformata 8 ^3# Y œ 3œ" è detta variabile casuale Chi-quadrato con 8 gradi di libertà. Per indicare che Y è Chi-quadrato con 8 gradi di libertà si adotta la notazione Y µ ;#8 . Dal momento che ;8# µ KÐ!ß #à 8Î#Ñ (vedi Fattorini, 1994), allora la funzione di densità di Y risulta 0Y Ð?Ñ œ " ? 8Î#" ? expŠ ‹ IÐ!ß∞Ñ Ð?Ñ . Š ‹ #>Ð8Î#Ñ # # I grafici della funzione di densità di Y per alcuni valori di 8 sono riportati in Figura A.3.1. Per la Chi-quadrato risulta EÐY Ñ œ 8 e VarÐY Ñ œ #8. Si noti che il quantile di ordine α della Chi-quadrato con 8 gradi di libertà viene indicato con ;#8ßα . Per la Chi-quadrato vale la seguente proprietà (vedi Fattorini, 1994): i) Se ÐY" ß á ß Y5 Ñ è un vettore di variabili casuali indipendenti con Y3 µ ;#83 , allora Appendice 159 5 Y3 µ ;#8 , ] œ 3œ" dove 8 œ 5 3œ" 83 . 0.5 0.4 0.3 0.2 0.1 0 0 2 4 6 8 Figura A.3.1. Funzioni di densità della Chi-quadrato per 8 œ "ß $ß &. A.3.3. La distribuzione > di Student. Se ^ µ R Ð!ß "Ñ e Y µ ;#8 sono indipendenti, allora la trasformata X œ ^ ÈY Î8 è detta variabile casuale > di Student con 8 gradi di libertà. Per indicare che X è > di Student con 8 gradi di libertà si adotta la notazione X µ >8 . Si può dimostrare la funzione di densità di X risulta (vedi Fattorini, 1994) ># >ÒÐ8 "ÑÎ#Ó 0X Ð>Ñ œ " È81 >Ð8Î#Ñ Œ 8 Ð8"ÑÎ# . I grafici della funzione di densità di X per alcuni valori di 8 sono riportati in Figura A.3.2. 0.4 0.3 0.2 0.1 0 −4 −2 0 2 4 Figura A.3.2. Funzioni di densità della > di Student per 8 œ "ß $ß "!. Per 8 œ " la > di Student si riduce alla Cauchy standard. Per la > di Student si ha inoltre EÐX Ñ œ ! e VarÐX Ñ œ 8ÎÐ8 #Ñ (se 8 #). Il quantile di ordine α della > di Student con 8 . gradi di libertà viene indicato con >8ßα . Infine, per 8 Ä ∞ risulta >8 Ä R Ð!ß "Ñ (vedi Fattorini, 1994). 160 Appendice A.3.4. La distribuzione J di Snedecor. Se Y µ ;#7 e Z µ ;8# sono indipendenti, allora la trasformata J œ Y Î7 Z Î8 è detta variabile casuale J di Snedecor con 7 e 8 gradi di libertà. Per indicare che J è J di Snedecor con 7 e 8 gradi di libertà si adotta la notazione J µ J7ß8 . Si può dimostrare la funzione di densità di J risulta (vedi Fattorini, 1994) 0J Ð0 Ñ œ >ÒÐ7 8ÑÎ#ÓÐ7Î8Ñ7Î# 7Î#" 70 0 Œ" >Ð7Î#Ñ>Ð8Î#Ñ 8 Ð78ÑÎ# IÐ!ß∞Ñ Ð0 Ñ . I grafici della funzione di densità di J per alcuni valori di 7 e 8 sono riportati in Figura A.3.3. 0.8 0.6 0.4 0.2 0 0 1 2 3 4 Figura A.3.3. Funzioni di densità della J di Snedecor per Ð7ß 8Ñ œ Ð%ß %Ñß Ð"#ß "#Ñ. Per la J di Snedecor risulta rispettivamente EÐJ Ñ œ 8 8# se 8 # e VarÐJ Ñ œ #8# Ð7 8 #Ñ 7Ð8 #Ñ# Ð8 %Ñ se 8 %. Il quantile di ordine α della J di Snedecor con 7 e 8 gradi di libertà viene indicato con J7ß8ßα . Infine, si ha >8 œ ÈJ"ß8 e F/Ð!ß "à 8Î#ß 7Î#Ñ œ 8ÎÐ8 7J7ß8 Ñ. A.4. Alcune distribuzioni multivariate A.4.1. La distribuzione Normale multivariata. La variabile casuale Normale può essere generalizzata al caso multivariato. Si dice che il vettore di variabili casuali k œ Ð\" ß á ß \. ÑT è Normale multivariato se possiede funzione di densità congiunta 0k ÐxÑ œ detÐ#1DÑ"Î# exp” " Ðx .ÑT D" Ðx .Ñ• , # dove . − ‘. e D ! è una matrice simmetrica definita positiva di ordine . . La Normale multivariata possiede vettore medio EÐk Ñ œ . e matrice di varianza-covarianza VarÐk Ñ œ D. Per indicare che k è Normale multivariata si adotta la notazione k µ R. Ð.ß DÑ. Appendice 161 I grafici della funzione di densità di k per . œ # e alcuni valori di . e D sono riportati nelle Figure A.4.1, A.4.2 e A.4.3. Per la Normale multivariata valgono le seguenti due proprietà (vedi Muirhead, 1982): i) Se Ðk" ß á ß k5 Ñ sono vettori di variabili casuali indipendenti tali che k3 µ R. Ð.3 ß D3 Ñ, allora 5 lœ 5 Ð+3 ,3 k3 Ñ µ R. 3œ" 5 Ð+3 ,3 .3 Ñß 3œ" 3œ" ,3# D3 Ÿ , dove Ð+" ß á ß +5 Ñ e Ð," ß á ß ,5 Ñ sono vettori di costanti. 3 2 0.15 1 0.1 0 0.05 −1 2 0 0 −2 2 −2 0 −3 −2 −3 −2 −1 0 1 2 3 2 3 Figura A.4.1. Funzione di densità (con grafico di contorno) di una ! " ! Normale multivariata R# Ð.ß DÑ con . œ Œ eDœŒ . ! ! " 3 2 0.1 1 0.08 0.06 2 0.04 0.02 0 0 0 −1 −2 2 −2 0 −2 −3 −3 −2 −1 0 1 Figura A.4.2. Funzione di densità (con grafico di contorno) di una ! # " Normale multivariata R# Ð.ß DÑ con . œ Œ eDœŒ . ! " # 162 Appendice 3 2 0.1 1 0.08 0 0.06 2 0.04 −1 0.02 0 0 −2 2 −2 0 −3 −2 −3 −2 −1 0 1 2 3 Figura A.4.3. Funzione di densità (con grafico di contorno) di una ! # " Normale multivariata R# Ð.ß DÑ con . œ Œ eDœŒ . ! " # ii) Se k" ß á ß k5 sono vettori di variabili casuali indipendenti tali che k3 µ R. Ð.3 ß D3 Ñ, allora i vettori di variabili casuali 5 l" œ 5 -3 k3 , l# œ 3œ" . 3 k3 , 3œ" dove Ð-" ß á ß -5 Ñ e Ð." ß á ß .5 Ñ sono vettori di costanti, sono indipendenti se e solo se 5 - 3 .3 œ ! . 3œ" A.4.2. La distribuzione di Wishart. Se Ðk" ß á ß k8 Ñ casualiindipendenti tali che k3 µ R. Ð!ß DÑ, allora la trasformata sono vettori di variabili 8 k3 k3T `œ 3œ" è detta matrice casuale di Wishart con 8 gradi di libertà e parametro D. Per indicare che ` è matrice casuale di Wishart si adotta la notazione ` µ [. Ð8ß DÑ. Se 8 . , allora ` risulta quasi certamente positiva definita con funzione di densità congiunta 0` ÐMÑ œ detÐ#DÑ8Î# " detÐMÑÐ8."ÑÎ# exp” trÐD" MÑ• , M ! , >. Ð8Î#Ñ # dove >. Ð8Î#Ñ œ 1.Ð."ÑÎ% #.4œ" >ÒÐ8 4 "ÑÎ#Ó. Se D œ I. e . œ ", allora la [. Ð8ß DÑ si riduce alla ;#8 . Inoltre, risulta EÐMÑ œ D. Per la distribuzione di Wishart valgono le seguenti proprietà (vedi Muirhead, 1982): i) Se Ð`" ß á ß `5 Ñ sono matrici casuali indipendenti con `3 µ [. Ð83 ß DÑ, allora Appendice 163 5 lœ `3 µ [. Ð8ß DÑ , 3œ" dove 8 œ 53œ" 83 . ii) Se ` µ [. Ð8ß DÑ con D œ diagÐD"" ß D## Ñ dove D"" è di ordine / e D## è di ordine Ð. /Ñ e se `œŒ `"" `#" `"# `## , allora X œ `## `#" `" "" `"# µ [./ ÐD## ß 8 /Ñ e [ œ `#" `" "" `"# µ [./ ÐD## ß /Ñ , sono indipendenti. iii) Se `B œ 83œ" k3 k3T µ [. Ð8ß DÑ e se Ðz" ß á ß z8 Ñ costituisce una matrice di coefficienti di ordine Ð/ ‚ 8Ñ tale che 83œ" z3 œ !, allora X œ `B `BD M" D `DB µ [. ÐDß 8 /Ñ e [ œ `BD M" D `DB µ [. ÐDß /Ñ , sono indipendenti, dove `BD œ `TDB œ 83œ" k3 z3T e MD œ 83œ" z3 z3T . Una trasformata della matrice casuale di Wishart è la variabile casuale X di Hotelling. Se il vettore casuale k µ R. Ð!ß DÑ e la matrice casuale ` µ [. Ð8ß DÑ sono indipendenti, allora la trasformata L œ 8k T `" k è detta variabile casuale X di Hotelling con 8 gradi di libertà. Per indicare che L è X di Hotelling si adotta la notazione L µ X.ß8 . Si può dimostrare (vedi Muirhead, 1982) che fra la X di Hotelling e la J di Snedecor esiste la seguente relazione X.ß8 œ 8. J.,8." . 8.1 Evidentemente, per . œ " si ha >8 œ ÈX"ß8 . Una ulteriore trasformata della matrice casuale di Wishart è la variabile casuale L di Wilks. Se le matrici casuali `" µ [. Ð7ß DÑ e `# µ [. Ð8ß DÑ sono indipendenti, allora la trasformata Lœ detÐ`" Ñ detÐ`" `# Ñ è detta L di Wilks con 7 e 8 gradi di libertà. Per indicare questa trasformata si adotta la notazione L µ L.ß7ß8 . Si può dimostrare (vedi Muirhead, 1982) che per la variabile casuale L.ß7ß8 di Wilks vale la seguente relazione L.ß7ß8 œ $ F/Œ!ß "à 8 3œ" 7.3 . ß # # , 164 Appendice dove le variabili casuali beta nel prodotto sono indipendenti. Come casi particolari della precedente relazione si ha inoltre L.ß7ß" œ F/Œ!ß "à 7." . ß # # œ 7." 7 . " .J.ß7." e L.ß7ß# œ F/Ð!ß "à 7 . "ß .Ñ# œ Œ mentre L"ß7ß8 œ F/Š!ß "à 7." 7 . " .J#.ß#7#.# # , 7 8 7 ß ‹œ # # 7 8J8ß7 e L#ß7ß8 7" œ F/Ð!ß "à 7 "ß 8Ñ œ Œ 7 " 8J#8ß#7# # # . Infine, il quantile di ordine α della L di Wilks con 7 e 8 gradi di libertà viene indicato con L.ß7ß8ßα . Bibliografia Bibliografia di base Agresti, A. (1995) An introduction to categorical data analysis, Wiley, New York. Azzalini, A. (1996) Statistical inference, Chapman and Hall, London. Brown, L.D. (1986) Fundamentals of statistical exponential families, with applications in statistical decision theory, Institute of Mathematical statistics, Hayward, CA. Fattorini, L. (1994) Lezioni di calcolo delle probabilità, Nuova Immagine, Siena. Fattorini, L. (1997) Introduzione alla statistica, Stamperia della Facoltà di Economia, Università di Siena, Siena. Ferguson, T.S. (1996) A course in large sample theory, Chapman and Hall, London. Johnson, N.L. e Kotz, S. (1972) Distributions in statistics, vol. I-IV, Wiley, New York. Lehmann, E.L. (1983) The theory of point estimation, Wiley, New York. Muirhead, R.J. (1982) Aspects of multivariate statistical theory, Wiley, New York. Rao, C.R. (1973) Linear statistical inference and its applications, Wiley, New York. Seber, G.A.F. (1977) Linear regression analysis, Wiley, New York. Wilks, S.S. (1962) Mathematical statistics, Wiley, New York. Riferimenti bibliografici Angus, J.E. (1982) Goodness-of-fit tests for exponentiality based on a loss-of-memory type functional equation, Journal of Statistical Planning and Inference 6, 241-251. Baten, W.D., Tack, P.I. e Baeder H.A. (1958) Testing for differences between methods of preparing ish by use of a discriminant function, Industrial Quality Control 14, 6-10. Bissel, A.F. (1972) A negative binomial model with varying element sizes, Biometrika 59, 435441. Bhatia, M.L., Manchanda, S.C. e Roy, S.B. (1969) Coronary haemodinamic studies in chronic severe anaemia, British Heart Journal 31, 365-374. Box, G.E.P. e Youle, P.V. (1955) The exploration of response surfaces: an example of the link between the fitted surface and the basic mechanism of the system, Biometrics 11, 287-323. Dalal, S.R., Fowlkes, E.B. e Hoadley, B. (1989) Risk analysis of the space shuttle: prechallenger prediction of failure, Journal of the American Statistical Association 84, 945-957. Dubois, C. (1970) Lowie's selected papers in antrophology, University of California Press, California. Dunsmore, I.R. e Daly, F. (1987) M345 Statistical methods, Unit 9: categorical data, The Open University, Milton Keynes. Frets, G.P. (1921) Heredity of head form in man, Genetica 3, 193-384. Kendall, D.G. (1951) Some problems in the theory of queues, Journal of the Royal Statistical Society, Serie B 13, 151-185. Kramer, F. e Jensen, K. (1969) Fundamentals of multivariate analysis, Part II. Inference about two treatments, Journal of Quality Technology 2, 32-40. McArthur, J.W. (1931) Linkage studies with the tomato III. Fifteen factors in six groups, Transaction of the Royal Canadian Institute 18, 1-19. Norton, P.G e Dunn, E.V. (1985) Snoring as a risk factor for disease: an epidemiological survey, British Medical Journal 291, 630-632. 166 Bibliografia Odum, E.P. e Pontin, A.J. (1961) Population density of the underground ant Lasius Flavus, as determined by tagging with T $# , Ecology 42, 186-188. Pollock, M.L., Jackson, A.S. e Pate, R.R. (1980) Discriminant analysis of phisiological differences between good and elite runners, Research Quarterly 51, 521-532. Romano, A. (1977) Applied statistics for science and industry, Allyn and Bacon, Boston. Ryan, T.A. Jr, Joiner, B.L. e Ryan, B.F. (1985) The Minitab student handbook, Duxbury Press, Boston. Seber, G.A.F. (1973) The estimation of animal abundance, Griffin, London. Selvin, S. (1991) Statistical analysis of epidemiological data, Oxford University Press, New York. Till, R. (1974) Statistical methods for the earth scientist, McMillan, London. Van Oost, B.A., Veldhayzen, B., Timmermans, A.P.M. e Sixma, J.J. (1983) Increased urinary " thromboglobulin excretion in diabets assayed with a modified RIA kit-technique, Thrombosis and Haemostasis 9, 18-20. Williams, E.J. (1959) Regression analysis, Wiley, New York.