Inferenza statistica e probabilità
Verosimiglianza
Parte IV
Inferenza statistica: le basi
Inferenza statistica e probabilità
Verosimiglianza
Siamo interessati ad un fenomeno
In relazione ad esso possiamo osservare diversi elementi
caratteristici, che chiameremo variabili
Il fenomeno può essere circoscritto ad un determinato ambito
(spaziale, temporale, ecc.) che induce alla definizione di una
popolazione
Ogni elemento della popolazione si dice unità statistica
Generalmente non possiamo esaminare l’intera popolazione
(censimento). Possiamo però osservare la/le variabili che ci
interessano su un suo sottoinsieme, cioè su un campione
È possibile utilizzare l’informazione proveniente dal campione
per capire quali siano le caratteristiche salienti del fenomeno
sull’intera popolazione? Se sı̀, come? −→ inferenza statistica
Inferenza statistica e probabilità
Verosimiglianza
Fenomeno
1
2
3
andamento della produzione nel settore manifatturiero in Italia
nel 2005
rendimento degli studenti universitari italiani iscritti alle facoltà
di economia nel 2005
efficacia della politica pubblicitaria di un’azienda in Europa nel
primo trimestre 2006
Variabili
1
2
3
numero di occupati nel settore, politiche fiscali, ammontare
degli investimenti nel settore, andamento del fatturato, . . .
reddito familiare, situazione lavorativa, stato civile, località di
residenza, scuola di provenienza, voto di maturità, sesso . . .
canali utilizzati, caratteristiche dei consumatori (sesso, reddito,
livello di istruzione, nazionalità, ecc.), . . .
Inferenza statistica e probabilità
Verosimiglianza
Popolazione
1
2
3
Tutte le imprese operanti nel settore manifatturiero in Italia nel
2005
Tutti gli studenti iscritti nelle facoltà di economia in Italia nel
2005
Tutti i potenziali clienti europei dell’azienda nel primo
trimestre 2006
Campione
1
2
3
n imprese operanti nel settore manifatturiero in Italia nel 2005
scelte a caso
n studenti iscritti nelle facoltà di economia in Italia nel 2005
scelti a caso
n potenziali clienti europei dell’azienda nel primo trimestre
2006 scelti a caso
Inferenza statistica e probabilità
Verosimiglianza
Il campione è un sottoinsieme, di dimensione n, della
popolazione
Il campione deve essere rappresentativo della popolazione:
l’inclusione (esclusione) casuale di una unità statistica non
deve dipendere dalle caratteristiche dell’unità stessa.
Inferenza statistica e probabilità
Verosimiglianza
Negli esempi precedenti non ha senso
1
costruire un campione di 300 imprese operanti nel settore
manifatturiero scelte a caso tra quelle con fatturato superiore
a 30 milioni di euro
2
costruire un campione di 500 studenti scelti a caso tra i
maschi iscritti a Ca’ Foscari
3
costruire un campione di 10000 potenziali clienti scelti a caso
tra i residenti a Parigi
Inferenza statistica e probabilità
Verosimiglianza
Supponiamo però di sapere che i potenziali clienti della nostra
azienda si distribuiscono come segue: 70% in Italia, 20% in Francia
e 10% in Germania.
Supponiamo inoltre di voler costruire un campione di numerosità
fissata, per n = 10000.
Ha senso costruire un campione di 7000 Italiani, 2000 Francesi e
1000 Tedeschi scelti completamente a caso nei rispettivi paesi?
Inferenza statistica e probabilità
Verosimiglianza
Nel seguito, qualora non diversamente specificato, supporremo che
tutte le unità statistiche possano essere incluse nel campione con la
stessa probabilità, in modo indipendente e che ogni unità statistica
possa essere estratta ripetutamente. Ipotizzeremo cioè che il
campionamento sia casuale semplice, o bernoulliano.
Inferenza statistica e probabilità
Verosimiglianza
Un comune vuole stimare la proporzione ignota, θ, di veicoli ad
alimetazione diesel che circolano in città. A tale scopo incarica tre
statistici, A, B e C di effettuare delle rilevazioni di dati e di
proporre delle stime della proporzione ignota.
I tre statistici si collocano ad un incrocio per osservare un
campione di veicoli
Inferenza statistica e probabilità
Verosimiglianza
Lo statistico A fissa un numero di osservazioni pari a 10 ed
osserva:
ND, D, ND, ND, ND, D, ND, ND, ND, D
(D = Diesel, ND = Non Diesel)
Lo statistico B decide di rilevare le osservazioni in un arco di
10 minuti. Osserva gli stessi veicoli rilevati da A
Lo statistico C decide di sospendere le rilevazioni quando
osserverà tre veicoli ad alimentazione diesel. Osserva gli stessi
veicoli rilevati da A e B
Inferenza statistica e probabilità
Verosimiglianza
Posto che P(D) = θ, 0 ≤ θ ≤ 1, per ognuno dei tre statistici,
come si può definire un modello statistico?
Definiamo una variabile casuale X tale che
1 se è vero D
Y =
0 se è vero ND
fY (y ) =
θ
se y = 1
1 − θ se y = 0
Il campione osservato sarà y = [0, 1, 0, 0, 0, 1, 0, 0, 0, 1]0 ,
determinazione della variabile casuale multivariata
Y = [Y1 , . . . , Y10 ]0
con componenti stocasticamente indipendenti.
Inferenza statistica e probabilità
Verosimiglianza
A ritiene corretto quantificare la probabilità del campione
osservato, y, come quella di una particolare realizzazione di
una v.c. binomiale Bin(10, θ):
10 3
fY,A (y; θ) =
θ (1 − θ)7
3
B quantifica la probabilità della sequenza osservata come:
fY,B (y; θ) = (1 − θ)θ(1 − θ)(1 − θ)(1 − θ)θ(1 − θ)(1 − θ)
(1 − θ)θ
= θ3 (1 − θ)7
Inferenza statistica e probabilità
Verosimiglianza
C quantifica la probabilità della sequenza osservata come:
fY,C (y; θ) = P(decima diesel|2 nelle prime 9 sono diesel) ·
·P(2 nelle prime 9 sono diesel)
9 2
θ (1 − θ)7
= θ
2
9 3
=
θ (1 − θ)7
2
Inferenza statistica e probabilità
Verosimiglianza
Definiamo ora tre funzioni, formalmente identiche alle tre funzioni
di probabilità appena introdotte, viste però come funzioni di θ e
non di y:
10 3
LA (θ; y) = fY,A (y; θ) =
θ (1 − θ)7
3
LB (θ; y) = fY,B (y; θ) = θ3 (1 − θ)7
9 3
LC (θ; y) = fY,C (y; θ) =
θ (1 − θ)7
2
Possibile strategia
Per ciascuno dei tre statistici, A, B e C, i valori più plausibili di θ
saranno quelli a cui corrisponderanno valori elevati di
LA (θ; y), LB (θ; y) e LC (θ; y) rispettivamente.
Inferenza statistica e probabilità
Verosimiglianza
0.10
0.20
A
B
C
0.00
verosimiglianza
Figura 1: Esempio di analisi del traffico: funzioni di verosimiglianza per
A, B e C.
0.0
0.2
0.4
0.6
θ
0.8
1.0
Inferenza statistica e probabilità
Verosimiglianza
0.00 0.15
verosimiglianza A
Figura 2: Funzioni di verosimiglianza per A, B e C, rappresentazione
alternativa
0.0
0.2
0.4
0.6
0.8
1.0
0.6
0.8
1.0
0.6
0.8
1.0
0.0020
0.0000
verosimiglianza B
θ
0.0
0.2
0.4
0.15
0.00
verosimiglianza C
θ
0.0
0.2
0.4
Inferenza statistica e probabilità
Verosimiglianza
Definiamo la funzione di verosimiglianza come
L(θ; y) ∝ fY (y; θ)
e quindi
L(θ; y) = θ3 (1 − θ)7
Se θ∗ è il punto di massimo assoluto di L(θ; y), possiamo
normalizzare la funzione di verosimiglianza:
L∗ (θ; y) =
in modo tale che 0 ≤ L∗ (θ; y) ≤ 1.
L(θ; y)
L(θ∗ ; y)
Inferenza statistica e probabilità
Verosimiglianza
Figura 3: Verosimiglianza e verosimiglianza normalizzata
0.0000
0.0020
Funzione di verosimiglianza
0.0
0.2
0.4
0.6
0.8
1.0
θ
0.0
0.6
Funzione di verosimiglianza normalizzata
0.0
0.2
0.4
0.6
θ
0.8
1.0
Inferenza statistica e probabilità
Verosimiglianza
Un gruppo di studiosi vuole capire in che misura, all’inizio
della primavera, una pianta si stia diffondendo in una foresta
(popolazione).
Si individuano casualmente sulla superficie della foresta n
quadrati di lato unitario, detti blocchi (unità statistiche).
Su ciascun blocco, i, si conta il numero di nuovi germogli, yi ,
i = 1, . . . , n (osservazioni).
Si vuole valutare quante nuove piante germoglino mediamente
per ogni metro quadrato della foresta.
Inferenza statistica e probabilità
Verosimiglianza
Se ipotizziamo che il numero di nuovi germogli non dipenda
dalla collocazione del blocco sul territorio, possiamo pensare
che Yi , i = 1, . . . , n, siano n v. c. identicamente distribuite,
cioè distribuite come la v. c. Y che rappresenta il modello di
comportamento della popolazione.
Poiché ipotizziamo che non vi sia alcun tipo di dipendenza
spaziale e i blocchi sono scelti a caso, possiamo pensare che i
dati yi siano determinazioni di n variabili casuali
stocasticamente indipendenti, Yi .
Inferenza statistica e probabilità
Un ragionevole modello statistico
Possiamo assumere che
Y = numero di nuovi germogli per metro quadrato
sia una variabile casuale di Poisson con parametro θ, ovvero
Y ∼ Po(θ), θ > 0 , con funzione di probabilità
( −θ y
e θ
y ∈ {0, 1, 2, . . . }
y!
fY (y ; θ) = P(Y = y ; θ) =
0
y∈
/ {0, 1, 2, . . . }
con E (Y ) = Var (Y ) = θ.
Verosimiglianza
Inferenza statistica e probabilità
Verosimiglianza
Osserviamo n blocchi
y = [y1 , . . . , yn ]0 campione osservato
probabilità congiunta del campione osservato
P(Y = y; θ) = fY (y; θ)
n −θ yi Y
e θ
=
yi !
=
i=1
Pn
e −nθ θ i=1 yi
Qn
i=1 yi !
definiamo la funzione di verosimiglianza
L(θ; y) = e −nθ θ
Pn
i=1 yi
Inferenza statistica e probabilità
Verosimiglianza
Supponiamo di osservare 3 nuovi germogli su un solo blocco:
L(θ; y) = e −nθ θ
Pn
i=1 yi
= e −θ θ3
Supponiamo di osservare 1 nuovo germoglio su un solo blocco
diverso dal precedente:
L(θ; y) = e −θ θ
Supponiamo di osservare 40 nuovi germogli su 60 blocchi:
L(θ; y) = e −60θ θ40
Inferenza statistica e probabilità
Qual è il campione più informativo?
Verosimiglianza
Inferenza statistica e probabilità
Verosimiglianza
Figura 4: Verosimiglianze su campioni diversi
0.20
0.00
Verosimiglianza
Campione di dimensione 1
0
5
10
15
θ
0.3
0.0
Verosimiglianza
Campione di dimensione 1
0
5
10
15
θ
0.04
0.00
Verosimiglianza
Campione di dimensione 60
0
5
10
θ
15
Inferenza statistica e probabilità
Verosimiglianza
Il modello statistico
Il campione osservato è una sequenza di valori,
y = [y1 , . . . , yn ]0
che possono essere visti come il risultato di un esperimento
casuale (l’estrazione casuale di n unità statistiche)
Ogni yi , i = 1, . . . , n, sarà qundi una determinazione di una
variabile casuale Yi
Se il campionamento è casuale semplice allora le variabili
casuali Yi , i = 1, . . . , n, saranno stocasticamente indipendenti
e avranno tutte la stessa distribuzione di probabilità,
rappresentabile attraverso la sua funzione di densità di
probabilità (o di probabilità) g0 (y )
Inferenza statistica e probabilità
Verosimiglianza
g0 (·) rappresenta il comportamento del fenomeno nella
popolazione
A sua volta Y, sarà una variabile casuale n−variata con
funzione di densità di probabilità (o di probabilità)
f0 (y), y ∈ Rn :
n
Y
f0 (y) =
g0 (yi )
i=1
Inferenza statistica e probabilità
Scopo
Trarre delle conclusioni sulla distribuzione di Y , ovvero su g0 ,
limitandone, per quanto possibile, il grado di incertezza.
Verosimiglianza
Inferenza statistica e probabilità
Verosimiglianza
Possiamo assumere che g0 sia una funzione di densità (di
probabilità) qualsiasi? In generale no.
Il modello statistico
a) La natura del fenomeno a cui siamo interessati
b) Le conoscenze che abbiamo acquisito in relazione ad esso
c) il tipo di campionamento
impongono dei vincoli su g0 .
In particolare possiamo pensare che g0 appartenga ad una famiglia
di funzioni di densità (di probabilità):
g0 ∈ G
con G definita in modo coerente con a), b) e c)
Inferenza statistica e probabilità
Verosimiglianza
Esempi
G = {l’insieme di tutte le funzioni di densità derivabili}
G = {l’insieme di tutte le funzioni di densità log-concave}
g (y ; θ) = θ1{1} (y ) + (1 − θ)1{0} (y ), 0 ≤ θ ≤ 1 (equivalente a
Y ∼ Ber (θ))
y
g (y ; θ) = exp(−θ)θ
1{{0}∪N} (y ), θ > 0 (equivalente a
y!
Y ∼ Po(θ))
1A (y ) = 1 se y ∈ A, 1A (y ) = 0 altrimenti (1A (y ) = 1 si dice
funzione indicatrice)
Inferenza statistica e probabilità
Verosimiglianza
Modelli parametrici
Un modello statistico parametrico, o classe parametrica, è definito
come
G = {g (·; θ) : θ ∈ Θ ⊂ Rk , k ≥ 1}
Gli elementi di G sono funzioni (di probabilità o di densità di
probabilità) dello stesso tipo che si distinguono tra di loro per il
valore del parametro, θ, che varia nello spazio parametrico Θ
La funzione di probabilità (di densità di probabilità) g0 sarà un
elemento di G caratterizzato da uno specifico valore del parametro,
diciamo θ0 .
L’obbiettivo fondamentale della statistica parametrica è quindi
quello di fare inferenza su θ0 .
Inferenza statistica e probabilità
Verosimiglianza
Spazio campionario
Lo spazio campionario, Y è l’insieme di tutti i valori che possono
essere assunti dal campione, y, per qualsiasi numerosità
campionaria, n, compatibilmente con un dato modello statistico.
Inferenza statistica e probabilità
Verosimiglianza
Riparametrizzazioni
Un modello statistico può essere definito in diversi modi
equivalenti, detti parametrizzazioni. Supponiamo che h sia una
funzione biunivoca da Θ a Ψ. Allora
G = {g (·; θ) : θ ∈ Θ}
= {g (·; ψ) : ψ = h(θ), θ ∈ Θ}
= {g (·; ψ) : ψ ∈ Ψ}
Inferenza statistica e probabilità
Verosimiglianza
Esempio
exp(−θ)θy
: θ ∈ Θ = R+ }
y!
exp(− exp(ψ)) exp(ψ)y
= {g (y ; ψ) =
: ψ = log(θ), θ ∈ Θ}
y!
exp(− exp(ψ)) exp(ψ)y
= {g (y ; ψ) =
: ψ ∈ Ψ = R}
y!
G = {g (y ; θ) =
Inferenza statistica e probabilità
Verosimiglianza
Funzione di verosimiglianza
Sia G un dato modello statistico parametrico di cui y sia una
particolare determinazione. Si dice funzione di verosimiglianza, o
semplicemente verosimiglianza, la funzione L : Θ −→ R+ ∪ 0:
L(θ) = L(θ; y) = c(y)f (y; θ)
Quantifica la plausibilità dei valori del parametro θ ∈ Θ in relazione
ai dati osservati
e al modello statistico adottato.
Inferenza statistica e probabilità
Verosimiglianza
Esempio
Modello statistico: Y ∼ U[0, θ]
1
gY (y ) = 1[0,θ] (y ) θ > 0
θ
1[0,θ] (y ) = 1 se y ∈ [0, θ], 1[0,θ] (y ) = 0 altrimenti.
Campione osservato:
y1
3.25
y2
1.33
y3
3.44
y4
2.22
Funzione di verosimiglianza:
L(θ; y) =
Θ = [4.35, ∞).
1
1
(θ)
θ5 [4.35,∞)
y5
4.35
Inferenza statistica e probabilità
Verosimiglianza
4e−04
2e−04
0e+00
Verosimiglianza
6e−04
Figura 5: La funzione di verosimiglianza nell’esempio sul modello U[0, θ]
0
2
4
6
θ
8
10
Inferenza statistica e probabilità
Verosimiglianza
Per valori di θ più piccoli di max{yi , i = 1, . . . , 5} = 4.35 la
funzione di verosimiglianza della Figura 5 si annulla: perché?
Perché per valori di θ minori di 4.35 il campione osservato non
sarebbe compatibile con il modello statistico adottato.
Inferenza statistica e probabilità
Verosimiglianza
Statistica
Ogni funzione T (Y ) da Y a Rp , p ≥ 1 e indipendente da θ, si dice
statistica. Il valore t = T (y) corrispondente al campione osservato,
y, si dice valore campionario della statistica.
Partizione indotta da una statistica
Ogni statistica definisce una partizione dello spazio campionario.
Per qualsiasi t ∈ R
At = {y : y ∈ Y, T (y) = t} ⊆ Y
è l’insieme di tutti i campioni che danno luogo al valore
campionario t della statistica T (Y ).
Inferenza statistica e probabilità
Verosimiglianza
Analisi del traffico (continua)
Consideriamo il modello dello statistico A e definiamo la statistica:
P10
Yi
Ȳ = i=1
10
Insieme supporto
IȲ =
k
, k = 0, 1, . . . , 10
10
Funzione di probabilità
10 k
10−k
k θ (1 − θ)
fȲ (ȳ ; θ) =
0
k
ȳ = 10
, k = 0, . . . , 10
altrimenti
Inferenza statistica e probabilità
Verosimiglianza
Nel campione considerato nell’esempio, T (y) = ȳ = 0.3.
Se non conoscessimo il campione osservato, ma solo il valore di ȳ , a
questo valore assoceremmo il sottoinsieme dello spazio campionario
A0.3 = {Tutti i campioni con 3 D e 7 ND}
Inferenza statistica e probabilità
Verosimiglianza
Principio debole di verosimiglianza
Fissato un modello statistico, G = {g (·; θ) : θ ∈ Θ}, due campioni
y e x ∈ Y, tali che
L(θ; y) ∝ L(θ; x)
forniscono informazioni equivalenti dal punto di vista inferenziale.
Inferenza statistica e probabilità
Verosimiglianza
Analisi del traffico (continua)
Consideriamo ancora il modello dello statistico A e supponiamo
che il campione osservato fosse
x = {1, 1, 0, 0, 1, 0, 0, 0, 0, 0}.
In tal caso,
L(θ; x) ∝ θ3 (1 − θ)7
che è proporzionale alla verosimiglianza basata sul campione
considerato nella prima versione dell’esempio.
Le informazioni fornite su θ dai due campioni sono equivalenti.
Inferenza statistica e probabilità
Verosimiglianza
Principio forte di verosimiglianza
Un campione y riguardante il modello G = {g (·; θ) : θ ∈ Θ} e un
campione x riguardante il modello H = {h(·; θ) : θ ∈ Θ}, tali che
Lg (θ; y) ∝ Lh (θ; x)
devono condurre alle medesime conclusioni inferenziali.
Inferenza statistica e probabilità
Verosimiglianza
Analisi del traffico (continua)
Consideriamo i modelli dello statistico A e dello statistico C che, in
corrispondenza del campione osservato, y danno luogo alle
verosimiglianze:
LA (θ; y) = fY,A (y; θ) = θ3 (1 − θ)7
9 3
LC (θ; y) = fY,C (y; θ) =
θ (1 − θ)7
2
Le due verosimiglianze sono proporzionali e, come abbiamo visto
danno le stesse informazioni su θ.
Inferenza statistica e probabilità
Verosimiglianza
Se, invece, il campione osservato da A fosse
x = {1, 1, 0, 0, 1, 0, 0, 0, 0, 0},
C si limiterebbe ad osservare
z = {1, 1, 0, 0, 1}.
perché il terzo veicolo diesel coincide con la quinta osservazione.
Inferenza statistica e probabilità
Verosimiglianza
Quindi,
LA (θ; x) ∝ θ3 (1 − θ)7
LC (θ; z) ∝ θ3 (1 − θ)2
LA (θ; x)
LC (θ; z)
∝ (1 − θ)5
LA e LC forniscono informazioni diverse su θ
Inferenza statistica e probabilità
Verosimiglianza
Figura 6: Confronto tra LA e LC
0.020
0.010
0.000
Verosimiglianza
0.030
A
C
0.0
0.2
0.4
0.6
θ
0.8
1.0
Inferenza statistica e probabilità
Verosimiglianza
Statistiche sufficienti
Fissato un modello statistico G, una statistica T si dice sufficiente
per θ se essa assume lo stesso valore in corrispondenza di due
campioni solo se ad essi corrispondono verosimiglianze equivalenti:
∀y, z ∈ Y : T (y) = T (z) ⇒ L(θ, y) ∝ L(θ, z) ∀ θ ∈ Θ
Inferenza statistica e probabilità
Verosimiglianza
Y è sempre una statistica sufficiente
Modello
P binomiale (esempio dell’analisi del traffico):
T = ni=1 Yi è una statistica sufficiente. Un’altra statistica
sufficiente è Ȳ.
Modello di Poisson (esempio della diffusione
P di una pianta in
una foresta): anche in questo caso T = ni=1 Yi e Ȳ sono
statistiche sufficienti.
Per un campione casuale semplice di dimensione n da una
distribuzione U[0,θ] , una statistica sufficiente è
Y(n) = max{Y1 , . . . , Yn }
Inferenza statistica e probabilità
Verosimiglianza
Consideriamo un campione di dimensione n da una
distribuzione normale con media ignota e varianza nota:
Y ∼ N(θ, σ 2 ).
funzione di densità di probabilità di Y
1
(y − θ)2
g (y ) = √
exp −
2σ 2
2πσ
funzione di densità congiunta del campione
Pn
(yi − θ)2
1
i=1
exp −
fY (y) = √
2σ 2
( 2πσ 2 )n
Inferenza statistica e probabilità
Verosimiglianza
L(θ; y) ∝
=
=
∝
Quindi
Pn
i=1 Yi
verosimiglianza
Pn
(yi − θ)2
exp − i=1 2
2σ
Pn
Pn
2
2
i=1 yi + nθ
i=1 yi − 2θ
exp −
2σ 2
Pn
Pn
2
2θ i=1 yi − nθ2
i=1 yi
exp −
exp
2σ 2
2σ 2
Pn
2θ i=1 yi − nθ2
exp
2σ 2
è una statistica sufficiente per θ
Inferenza statistica e probabilità
Verosimiglianza
Osservazioni
Ogni trasformazione biunivoca di una statistica sufficiente è a
sua volta sufficiente.
Se T (Y) è una statistica sufficiente, allora L(θ; y) dipende da
y solo attraverso T (y),ovvero:
L(θ; y) ∝ h(T (y); θ)
(segue immediatamente dalla definizione)
Inferenza statistica e probabilità
Verosimiglianza
Teorema (di fattorizzazione di Neyman)
Fissato il modello G, la statistica T è sufficiente per θ se e solo se
f (y; θ) può essere fattorizzata come
f (y; θ) = u(y)h(T (y); θ)
Abbiamo già dimostrato che se T è sufficiente, allora
L(θ; y) ∝ h(T (y); θ)
Inferenza statistica e probabilità
Verosimiglianza
Dobbiamo ora dimostrare che g (y; θ) = u(y)h(T (y); θ) implica la
sufficienza di T :
L(θ; y) ∝ f (y; θ)
= u(y)h(T (y); θ)
∝ h(t; θ)
Inferenza statistica e probabilità
Verosimiglianza
Osservazione
Sia Y una variabile casuale discreta e sia IT l’insieme supporto di
T (y). Per ogni t ∈ IT ,
X
fT (t; θ) =
fY (y; θ)
y:T (y)=t
= h(t; θ)
X
u(y)
y:T (y)=t
∗
= h(t; θ)u (t)
La verosimiglianza L(θ; t) ∝ h(t; θ) è equivalente a L(θ; y).
Inferenza statistica e probabilità
Verosimiglianza
Teorema
Con riferimento ad un modello statistico G, la statistica T è
sufficiente per θ se e solo se la distribuzione di Y condizionata a
T = t non dipende da θ, ovvero
fY|T =t (y; θ) = fY|T =t (y)
Inferenza statistica e probabilità
Verosimiglianza
Dimostrazione ( solo per variabili casuali discrete)
Se fY|T =t (y; θ) = fY|T =t (y) allora
fY (y; θ) = fY|T =t (y)fT (t; θ)
Teorema di fattorizzazione ⇒ sufficienza di T
Se T è sufficiente, per il teorema di fattorizzazione si ha:
fY|T =t (y; θ) =
=
=
fY (y; θ)
fT (t; θ)
u(y)h(t; θ)
u ∗ (y)h(t; θ)
u(y)
non dipende da θ
u ∗ (y)
Quando Y è continua la dimostrazione è simile
Inferenza statistica e probabilità
Verosimiglianza
Definizione (Statistiche sufficienti minimali)
Con riferimento ad un modello statistico G, la statistica T è
sufficiente minimale per θ se assume valori distinti solo su campioni
che danno luogo a verosimiglianze non equivalenti, ovvero
T (y) = T (z) ⇔ L(θ; y) ∝ L(θ; z)
Inferenza statistica e probabilità
Verosimiglianza
La statistica sufficiente minimale induce la più piccola
partizione dello spazio campionario tra quelle definite dalle
statistiche sufficienti.
È funzione di qualsiasi altra statistica sufficiente
Tra tutte le statistiche sufficienti è quella che ha dimensione
più piccola.
Inferenza statistica e probabilità
Verosimiglianza
Esempio
Y ∼ N(0, θ), θ > 0. Campione di dimensione 1.
Verosimiglianza:
2
1
y
L(θ; y ) ∝ 0.5 exp −
θ
2θ
T (Y ) = Y e T1 (Y ) = Y 2 sono sufficienti, ma solo T1 (Y ) è
sufficiente minimale. Consideriamo due campioni, x e y :
2
y − z2
L(θ; y )
= exp −
L(θ; z)
2θ
non dipende da θ se e solo se y 2 = z 2 : questo vale non solo
quando y = z, ma anche quando y = −z.
Inferenza statistica e probabilità
Verosimiglianza
Variabile casuale normale con media e varianza ignote
Modello statistico: Y ∼ N(θ1 , θ2 ) θ = [θ1 , θ2 ]0 ∈ Θ = R × R+
1
(y − θ1 )2
g (y ; θ) = √
exp −
2θ2
2πθ2
Campione di dimensione n: Yn = Rn
Verosimiglianza:
Pn
2
i=1 (yi − θ1 )
L(θ; y) ∝ n exp −
2θ2
θ22
1
Inferenza statistica e probabilità
Verosimiglianza
L(θ; y) ∝
=
con t1 =
Pn
Pn
Pn
2
2
i=1 yi − 2θ1
i=1 yi + nθ1
−
n exp
2θ2
θ22
1
t2 − 2θ1 t1 + nθ12
−
n exp
2θ2
θ22
i=1 yi
1
e t2 =
Pn
2
i=1 yi
La statistica
T (Y) = [T1 (Y), T2 (Y)]0 ,
P
P
con T1 (Y) = ni=1 Yi e T2 = ni=1 Yi2 , è sufficiente per θ
Inferenza statistica e probabilità
Verosimiglianza
Due campioni, y e x danno luogo a verosimiglianze equivalenti
quando
L(θ; y)
T2 (y) − T2 (x) − 2θ1 (T1 (y) − T1 (x))
= exp −
L(θ; x)
2θ2
non dipende da θ.
Ciò avviene se e solo se T (y) = T (x).
Quindi T (Y) è sufficiente minimale
Inferenza statistica e probabilità
Verosimiglianza
Siano
n
T1∗ (Y) = Ȳ e T2∗ (Y) = S 2 =
1X
(Yi − Ȳ )2 ,
n
i=1
la statistica
T ∗ (Y) = [Ȳ , S 2 ]0
è una funzione biunivoca di T (Y), quindi è essa stessa
sufficiente minimale.
Inferenza statistica e probabilità
Verosimiglianza
Esercizio
Si supponga di disporre di un campione casuale semplice di
dimensione n corrispondente al modello statistico: Y ∼ N(µ, θ)
con media µ nota e varianza θ ignota.
1
Individuare lo spazio campionario e lo spazio parametrico
2
Determinare l’espressione della funzione di verosimiglianza
3
Individuare una statistica sufficiente minimale.
Inferenza statistica e probabilità
Verosimiglianza
La famiglia esponenziale
La classe parametrica G è una famiglia esponenziale di ordine r se
!
r
X
g (y ; θ) = q(y ) exp
ψi (θ)ti (y ) − τ (θ) θ ∈ Θ ⊆ Rk , k ≥ 1
i=1
dove r ≥ 1, ti (y ), i = 1, . . . , r , sono funzioni di y indipendenti da
θ e ψi (θ), i = 1, . . . , r , e τ (θ) sono funzioni di θ indipendenti da y .
Se
a0 +
r
X
ai ψi (θ) = 0 ∀θ ∈ Θ ⇔ ai = 0, i = 0, . . . , r
i=1
la famiglia esponenziale si dice ridotta.
Inferenza statistica e probabilità
Verosimiglianza
Esempi
Se Y ∼ Bin(n; θ),
n y
g (y ; θ) =
θ (1 − θ)n−y
y
n
θ
=
exp log
y + n log(1 − θ)
y
1−θ
θ
quindi r = 1, q(y ) = yn , ψ(θ) = log
, t(y ) = y e
1−θ
τ (θ) = −n log(1 − θ).
Inferenza statistica e probabilità
Verosimiglianza
Se Y ∼ N(θ1 , θ2 ),
g (y ; θ) =
=
=
1
(y − θ1 )2
√
exp −
2θ2
2πθ2
2
1
y − 2θ1 y + θ12
√
exp −
2θ2
2πθ2
θ1
1
1 2
θ12
1
√ exp
y−
y −
− log(θ2 )
θ2
2θ2
2θ2 2
2π
e quindi r = 2, q(y ) = √1 , ψ1 (θ) = − θ1 , ψ2 (θ) = 1 ,
θ2
2θ2
2π
2
θ
τ (θ) = 1 − 12 log(θ2 ), t1 (y ) = y e t2 (y ) = y 2
2θ2
Inferenza statistica e probabilità
Verosimiglianza
Se Y ∼ Po(θ),
g (y ; θ) = exp(−θ)
=
θy
y!
1
exp(log(θ)y − θ)
y!
e quindi r = 1, q(y ) = 1 , ψ(θ) = log(θ), t(y ) = y e
y!
τ (θ) = θ.
Inferenza statistica e probabilità
Verosimiglianza
Verosimiglianze della famiglia esponenziale
Se g (y ; θ) appartiene alla famiglia esponenziale, allora vi
appartiene anche f (y; θ):



r
n 

X
Y
ψj (θ)tj (yi ) − τ (θ)
q(yi ) exp 
f (y; θ) =


j=1
i=1


r
X
= q ∗ (y) exp 
ψj (θ)Tj (y) − τ ∗ (θ)
j=1
P
Tj (y) = ni=1 tj (yi ) e τ ∗ (θ) = nτ (θ).


r
X
L(θ; y) ∝ exp 
ψj (θ)Tj (y) − τ ∗ (θ)
dove q ∗ (y) =
Quindi,
Qn
i=1 q(yi ),
j=1
Inferenza statistica e probabilità
Verosimiglianza
Una conseguenza importante
Se g (y ; θ) appartiene alla famiglia esponenziale, allora
T (Y) = [T1 (Y), . . . , Tr (Y]0
è sufficiente minimale.
Inferenza statistica e probabilità
Verosimiglianza
Famiglie esponenziali regolari
Una famiglia esponenziale si dice regolare se:
Lo spazio parametrico, Θ coincide con l’intero insieme per cui
g (y ; θ) integra (somma) a 1 ed è un intervallo aperto in Rk ;
Le dimensioni di Θ e della statistica sufficiente minimale
coincidono;
ψ(θ) = [ψ1 (θ), . . . , ψr (θ)]0 è invertibile;
le funzioni ψi , i = 1, . . . , r e τ (θ) ammettono derivate di
qualsiasi ordine rispetto agli elementi di θ.
Inferenza statistica e probabilità
Verosimiglianza
Se Y appartiene ad una famiglia esponenziale regolare di ordine 1 e
Θ ⊂ R , allora
E [T (Y)] =
Var [T (Y)] =
τ ∗ 0 (θ)
ψ 0 (θ)
ψ 0 (θ)τ ∗ 00 (θ) − ψ 00 (θ)τ ∗ 0 (θ)
ψ 0 (θ)3
Dimostrazione: si veda Azzalini (2001).