Inferenza statistica

Inferenza statistica e probabilità
Verosimiglianza
Parte IV
Inferenza statistica: le basi
Inferenza statistica e probabilità
Verosimiglianza
Siamo interessati ad un fenomeno
In relazione ad esso possiamo osservare diversi elementi
caratteristici, che chiameremo variabili
Il fenomeno può essere circoscritto ad un determinato ambito
(spaziale, temporale, ecc.) che induce alla definizione di una
popolazione
Ogni elemento della popolazione si dice unità statistica
Generalmente non possiamo esaminare l’intera popolazione
(censimento). Possiamo però osservare la/le variabili che ci
interessano su un suo sottoinsieme, cioè su un campione
È possibile utilizzare l’informazione proveniente dal campione
per capire quali siano le caratteristiche salienti del fenomeno
sull’intera popolazione? Se sı̀, come? −→ inferenza statistica
Inferenza statistica e probabilità
Verosimiglianza
Fenomeno
1
2
3
andamento della produzione nel settore manifatturiero in Italia
nel 2005
rendimento degli studenti universitari italiani iscritti alle facoltà
di economia nel 2005
efficacia della politica pubblicitaria di un’azienda in Europa nel
primo trimestre 2006
Variabili
1
2
3
numero di occupati nel settore, politiche fiscali, ammontare
degli investimenti nel settore, andamento del fatturato, . . .
reddito familiare, situazione lavorativa, stato civile, località di
residenza, scuola di provenienza, voto di maturità, sesso . . .
canali utilizzati, caratteristiche dei consumatori (sesso, reddito,
livello di istruzione, nazionalità, ecc.), . . .
Inferenza statistica e probabilità
Verosimiglianza
Popolazione
1
2
3
Tutte le imprese operanti nel settore manifatturiero in Italia nel
2005
Tutti gli studenti iscritti nelle facoltà di economia in Italia nel
2005
Tutti i potenziali clienti europei dell’azienda nel primo
trimestre 2006
Campione
1
2
3
n imprese operanti nel settore manifatturiero in Italia nel 2005
scelte a caso
n studenti iscritti nelle facoltà di economia in Italia nel 2005
scelti a caso
n potenziali clienti europei dell’azienda nel primo trimestre
2006 scelti a caso
Inferenza statistica e probabilità
Verosimiglianza
Il campione è un sottoinsieme, di dimensione n, della
popolazione
Il campione deve essere rappresentativo della popolazione:
l’inclusione (esclusione) casuale di una unità statistica non
deve dipendere dalle caratteristiche dell’unità stessa.
Inferenza statistica e probabilità
Verosimiglianza
Negli esempi precedenti non ha senso
1
costruire un campione di 300 imprese operanti nel settore
manifatturiero scelte a caso tra quelle con fatturato superiore
a 30 milioni di euro
2
costruire un campione di 500 studenti scelti a caso tra i
maschi iscritti a Ca’ Foscari
3
costruire un campione di 10000 potenziali clienti scelti a caso
tra i residenti a Parigi
Inferenza statistica e probabilità
Verosimiglianza
Supponiamo però di sapere che i potenziali clienti della nostra
azienda si distribuiscono come segue: 70% in Italia, 20% in Francia
e 10% in Germania.
Supponiamo inoltre di voler costruire un campione di numerosità
fissata, per n = 10000.
Ha senso costruire un campione di 7000 Italiani, 2000 Francesi e
1000 Tedeschi scelti completamente a caso nei rispettivi paesi?
Inferenza statistica e probabilità
Verosimiglianza
Nel seguito, qualora non diversamente specificato, supporremo che
tutte le unità statistiche possano essere incluse nel campione con la
stessa probabilità, in modo indipendente e che ogni unità statistica
possa essere estratta ripetutamente. Ipotizzeremo cioè che il
campionamento sia casuale semplice, o bernoulliano.
Inferenza statistica e probabilità
Verosimiglianza
Un comune vuole stimare la proporzione ignota, θ, di veicoli ad
alimetazione diesel che circolano in città. A tale scopo incarica tre
statistici, A, B e C di effettuare delle rilevazioni di dati e di
proporre delle stime della proporzione ignota.
I tre statistici si collocano ad un incrocio per osservare un
campione di veicoli
Inferenza statistica e probabilità
Verosimiglianza
Lo statistico A fissa un numero di osservazioni pari a 10 ed
osserva:
ND, D, ND, ND, ND, D, ND, ND, ND, D
(D = Diesel, ND = Non Diesel)
Lo statistico B decide di rilevare le osservazioni in un arco di
10 minuti. Osserva gli stessi veicoli rilevati da A
Lo statistico C decide di sospendere le rilevazioni quando
osserverà tre veicoli ad alimentazione diesel. Osserva gli stessi
veicoli rilevati da A e B
Inferenza statistica e probabilità
Verosimiglianza
Posto che P(D) = θ, 0 ≤ θ ≤ 1, per ognuno dei tre statistici,
come si può definire un modello statistico?
Definiamo una variabile casuale X tale che
1 se è vero D
Y =
0 se è vero ND
fY (y ) =
θ
se y = 1
1 − θ se y = 0
Il campione osservato sarà y = [0, 1, 0, 0, 0, 1, 0, 0, 0, 1]0 ,
determinazione della variabile casuale multivariata
Y = [Y1 , . . . , Y10 ]0
con componenti stocasticamente indipendenti.
Inferenza statistica e probabilità
Verosimiglianza
A ritiene corretto quantificare la probabilità del campione
osservato, y, come quella di una particolare realizzazione di
una v.c. binomiale Bin(10, θ):
10 3
fY,A (y; θ) =
θ (1 − θ)7
3
B quantifica la probabilità della sequenza osservata come:
fY,B (y; θ) = (1 − θ)θ(1 − θ)(1 − θ)(1 − θ)θ(1 − θ)(1 − θ)
(1 − θ)θ
= θ3 (1 − θ)7
Inferenza statistica e probabilità
Verosimiglianza
C quantifica la probabilità della sequenza osservata come:
fY,C (y; θ) = P(decima diesel|2 nelle prime 9 sono diesel) ·
·P(2 nelle prime 9 sono diesel)
9 2
θ (1 − θ)7
= θ
2
9 3
=
θ (1 − θ)7
2
Inferenza statistica e probabilità
Verosimiglianza
Definiamo ora tre funzioni, formalmente identiche alle tre funzioni
di probabilità appena introdotte, viste però come funzioni di θ e
non di y:
10 3
LA (θ; y) = fY,A (y; θ) =
θ (1 − θ)7
3
LB (θ; y) = fY,B (y; θ) = θ3 (1 − θ)7
9 3
LC (θ; y) = fY,C (y; θ) =
θ (1 − θ)7
2
Possibile strategia
Per ciascuno dei tre statistici, A, B e C, i valori più plausibili di θ
saranno quelli a cui corrisponderanno valori elevati di
LA (θ; y), LB (θ; y) e LC (θ; y) rispettivamente.
Inferenza statistica e probabilità
Verosimiglianza
0.10
0.20
A
B
C
0.00
verosimiglianza
Figura 1: Esempio di analisi del traffico: funzioni di verosimiglianza per
A, B e C.
0.0
0.2
0.4
0.6
θ
0.8
1.0
Inferenza statistica e probabilità
Verosimiglianza
0.00 0.15
verosimiglianza A
Figura 2: Funzioni di verosimiglianza per A, B e C, rappresentazione
alternativa
0.0
0.2
0.4
0.6
0.8
1.0
0.6
0.8
1.0
0.6
0.8
1.0
0.0020
0.0000
verosimiglianza B
θ
0.0
0.2
0.4
0.15
0.00
verosimiglianza C
θ
0.0
0.2
0.4
Inferenza statistica e probabilità
Verosimiglianza
Definiamo la funzione di verosimiglianza come
L(θ; y) ∝ fY (y; θ)
e quindi
L(θ; y) = θ3 (1 − θ)7
Se θ∗ è il punto di massimo assoluto di L(θ; y), possiamo
normalizzare la funzione di verosimiglianza:
L∗ (θ; y) =
in modo tale che 0 ≤ L∗ (θ; y) ≤ 1.
L(θ; y)
L(θ∗ ; y)
Inferenza statistica e probabilità
Verosimiglianza
Figura 3: Verosimiglianza e verosimiglianza normalizzata
0.0000
0.0020
Funzione di verosimiglianza
0.0
0.2
0.4
0.6
0.8
1.0
θ
0.0
0.6
Funzione di verosimiglianza normalizzata
0.0
0.2
0.4
0.6
θ
0.8
1.0
Inferenza statistica e probabilità
Verosimiglianza
Un gruppo di studiosi vuole capire in che misura, all’inizio
della primavera, una pianta si stia diffondendo in una foresta
(popolazione).
Si individuano casualmente sulla superficie della foresta n
quadrati di lato unitario, detti blocchi (unità statistiche).
Su ciascun blocco, i, si conta il numero di nuovi germogli, yi ,
i = 1, . . . , n (osservazioni).
Si vuole valutare quante nuove piante germoglino mediamente
per ogni metro quadrato della foresta.
Inferenza statistica e probabilità
Verosimiglianza
Se ipotizziamo che il numero di nuovi germogli non dipenda
dalla collocazione del blocco sul territorio, possiamo pensare
che Yi , i = 1, . . . , n, siano n v. c. identicamente distribuite,
cioè distribuite come la v. c. Y che rappresenta il modello di
comportamento della popolazione.
Poiché ipotizziamo che non vi sia alcun tipo di dipendenza
spaziale e i blocchi sono scelti a caso, possiamo pensare che i
dati yi siano determinazioni di n variabili casuali
stocasticamente indipendenti, Yi .
Inferenza statistica e probabilità
Un ragionevole modello statistico
Possiamo assumere che
Y = numero di nuovi germogli per metro quadrato
sia una variabile casuale di Poisson con parametro θ, ovvero
Y ∼ Po(θ), θ > 0 , con funzione di probabilità
( −θ y
e θ
y ∈ {0, 1, 2, . . . }
y!
fY (y ; θ) = P(Y = y ; θ) =
0
y∈
/ {0, 1, 2, . . . }
con E (Y ) = Var (Y ) = θ.
Verosimiglianza
Inferenza statistica e probabilità
Verosimiglianza
Osserviamo n blocchi
y = [y1 , . . . , yn ]0 campione osservato
probabilità congiunta del campione osservato
P(Y = y; θ) = fY (y; θ)
n −θ yi Y
e θ
=
yi !
=
i=1
Pn
e −nθ θ i=1 yi
Qn
i=1 yi !
definiamo la funzione di verosimiglianza
L(θ; y) = e −nθ θ
Pn
i=1 yi
Inferenza statistica e probabilità
Verosimiglianza
Supponiamo di osservare 3 nuovi germogli su un solo blocco:
L(θ; y) = e −nθ θ
Pn
i=1 yi
= e −θ θ3
Supponiamo di osservare 1 nuovo germoglio su un solo blocco
diverso dal precedente:
L(θ; y) = e −θ θ
Supponiamo di osservare 40 nuovi germogli su 60 blocchi:
L(θ; y) = e −60θ θ40
Inferenza statistica e probabilità
Qual è il campione più informativo?
Verosimiglianza
Inferenza statistica e probabilità
Verosimiglianza
Figura 4: Verosimiglianze su campioni diversi
0.20
0.00
Verosimiglianza
Campione di dimensione 1
0
5
10
15
θ
0.3
0.0
Verosimiglianza
Campione di dimensione 1
0
5
10
15
θ
0.04
0.00
Verosimiglianza
Campione di dimensione 60
0
5
10
θ
15
Inferenza statistica e probabilità
Verosimiglianza
Il modello statistico
Il campione osservato è una sequenza di valori,
y = [y1 , . . . , yn ]0
che possono essere visti come il risultato di un esperimento
casuale (l’estrazione casuale di n unità statistiche)
Ogni yi , i = 1, . . . , n, sarà qundi una determinazione di una
variabile casuale Yi
Se il campionamento è casuale semplice allora le variabili
casuali Yi , i = 1, . . . , n, saranno stocasticamente indipendenti
e avranno tutte la stessa distribuzione di probabilità,
rappresentabile attraverso la sua funzione di densità di
probabilità (o di probabilità) g0 (y )
Inferenza statistica e probabilità
Verosimiglianza
g0 (·) rappresenta il comportamento del fenomeno nella
popolazione
A sua volta Y, sarà una variabile casuale n−variata con
funzione di densità di probabilità (o di probabilità)
f0 (y), y ∈ Rn :
n
Y
f0 (y) =
g0 (yi )
i=1
Inferenza statistica e probabilità
Scopo
Trarre delle conclusioni sulla distribuzione di Y , ovvero su g0 ,
limitandone, per quanto possibile, il grado di incertezza.
Verosimiglianza
Inferenza statistica e probabilità
Verosimiglianza
Possiamo assumere che g0 sia una funzione di densità (di
probabilità) qualsiasi? In generale no.
Il modello statistico
a) La natura del fenomeno a cui siamo interessati
b) Le conoscenze che abbiamo acquisito in relazione ad esso
c) il tipo di campionamento
impongono dei vincoli su g0 .
In particolare possiamo pensare che g0 appartenga ad una famiglia
di funzioni di densità (di probabilità):
g0 ∈ G
con G definita in modo coerente con a), b) e c)
Inferenza statistica e probabilità
Verosimiglianza
Esempi
G = {l’insieme di tutte le funzioni di densità derivabili}
G = {l’insieme di tutte le funzioni di densità log-concave}
g (y ; θ) = θ1{1} (y ) + (1 − θ)1{0} (y ), 0 ≤ θ ≤ 1 (equivalente a
Y ∼ Ber (θ))
y
g (y ; θ) = exp(−θ)θ
1{{0}∪N} (y ), θ > 0 (equivalente a
y!
Y ∼ Po(θ))
1A (y ) = 1 se y ∈ A, 1A (y ) = 0 altrimenti (1A (y ) = 1 si dice
funzione indicatrice)
Inferenza statistica e probabilità
Verosimiglianza
Modelli parametrici
Un modello statistico parametrico, o classe parametrica, è definito
come
G = {g (·; θ) : θ ∈ Θ ⊂ Rk , k ≥ 1}
Gli elementi di G sono funzioni (di probabilità o di densità di
probabilità) dello stesso tipo che si distinguono tra di loro per il
valore del parametro, θ, che varia nello spazio parametrico Θ
La funzione di probabilità (di densità di probabilità) g0 sarà un
elemento di G caratterizzato da uno specifico valore del parametro,
diciamo θ0 .
L’obbiettivo fondamentale della statistica parametrica è quindi
quello di fare inferenza su θ0 .
Inferenza statistica e probabilità
Verosimiglianza
Spazio campionario
Lo spazio campionario, Y è l’insieme di tutti i valori che possono
essere assunti dal campione, y, per qualsiasi numerosità
campionaria, n, compatibilmente con un dato modello statistico.
Inferenza statistica e probabilità
Verosimiglianza
Riparametrizzazioni
Un modello statistico può essere definito in diversi modi
equivalenti, detti parametrizzazioni. Supponiamo che h sia una
funzione biunivoca da Θ a Ψ. Allora
G = {g (·; θ) : θ ∈ Θ}
= {g (·; ψ) : ψ = h(θ), θ ∈ Θ}
= {g (·; ψ) : ψ ∈ Ψ}
Inferenza statistica e probabilità
Verosimiglianza
Esempio
exp(−θ)θy
: θ ∈ Θ = R+ }
y!
exp(− exp(ψ)) exp(ψ)y
= {g (y ; ψ) =
: ψ = log(θ), θ ∈ Θ}
y!
exp(− exp(ψ)) exp(ψ)y
= {g (y ; ψ) =
: ψ ∈ Ψ = R}
y!
G = {g (y ; θ) =
Inferenza statistica e probabilità
Verosimiglianza
Funzione di verosimiglianza
Sia G un dato modello statistico parametrico di cui y sia una
particolare determinazione. Si dice funzione di verosimiglianza, o
semplicemente verosimiglianza, la funzione L : Θ −→ R+ ∪ 0:
L(θ) = L(θ; y) = c(y)f (y; θ)
Quantifica la plausibilità dei valori del parametro θ ∈ Θ in relazione
ai dati osservati
e al modello statistico adottato.
Inferenza statistica e probabilità
Verosimiglianza
Esempio
Modello statistico: Y ∼ U[0, θ]
1
gY (y ) = 1[0,θ] (y ) θ > 0
θ
1[0,θ] (y ) = 1 se y ∈ [0, θ], 1[0,θ] (y ) = 0 altrimenti.
Campione osservato:
y1
3.25
y2
1.33
y3
3.44
y4
2.22
Funzione di verosimiglianza:
L(θ; y) =
Θ = [4.35, ∞).
1
1
(θ)
θ5 [4.35,∞)
y5
4.35
Inferenza statistica e probabilità
Verosimiglianza
4e−04
2e−04
0e+00
Verosimiglianza
6e−04
Figura 5: La funzione di verosimiglianza nell’esempio sul modello U[0, θ]
0
2
4
6
θ
8
10
Inferenza statistica e probabilità
Verosimiglianza
Per valori di θ più piccoli di max{yi , i = 1, . . . , 5} = 4.35 la
funzione di verosimiglianza della Figura 5 si annulla: perché?
Perché per valori di θ minori di 4.35 il campione osservato non
sarebbe compatibile con il modello statistico adottato.
Inferenza statistica e probabilità
Verosimiglianza
Statistica
Ogni funzione T (Y ) da Y a Rp , p ≥ 1 e indipendente da θ, si dice
statistica. Il valore t = T (y) corrispondente al campione osservato,
y, si dice valore campionario della statistica.
Partizione indotta da una statistica
Ogni statistica definisce una partizione dello spazio campionario.
Per qualsiasi t ∈ R
At = {y : y ∈ Y, T (y) = t} ⊆ Y
è l’insieme di tutti i campioni che danno luogo al valore
campionario t della statistica T (Y ).
Inferenza statistica e probabilità
Verosimiglianza
Analisi del traffico (continua)
Consideriamo il modello dello statistico A e definiamo la statistica:
P10
Yi
Ȳ = i=1
10
Insieme supporto
IȲ =
k
, k = 0, 1, . . . , 10
10
Funzione di probabilità
10 k
10−k
k θ (1 − θ)
fȲ (ȳ ; θ) =
0
k
ȳ = 10
, k = 0, . . . , 10
altrimenti
Inferenza statistica e probabilità
Verosimiglianza
Nel campione considerato nell’esempio, T (y) = ȳ = 0.3.
Se non conoscessimo il campione osservato, ma solo il valore di ȳ , a
questo valore assoceremmo il sottoinsieme dello spazio campionario
A0.3 = {Tutti i campioni con 3 D e 7 ND}
Inferenza statistica e probabilità
Verosimiglianza
Principio debole di verosimiglianza
Fissato un modello statistico, G = {g (·; θ) : θ ∈ Θ}, due campioni
y e x ∈ Y, tali che
L(θ; y) ∝ L(θ; x)
forniscono informazioni equivalenti dal punto di vista inferenziale.
Inferenza statistica e probabilità
Verosimiglianza
Analisi del traffico (continua)
Consideriamo ancora il modello dello statistico A e supponiamo
che il campione osservato fosse
x = {1, 1, 0, 0, 1, 0, 0, 0, 0, 0}.
In tal caso,
L(θ; x) ∝ θ3 (1 − θ)7
che è proporzionale alla verosimiglianza basata sul campione
considerato nella prima versione dell’esempio.
Le informazioni fornite su θ dai due campioni sono equivalenti.
Inferenza statistica e probabilità
Verosimiglianza
Principio forte di verosimiglianza
Un campione y riguardante il modello G = {g (·; θ) : θ ∈ Θ} e un
campione x riguardante il modello H = {h(·; θ) : θ ∈ Θ}, tali che
Lg (θ; y) ∝ Lh (θ; x)
devono condurre alle medesime conclusioni inferenziali.
Inferenza statistica e probabilità
Verosimiglianza
Analisi del traffico (continua)
Consideriamo i modelli dello statistico A e dello statistico C che, in
corrispondenza del campione osservato, y danno luogo alle
verosimiglianze:
LA (θ; y) = fY,A (y; θ) = θ3 (1 − θ)7
9 3
LC (θ; y) = fY,C (y; θ) =
θ (1 − θ)7
2
Le due verosimiglianze sono proporzionali e, come abbiamo visto
danno le stesse informazioni su θ.
Inferenza statistica e probabilità
Verosimiglianza
Se, invece, il campione osservato da A fosse
x = {1, 1, 0, 0, 1, 0, 0, 0, 0, 0},
C si limiterebbe ad osservare
z = {1, 1, 0, 0, 1}.
perché il terzo veicolo diesel coincide con la quinta osservazione.
Inferenza statistica e probabilità
Verosimiglianza
Quindi,
LA (θ; x) ∝ θ3 (1 − θ)7
LC (θ; z) ∝ θ3 (1 − θ)2
LA (θ; x)
LC (θ; z)
∝ (1 − θ)5
LA e LC forniscono informazioni diverse su θ
Inferenza statistica e probabilità
Verosimiglianza
Figura 6: Confronto tra LA e LC
0.020
0.010
0.000
Verosimiglianza
0.030
A
C
0.0
0.2
0.4
0.6
θ
0.8
1.0
Inferenza statistica e probabilità
Verosimiglianza
Statistiche sufficienti
Fissato un modello statistico G, una statistica T si dice sufficiente
per θ se essa assume lo stesso valore in corrispondenza di due
campioni solo se ad essi corrispondono verosimiglianze equivalenti:
∀y, z ∈ Y : T (y) = T (z) ⇒ L(θ, y) ∝ L(θ, z) ∀ θ ∈ Θ
Inferenza statistica e probabilità
Verosimiglianza
Y è sempre una statistica sufficiente
Modello
P binomiale (esempio dell’analisi del traffico):
T = ni=1 Yi è una statistica sufficiente. Un’altra statistica
sufficiente è Ȳ.
Modello di Poisson (esempio della diffusione
P di una pianta in
una foresta): anche in questo caso T = ni=1 Yi e Ȳ sono
statistiche sufficienti.
Per un campione casuale semplice di dimensione n da una
distribuzione U[0,θ] , una statistica sufficiente è
Y(n) = max{Y1 , . . . , Yn }
Inferenza statistica e probabilità
Verosimiglianza
Consideriamo un campione di dimensione n da una
distribuzione normale con media ignota e varianza nota:
Y ∼ N(θ, σ 2 ).
funzione di densità di probabilità di Y
1
(y − θ)2
g (y ) = √
exp −
2σ 2
2πσ
funzione di densità congiunta del campione
Pn
(yi − θ)2
1
i=1
exp −
fY (y) = √
2σ 2
( 2πσ 2 )n
Inferenza statistica e probabilità
Verosimiglianza
L(θ; y) ∝
=
=
∝
Quindi
Pn
i=1 Yi
verosimiglianza
Pn
(yi − θ)2
exp − i=1 2
2σ
Pn
Pn
2
2
i=1 yi + nθ
i=1 yi − 2θ
exp −
2σ 2
Pn
Pn
2
2θ i=1 yi − nθ2
i=1 yi
exp −
exp
2σ 2
2σ 2
Pn
2θ i=1 yi − nθ2
exp
2σ 2
è una statistica sufficiente per θ
Inferenza statistica e probabilità
Verosimiglianza
Osservazioni
Ogni trasformazione biunivoca di una statistica sufficiente è a
sua volta sufficiente.
Se T (Y) è una statistica sufficiente, allora L(θ; y) dipende da
y solo attraverso T (y),ovvero:
L(θ; y) ∝ h(T (y); θ)
(segue immediatamente dalla definizione)
Inferenza statistica e probabilità
Verosimiglianza
Teorema (di fattorizzazione di Neyman)
Fissato il modello G, la statistica T è sufficiente per θ se e solo se
f (y; θ) può essere fattorizzata come
f (y; θ) = u(y)h(T (y); θ)
Abbiamo già dimostrato che se T è sufficiente, allora
L(θ; y) ∝ h(T (y); θ)
Inferenza statistica e probabilità
Verosimiglianza
Dobbiamo ora dimostrare che g (y; θ) = u(y)h(T (y); θ) implica la
sufficienza di T :
L(θ; y) ∝ f (y; θ)
= u(y)h(T (y); θ)
∝ h(t; θ)
Inferenza statistica e probabilità
Verosimiglianza
Osservazione
Sia Y una variabile casuale discreta e sia IT l’insieme supporto di
T (y). Per ogni t ∈ IT ,
X
fT (t; θ) =
fY (y; θ)
y:T (y)=t
= h(t; θ)
X
u(y)
y:T (y)=t
∗
= h(t; θ)u (t)
La verosimiglianza L(θ; t) ∝ h(t; θ) è equivalente a L(θ; y).
Inferenza statistica e probabilità
Verosimiglianza
Teorema
Con riferimento ad un modello statistico G, la statistica T è
sufficiente per θ se e solo se la distribuzione di Y condizionata a
T = t non dipende da θ, ovvero
fY|T =t (y; θ) = fY|T =t (y)
Inferenza statistica e probabilità
Verosimiglianza
Dimostrazione ( solo per variabili casuali discrete)
Se fY|T =t (y; θ) = fY|T =t (y) allora
fY (y; θ) = fY|T =t (y)fT (t; θ)
Teorema di fattorizzazione ⇒ sufficienza di T
Se T è sufficiente, per il teorema di fattorizzazione si ha:
fY|T =t (y; θ) =
=
=
fY (y; θ)
fT (t; θ)
u(y)h(t; θ)
u ∗ (y)h(t; θ)
u(y)
non dipende da θ
u ∗ (y)
Quando Y è continua la dimostrazione è simile
Inferenza statistica e probabilità
Verosimiglianza
Definizione (Statistiche sufficienti minimali)
Con riferimento ad un modello statistico G, la statistica T è
sufficiente minimale per θ se assume valori distinti solo su campioni
che danno luogo a verosimiglianze non equivalenti, ovvero
T (y) = T (z) ⇔ L(θ; y) ∝ L(θ; z)
Inferenza statistica e probabilità
Verosimiglianza
La statistica sufficiente minimale induce la più piccola
partizione dello spazio campionario tra quelle definite dalle
statistiche sufficienti.
È funzione di qualsiasi altra statistica sufficiente
Tra tutte le statistiche sufficienti è quella che ha dimensione
più piccola.
Inferenza statistica e probabilità
Verosimiglianza
Esempio
Y ∼ N(0, θ), θ > 0. Campione di dimensione 1.
Verosimiglianza:
2
1
y
L(θ; y ) ∝ 0.5 exp −
θ
2θ
T (Y ) = Y e T1 (Y ) = Y 2 sono sufficienti, ma solo T1 (Y ) è
sufficiente minimale. Consideriamo due campioni, x e y :
2
y − z2
L(θ; y )
= exp −
L(θ; z)
2θ
non dipende da θ se e solo se y 2 = z 2 : questo vale non solo
quando y = z, ma anche quando y = −z.
Inferenza statistica e probabilità
Verosimiglianza
Variabile casuale normale con media e varianza ignote
Modello statistico: Y ∼ N(θ1 , θ2 ) θ = [θ1 , θ2 ]0 ∈ Θ = R × R+
1
(y − θ1 )2
g (y ; θ) = √
exp −
2θ2
2πθ2
Campione di dimensione n: Yn = Rn
Verosimiglianza:
Pn
2
i=1 (yi − θ1 )
L(θ; y) ∝ n exp −
2θ2
θ22
1
Inferenza statistica e probabilità
Verosimiglianza
L(θ; y) ∝
=
con t1 =
Pn
Pn
Pn
2
2
i=1 yi − 2θ1
i=1 yi + nθ1
−
n exp
2θ2
θ22
1
t2 − 2θ1 t1 + nθ12
−
n exp
2θ2
θ22
i=1 yi
1
e t2 =
Pn
2
i=1 yi
La statistica
T (Y) = [T1 (Y), T2 (Y)]0 ,
P
P
con T1 (Y) = ni=1 Yi e T2 = ni=1 Yi2 , è sufficiente per θ
Inferenza statistica e probabilità
Verosimiglianza
Due campioni, y e x danno luogo a verosimiglianze equivalenti
quando
L(θ; y)
T2 (y) − T2 (x) − 2θ1 (T1 (y) − T1 (x))
= exp −
L(θ; x)
2θ2
non dipende da θ.
Ciò avviene se e solo se T (y) = T (x).
Quindi T (Y) è sufficiente minimale
Inferenza statistica e probabilità
Verosimiglianza
Siano
n
T1∗ (Y) = Ȳ e T2∗ (Y) = S 2 =
1X
(Yi − Ȳ )2 ,
n
i=1
la statistica
T ∗ (Y) = [Ȳ , S 2 ]0
è una funzione biunivoca di T (Y), quindi è essa stessa
sufficiente minimale.
Inferenza statistica e probabilità
Verosimiglianza
Esercizio
Si supponga di disporre di un campione casuale semplice di
dimensione n corrispondente al modello statistico: Y ∼ N(µ, θ)
con media µ nota e varianza θ ignota.
1
Individuare lo spazio campionario e lo spazio parametrico
2
Determinare l’espressione della funzione di verosimiglianza
3
Individuare una statistica sufficiente minimale.
Inferenza statistica e probabilità
Verosimiglianza
La famiglia esponenziale
La classe parametrica G è una famiglia esponenziale di ordine r se
!
r
X
g (y ; θ) = q(y ) exp
ψi (θ)ti (y ) − τ (θ) θ ∈ Θ ⊆ Rk , k ≥ 1
i=1
dove r ≥ 1, ti (y ), i = 1, . . . , r , sono funzioni di y indipendenti da
θ e ψi (θ), i = 1, . . . , r , e τ (θ) sono funzioni di θ indipendenti da y .
Se
a0 +
r
X
ai ψi (θ) = 0 ∀θ ∈ Θ ⇔ ai = 0, i = 0, . . . , r
i=1
la famiglia esponenziale si dice ridotta.
Inferenza statistica e probabilità
Verosimiglianza
Esempi
Se Y ∼ Bin(n; θ),
n y
g (y ; θ) =
θ (1 − θ)n−y
y
n
θ
=
exp log
y + n log(1 − θ)
y
1−θ
θ
quindi r = 1, q(y ) = yn , ψ(θ) = log
, t(y ) = y e
1−θ
τ (θ) = −n log(1 − θ).
Inferenza statistica e probabilità
Verosimiglianza
Se Y ∼ N(θ1 , θ2 ),
g (y ; θ) =
=
=
1
(y − θ1 )2
√
exp −
2θ2
2πθ2
2
1
y − 2θ1 y + θ12
√
exp −
2θ2
2πθ2
θ1
1
1 2
θ12
1
√ exp
y−
y −
− log(θ2 )
θ2
2θ2
2θ2 2
2π
e quindi r = 2, q(y ) = √1 , ψ1 (θ) = − θ1 , ψ2 (θ) = 1 ,
θ2
2θ2
2π
2
θ
τ (θ) = 1 − 12 log(θ2 ), t1 (y ) = y e t2 (y ) = y 2
2θ2
Inferenza statistica e probabilità
Verosimiglianza
Se Y ∼ Po(θ),
g (y ; θ) = exp(−θ)
=
θy
y!
1
exp(log(θ)y − θ)
y!
e quindi r = 1, q(y ) = 1 , ψ(θ) = log(θ), t(y ) = y e
y!
τ (θ) = θ.
Inferenza statistica e probabilità
Verosimiglianza
Verosimiglianze della famiglia esponenziale
Se g (y ; θ) appartiene alla famiglia esponenziale, allora vi
appartiene anche f (y; θ):



r
n 

X
Y
ψj (θ)tj (yi ) − τ (θ)
q(yi ) exp 
f (y; θ) =


j=1
i=1


r
X
= q ∗ (y) exp 
ψj (θ)Tj (y) − τ ∗ (θ)
j=1
P
Tj (y) = ni=1 tj (yi ) e τ ∗ (θ) = nτ (θ).


r
X
L(θ; y) ∝ exp 
ψj (θ)Tj (y) − τ ∗ (θ)
dove q ∗ (y) =
Quindi,
Qn
i=1 q(yi ),
j=1
Inferenza statistica e probabilità
Verosimiglianza
Una conseguenza importante
Se g (y ; θ) appartiene alla famiglia esponenziale, allora
T (Y) = [T1 (Y), . . . , Tr (Y]0
è sufficiente minimale.
Inferenza statistica e probabilità
Verosimiglianza
Famiglie esponenziali regolari
Una famiglia esponenziale si dice regolare se:
Lo spazio parametrico, Θ coincide con l’intero insieme per cui
g (y ; θ) integra (somma) a 1 ed è un intervallo aperto in Rk ;
Le dimensioni di Θ e della statistica sufficiente minimale
coincidono;
ψ(θ) = [ψ1 (θ), . . . , ψr (θ)]0 è invertibile;
le funzioni ψi , i = 1, . . . , r e τ (θ) ammettono derivate di
qualsiasi ordine rispetto agli elementi di θ.
Inferenza statistica e probabilità
Verosimiglianza
Se Y appartiene ad una famiglia esponenziale regolare di ordine 1 e
Θ ⊂ R , allora
E [T (Y)] =
Var [T (Y)] =
τ ∗ 0 (θ)
ψ 0 (θ)
ψ 0 (θ)τ ∗ 00 (θ) − ψ 00 (θ)τ ∗ 0 (θ)
ψ 0 (θ)3
Dimostrazione: si veda Azzalini (2001).