Inferenza statistica e probabilità Verosimiglianza Parte IV Inferenza statistica: le basi Inferenza statistica e probabilità Verosimiglianza Siamo interessati ad un fenomeno In relazione ad esso possiamo osservare diversi elementi caratteristici, che chiameremo variabili Il fenomeno può essere circoscritto ad un determinato ambito (spaziale, temporale, ecc.) che induce alla definizione di una popolazione Ogni elemento della popolazione si dice unità statistica Generalmente non possiamo esaminare l’intera popolazione (censimento). Possiamo però osservare la/le variabili che ci interessano su un suo sottoinsieme, cioè su un campione È possibile utilizzare l’informazione proveniente dal campione per capire quali siano le caratteristiche salienti del fenomeno sull’intera popolazione? Se sı̀, come? −→ inferenza statistica Inferenza statistica e probabilità Verosimiglianza Fenomeno 1 2 3 andamento della produzione nel settore manifatturiero in Italia nel 2005 rendimento degli studenti universitari italiani iscritti alle facoltà di economia nel 2005 efficacia della politica pubblicitaria di un’azienda in Europa nel primo trimestre 2006 Variabili 1 2 3 numero di occupati nel settore, politiche fiscali, ammontare degli investimenti nel settore, andamento del fatturato, . . . reddito familiare, situazione lavorativa, stato civile, località di residenza, scuola di provenienza, voto di maturità, sesso . . . canali utilizzati, caratteristiche dei consumatori (sesso, reddito, livello di istruzione, nazionalità, ecc.), . . . Inferenza statistica e probabilità Verosimiglianza Popolazione 1 2 3 Tutte le imprese operanti nel settore manifatturiero in Italia nel 2005 Tutti gli studenti iscritti nelle facoltà di economia in Italia nel 2005 Tutti i potenziali clienti europei dell’azienda nel primo trimestre 2006 Campione 1 2 3 n imprese operanti nel settore manifatturiero in Italia nel 2005 scelte a caso n studenti iscritti nelle facoltà di economia in Italia nel 2005 scelti a caso n potenziali clienti europei dell’azienda nel primo trimestre 2006 scelti a caso Inferenza statistica e probabilità Verosimiglianza Il campione è un sottoinsieme, di dimensione n, della popolazione Il campione deve essere rappresentativo della popolazione: l’inclusione (esclusione) casuale di una unità statistica non deve dipendere dalle caratteristiche dell’unità stessa. Inferenza statistica e probabilità Verosimiglianza Negli esempi precedenti non ha senso 1 costruire un campione di 300 imprese operanti nel settore manifatturiero scelte a caso tra quelle con fatturato superiore a 30 milioni di euro 2 costruire un campione di 500 studenti scelti a caso tra i maschi iscritti a Ca’ Foscari 3 costruire un campione di 10000 potenziali clienti scelti a caso tra i residenti a Parigi Inferenza statistica e probabilità Verosimiglianza Supponiamo però di sapere che i potenziali clienti della nostra azienda si distribuiscono come segue: 70% in Italia, 20% in Francia e 10% in Germania. Supponiamo inoltre di voler costruire un campione di numerosità fissata, per n = 10000. Ha senso costruire un campione di 7000 Italiani, 2000 Francesi e 1000 Tedeschi scelti completamente a caso nei rispettivi paesi? Inferenza statistica e probabilità Verosimiglianza Nel seguito, qualora non diversamente specificato, supporremo che tutte le unità statistiche possano essere incluse nel campione con la stessa probabilità, in modo indipendente e che ogni unità statistica possa essere estratta ripetutamente. Ipotizzeremo cioè che il campionamento sia casuale semplice, o bernoulliano. Inferenza statistica e probabilità Verosimiglianza Un comune vuole stimare la proporzione ignota, θ, di veicoli ad alimetazione diesel che circolano in città. A tale scopo incarica tre statistici, A, B e C di effettuare delle rilevazioni di dati e di proporre delle stime della proporzione ignota. I tre statistici si collocano ad un incrocio per osservare un campione di veicoli Inferenza statistica e probabilità Verosimiglianza Lo statistico A fissa un numero di osservazioni pari a 10 ed osserva: ND, D, ND, ND, ND, D, ND, ND, ND, D (D = Diesel, ND = Non Diesel) Lo statistico B decide di rilevare le osservazioni in un arco di 10 minuti. Osserva gli stessi veicoli rilevati da A Lo statistico C decide di sospendere le rilevazioni quando osserverà tre veicoli ad alimentazione diesel. Osserva gli stessi veicoli rilevati da A e B Inferenza statistica e probabilità Verosimiglianza Posto che P(D) = θ, 0 ≤ θ ≤ 1, per ognuno dei tre statistici, come si può definire un modello statistico? Definiamo una variabile casuale X tale che 1 se è vero D Y = 0 se è vero ND fY (y ) = θ se y = 1 1 − θ se y = 0 Il campione osservato sarà y = [0, 1, 0, 0, 0, 1, 0, 0, 0, 1]0 , determinazione della variabile casuale multivariata Y = [Y1 , . . . , Y10 ]0 con componenti stocasticamente indipendenti. Inferenza statistica e probabilità Verosimiglianza A ritiene corretto quantificare la probabilità del campione osservato, y, come quella di una particolare realizzazione di una v.c. binomiale Bin(10, θ): 10 3 fY,A (y; θ) = θ (1 − θ)7 3 B quantifica la probabilità della sequenza osservata come: fY,B (y; θ) = (1 − θ)θ(1 − θ)(1 − θ)(1 − θ)θ(1 − θ)(1 − θ) (1 − θ)θ = θ3 (1 − θ)7 Inferenza statistica e probabilità Verosimiglianza C quantifica la probabilità della sequenza osservata come: fY,C (y; θ) = P(decima diesel|2 nelle prime 9 sono diesel) · ·P(2 nelle prime 9 sono diesel) 9 2 θ (1 − θ)7 = θ 2 9 3 = θ (1 − θ)7 2 Inferenza statistica e probabilità Verosimiglianza Definiamo ora tre funzioni, formalmente identiche alle tre funzioni di probabilità appena introdotte, viste però come funzioni di θ e non di y: 10 3 LA (θ; y) = fY,A (y; θ) = θ (1 − θ)7 3 LB (θ; y) = fY,B (y; θ) = θ3 (1 − θ)7 9 3 LC (θ; y) = fY,C (y; θ) = θ (1 − θ)7 2 Possibile strategia Per ciascuno dei tre statistici, A, B e C, i valori più plausibili di θ saranno quelli a cui corrisponderanno valori elevati di LA (θ; y), LB (θ; y) e LC (θ; y) rispettivamente. Inferenza statistica e probabilità Verosimiglianza 0.10 0.20 A B C 0.00 verosimiglianza Figura 1: Esempio di analisi del traffico: funzioni di verosimiglianza per A, B e C. 0.0 0.2 0.4 0.6 θ 0.8 1.0 Inferenza statistica e probabilità Verosimiglianza 0.00 0.15 verosimiglianza A Figura 2: Funzioni di verosimiglianza per A, B e C, rappresentazione alternativa 0.0 0.2 0.4 0.6 0.8 1.0 0.6 0.8 1.0 0.6 0.8 1.0 0.0020 0.0000 verosimiglianza B θ 0.0 0.2 0.4 0.15 0.00 verosimiglianza C θ 0.0 0.2 0.4 Inferenza statistica e probabilità Verosimiglianza Definiamo la funzione di verosimiglianza come L(θ; y) ∝ fY (y; θ) e quindi L(θ; y) = θ3 (1 − θ)7 Se θ∗ è il punto di massimo assoluto di L(θ; y), possiamo normalizzare la funzione di verosimiglianza: L∗ (θ; y) = in modo tale che 0 ≤ L∗ (θ; y) ≤ 1. L(θ; y) L(θ∗ ; y) Inferenza statistica e probabilità Verosimiglianza Figura 3: Verosimiglianza e verosimiglianza normalizzata 0.0000 0.0020 Funzione di verosimiglianza 0.0 0.2 0.4 0.6 0.8 1.0 θ 0.0 0.6 Funzione di verosimiglianza normalizzata 0.0 0.2 0.4 0.6 θ 0.8 1.0 Inferenza statistica e probabilità Verosimiglianza Un gruppo di studiosi vuole capire in che misura, all’inizio della primavera, una pianta si stia diffondendo in una foresta (popolazione). Si individuano casualmente sulla superficie della foresta n quadrati di lato unitario, detti blocchi (unità statistiche). Su ciascun blocco, i, si conta il numero di nuovi germogli, yi , i = 1, . . . , n (osservazioni). Si vuole valutare quante nuove piante germoglino mediamente per ogni metro quadrato della foresta. Inferenza statistica e probabilità Verosimiglianza Se ipotizziamo che il numero di nuovi germogli non dipenda dalla collocazione del blocco sul territorio, possiamo pensare che Yi , i = 1, . . . , n, siano n v. c. identicamente distribuite, cioè distribuite come la v. c. Y che rappresenta il modello di comportamento della popolazione. Poiché ipotizziamo che non vi sia alcun tipo di dipendenza spaziale e i blocchi sono scelti a caso, possiamo pensare che i dati yi siano determinazioni di n variabili casuali stocasticamente indipendenti, Yi . Inferenza statistica e probabilità Un ragionevole modello statistico Possiamo assumere che Y = numero di nuovi germogli per metro quadrato sia una variabile casuale di Poisson con parametro θ, ovvero Y ∼ Po(θ), θ > 0 , con funzione di probabilità ( −θ y e θ y ∈ {0, 1, 2, . . . } y! fY (y ; θ) = P(Y = y ; θ) = 0 y∈ / {0, 1, 2, . . . } con E (Y ) = Var (Y ) = θ. Verosimiglianza Inferenza statistica e probabilità Verosimiglianza Osserviamo n blocchi y = [y1 , . . . , yn ]0 campione osservato probabilità congiunta del campione osservato P(Y = y; θ) = fY (y; θ) n −θ yi Y e θ = yi ! = i=1 Pn e −nθ θ i=1 yi Qn i=1 yi ! definiamo la funzione di verosimiglianza L(θ; y) = e −nθ θ Pn i=1 yi Inferenza statistica e probabilità Verosimiglianza Supponiamo di osservare 3 nuovi germogli su un solo blocco: L(θ; y) = e −nθ θ Pn i=1 yi = e −θ θ3 Supponiamo di osservare 1 nuovo germoglio su un solo blocco diverso dal precedente: L(θ; y) = e −θ θ Supponiamo di osservare 40 nuovi germogli su 60 blocchi: L(θ; y) = e −60θ θ40 Inferenza statistica e probabilità Qual è il campione più informativo? Verosimiglianza Inferenza statistica e probabilità Verosimiglianza Figura 4: Verosimiglianze su campioni diversi 0.20 0.00 Verosimiglianza Campione di dimensione 1 0 5 10 15 θ 0.3 0.0 Verosimiglianza Campione di dimensione 1 0 5 10 15 θ 0.04 0.00 Verosimiglianza Campione di dimensione 60 0 5 10 θ 15 Inferenza statistica e probabilità Verosimiglianza Il modello statistico Il campione osservato è una sequenza di valori, y = [y1 , . . . , yn ]0 che possono essere visti come il risultato di un esperimento casuale (l’estrazione casuale di n unità statistiche) Ogni yi , i = 1, . . . , n, sarà qundi una determinazione di una variabile casuale Yi Se il campionamento è casuale semplice allora le variabili casuali Yi , i = 1, . . . , n, saranno stocasticamente indipendenti e avranno tutte la stessa distribuzione di probabilità, rappresentabile attraverso la sua funzione di densità di probabilità (o di probabilità) g0 (y ) Inferenza statistica e probabilità Verosimiglianza g0 (·) rappresenta il comportamento del fenomeno nella popolazione A sua volta Y, sarà una variabile casuale n−variata con funzione di densità di probabilità (o di probabilità) f0 (y), y ∈ Rn : n Y f0 (y) = g0 (yi ) i=1 Inferenza statistica e probabilità Scopo Trarre delle conclusioni sulla distribuzione di Y , ovvero su g0 , limitandone, per quanto possibile, il grado di incertezza. Verosimiglianza Inferenza statistica e probabilità Verosimiglianza Possiamo assumere che g0 sia una funzione di densità (di probabilità) qualsiasi? In generale no. Il modello statistico a) La natura del fenomeno a cui siamo interessati b) Le conoscenze che abbiamo acquisito in relazione ad esso c) il tipo di campionamento impongono dei vincoli su g0 . In particolare possiamo pensare che g0 appartenga ad una famiglia di funzioni di densità (di probabilità): g0 ∈ G con G definita in modo coerente con a), b) e c) Inferenza statistica e probabilità Verosimiglianza Esempi G = {l’insieme di tutte le funzioni di densità derivabili} G = {l’insieme di tutte le funzioni di densità log-concave} g (y ; θ) = θ1{1} (y ) + (1 − θ)1{0} (y ), 0 ≤ θ ≤ 1 (equivalente a Y ∼ Ber (θ)) y g (y ; θ) = exp(−θ)θ 1{{0}∪N} (y ), θ > 0 (equivalente a y! Y ∼ Po(θ)) 1A (y ) = 1 se y ∈ A, 1A (y ) = 0 altrimenti (1A (y ) = 1 si dice funzione indicatrice) Inferenza statistica e probabilità Verosimiglianza Modelli parametrici Un modello statistico parametrico, o classe parametrica, è definito come G = {g (·; θ) : θ ∈ Θ ⊂ Rk , k ≥ 1} Gli elementi di G sono funzioni (di probabilità o di densità di probabilità) dello stesso tipo che si distinguono tra di loro per il valore del parametro, θ, che varia nello spazio parametrico Θ La funzione di probabilità (di densità di probabilità) g0 sarà un elemento di G caratterizzato da uno specifico valore del parametro, diciamo θ0 . L’obbiettivo fondamentale della statistica parametrica è quindi quello di fare inferenza su θ0 . Inferenza statistica e probabilità Verosimiglianza Spazio campionario Lo spazio campionario, Y è l’insieme di tutti i valori che possono essere assunti dal campione, y, per qualsiasi numerosità campionaria, n, compatibilmente con un dato modello statistico. Inferenza statistica e probabilità Verosimiglianza Riparametrizzazioni Un modello statistico può essere definito in diversi modi equivalenti, detti parametrizzazioni. Supponiamo che h sia una funzione biunivoca da Θ a Ψ. Allora G = {g (·; θ) : θ ∈ Θ} = {g (·; ψ) : ψ = h(θ), θ ∈ Θ} = {g (·; ψ) : ψ ∈ Ψ} Inferenza statistica e probabilità Verosimiglianza Esempio exp(−θ)θy : θ ∈ Θ = R+ } y! exp(− exp(ψ)) exp(ψ)y = {g (y ; ψ) = : ψ = log(θ), θ ∈ Θ} y! exp(− exp(ψ)) exp(ψ)y = {g (y ; ψ) = : ψ ∈ Ψ = R} y! G = {g (y ; θ) = Inferenza statistica e probabilità Verosimiglianza Funzione di verosimiglianza Sia G un dato modello statistico parametrico di cui y sia una particolare determinazione. Si dice funzione di verosimiglianza, o semplicemente verosimiglianza, la funzione L : Θ −→ R+ ∪ 0: L(θ) = L(θ; y) = c(y)f (y; θ) Quantifica la plausibilità dei valori del parametro θ ∈ Θ in relazione ai dati osservati e al modello statistico adottato. Inferenza statistica e probabilità Verosimiglianza Esempio Modello statistico: Y ∼ U[0, θ] 1 gY (y ) = 1[0,θ] (y ) θ > 0 θ 1[0,θ] (y ) = 1 se y ∈ [0, θ], 1[0,θ] (y ) = 0 altrimenti. Campione osservato: y1 3.25 y2 1.33 y3 3.44 y4 2.22 Funzione di verosimiglianza: L(θ; y) = Θ = [4.35, ∞). 1 1 (θ) θ5 [4.35,∞) y5 4.35 Inferenza statistica e probabilità Verosimiglianza 4e−04 2e−04 0e+00 Verosimiglianza 6e−04 Figura 5: La funzione di verosimiglianza nell’esempio sul modello U[0, θ] 0 2 4 6 θ 8 10 Inferenza statistica e probabilità Verosimiglianza Per valori di θ più piccoli di max{yi , i = 1, . . . , 5} = 4.35 la funzione di verosimiglianza della Figura 5 si annulla: perché? Perché per valori di θ minori di 4.35 il campione osservato non sarebbe compatibile con il modello statistico adottato. Inferenza statistica e probabilità Verosimiglianza Statistica Ogni funzione T (Y ) da Y a Rp , p ≥ 1 e indipendente da θ, si dice statistica. Il valore t = T (y) corrispondente al campione osservato, y, si dice valore campionario della statistica. Partizione indotta da una statistica Ogni statistica definisce una partizione dello spazio campionario. Per qualsiasi t ∈ R At = {y : y ∈ Y, T (y) = t} ⊆ Y è l’insieme di tutti i campioni che danno luogo al valore campionario t della statistica T (Y ). Inferenza statistica e probabilità Verosimiglianza Analisi del traffico (continua) Consideriamo il modello dello statistico A e definiamo la statistica: P10 Yi Ȳ = i=1 10 Insieme supporto IȲ = k , k = 0, 1, . . . , 10 10 Funzione di probabilità 10 k 10−k k θ (1 − θ) fȲ (ȳ ; θ) = 0 k ȳ = 10 , k = 0, . . . , 10 altrimenti Inferenza statistica e probabilità Verosimiglianza Nel campione considerato nell’esempio, T (y) = ȳ = 0.3. Se non conoscessimo il campione osservato, ma solo il valore di ȳ , a questo valore assoceremmo il sottoinsieme dello spazio campionario A0.3 = {Tutti i campioni con 3 D e 7 ND} Inferenza statistica e probabilità Verosimiglianza Principio debole di verosimiglianza Fissato un modello statistico, G = {g (·; θ) : θ ∈ Θ}, due campioni y e x ∈ Y, tali che L(θ; y) ∝ L(θ; x) forniscono informazioni equivalenti dal punto di vista inferenziale. Inferenza statistica e probabilità Verosimiglianza Analisi del traffico (continua) Consideriamo ancora il modello dello statistico A e supponiamo che il campione osservato fosse x = {1, 1, 0, 0, 1, 0, 0, 0, 0, 0}. In tal caso, L(θ; x) ∝ θ3 (1 − θ)7 che è proporzionale alla verosimiglianza basata sul campione considerato nella prima versione dell’esempio. Le informazioni fornite su θ dai due campioni sono equivalenti. Inferenza statistica e probabilità Verosimiglianza Principio forte di verosimiglianza Un campione y riguardante il modello G = {g (·; θ) : θ ∈ Θ} e un campione x riguardante il modello H = {h(·; θ) : θ ∈ Θ}, tali che Lg (θ; y) ∝ Lh (θ; x) devono condurre alle medesime conclusioni inferenziali. Inferenza statistica e probabilità Verosimiglianza Analisi del traffico (continua) Consideriamo i modelli dello statistico A e dello statistico C che, in corrispondenza del campione osservato, y danno luogo alle verosimiglianze: LA (θ; y) = fY,A (y; θ) = θ3 (1 − θ)7 9 3 LC (θ; y) = fY,C (y; θ) = θ (1 − θ)7 2 Le due verosimiglianze sono proporzionali e, come abbiamo visto danno le stesse informazioni su θ. Inferenza statistica e probabilità Verosimiglianza Se, invece, il campione osservato da A fosse x = {1, 1, 0, 0, 1, 0, 0, 0, 0, 0}, C si limiterebbe ad osservare z = {1, 1, 0, 0, 1}. perché il terzo veicolo diesel coincide con la quinta osservazione. Inferenza statistica e probabilità Verosimiglianza Quindi, LA (θ; x) ∝ θ3 (1 − θ)7 LC (θ; z) ∝ θ3 (1 − θ)2 LA (θ; x) LC (θ; z) ∝ (1 − θ)5 LA e LC forniscono informazioni diverse su θ Inferenza statistica e probabilità Verosimiglianza Figura 6: Confronto tra LA e LC 0.020 0.010 0.000 Verosimiglianza 0.030 A C 0.0 0.2 0.4 0.6 θ 0.8 1.0 Inferenza statistica e probabilità Verosimiglianza Statistiche sufficienti Fissato un modello statistico G, una statistica T si dice sufficiente per θ se essa assume lo stesso valore in corrispondenza di due campioni solo se ad essi corrispondono verosimiglianze equivalenti: ∀y, z ∈ Y : T (y) = T (z) ⇒ L(θ, y) ∝ L(θ, z) ∀ θ ∈ Θ Inferenza statistica e probabilità Verosimiglianza Y è sempre una statistica sufficiente Modello P binomiale (esempio dell’analisi del traffico): T = ni=1 Yi è una statistica sufficiente. Un’altra statistica sufficiente è Ȳ. Modello di Poisson (esempio della diffusione P di una pianta in una foresta): anche in questo caso T = ni=1 Yi e Ȳ sono statistiche sufficienti. Per un campione casuale semplice di dimensione n da una distribuzione U[0,θ] , una statistica sufficiente è Y(n) = max{Y1 , . . . , Yn } Inferenza statistica e probabilità Verosimiglianza Consideriamo un campione di dimensione n da una distribuzione normale con media ignota e varianza nota: Y ∼ N(θ, σ 2 ). funzione di densità di probabilità di Y 1 (y − θ)2 g (y ) = √ exp − 2σ 2 2πσ funzione di densità congiunta del campione Pn (yi − θ)2 1 i=1 exp − fY (y) = √ 2σ 2 ( 2πσ 2 )n Inferenza statistica e probabilità Verosimiglianza L(θ; y) ∝ = = ∝ Quindi Pn i=1 Yi verosimiglianza Pn (yi − θ)2 exp − i=1 2 2σ Pn Pn 2 2 i=1 yi + nθ i=1 yi − 2θ exp − 2σ 2 Pn Pn 2 2θ i=1 yi − nθ2 i=1 yi exp − exp 2σ 2 2σ 2 Pn 2θ i=1 yi − nθ2 exp 2σ 2 è una statistica sufficiente per θ Inferenza statistica e probabilità Verosimiglianza Osservazioni Ogni trasformazione biunivoca di una statistica sufficiente è a sua volta sufficiente. Se T (Y) è una statistica sufficiente, allora L(θ; y) dipende da y solo attraverso T (y),ovvero: L(θ; y) ∝ h(T (y); θ) (segue immediatamente dalla definizione) Inferenza statistica e probabilità Verosimiglianza Teorema (di fattorizzazione di Neyman) Fissato il modello G, la statistica T è sufficiente per θ se e solo se f (y; θ) può essere fattorizzata come f (y; θ) = u(y)h(T (y); θ) Abbiamo già dimostrato che se T è sufficiente, allora L(θ; y) ∝ h(T (y); θ) Inferenza statistica e probabilità Verosimiglianza Dobbiamo ora dimostrare che g (y; θ) = u(y)h(T (y); θ) implica la sufficienza di T : L(θ; y) ∝ f (y; θ) = u(y)h(T (y); θ) ∝ h(t; θ) Inferenza statistica e probabilità Verosimiglianza Osservazione Sia Y una variabile casuale discreta e sia IT l’insieme supporto di T (y). Per ogni t ∈ IT , X fT (t; θ) = fY (y; θ) y:T (y)=t = h(t; θ) X u(y) y:T (y)=t ∗ = h(t; θ)u (t) La verosimiglianza L(θ; t) ∝ h(t; θ) è equivalente a L(θ; y). Inferenza statistica e probabilità Verosimiglianza Teorema Con riferimento ad un modello statistico G, la statistica T è sufficiente per θ se e solo se la distribuzione di Y condizionata a T = t non dipende da θ, ovvero fY|T =t (y; θ) = fY|T =t (y) Inferenza statistica e probabilità Verosimiglianza Dimostrazione ( solo per variabili casuali discrete) Se fY|T =t (y; θ) = fY|T =t (y) allora fY (y; θ) = fY|T =t (y)fT (t; θ) Teorema di fattorizzazione ⇒ sufficienza di T Se T è sufficiente, per il teorema di fattorizzazione si ha: fY|T =t (y; θ) = = = fY (y; θ) fT (t; θ) u(y)h(t; θ) u ∗ (y)h(t; θ) u(y) non dipende da θ u ∗ (y) Quando Y è continua la dimostrazione è simile Inferenza statistica e probabilità Verosimiglianza Definizione (Statistiche sufficienti minimali) Con riferimento ad un modello statistico G, la statistica T è sufficiente minimale per θ se assume valori distinti solo su campioni che danno luogo a verosimiglianze non equivalenti, ovvero T (y) = T (z) ⇔ L(θ; y) ∝ L(θ; z) Inferenza statistica e probabilità Verosimiglianza La statistica sufficiente minimale induce la più piccola partizione dello spazio campionario tra quelle definite dalle statistiche sufficienti. È funzione di qualsiasi altra statistica sufficiente Tra tutte le statistiche sufficienti è quella che ha dimensione più piccola. Inferenza statistica e probabilità Verosimiglianza Esempio Y ∼ N(0, θ), θ > 0. Campione di dimensione 1. Verosimiglianza: 2 1 y L(θ; y ) ∝ 0.5 exp − θ 2θ T (Y ) = Y e T1 (Y ) = Y 2 sono sufficienti, ma solo T1 (Y ) è sufficiente minimale. Consideriamo due campioni, x e y : 2 y − z2 L(θ; y ) = exp − L(θ; z) 2θ non dipende da θ se e solo se y 2 = z 2 : questo vale non solo quando y = z, ma anche quando y = −z. Inferenza statistica e probabilità Verosimiglianza Variabile casuale normale con media e varianza ignote Modello statistico: Y ∼ N(θ1 , θ2 ) θ = [θ1 , θ2 ]0 ∈ Θ = R × R+ 1 (y − θ1 )2 g (y ; θ) = √ exp − 2θ2 2πθ2 Campione di dimensione n: Yn = Rn Verosimiglianza: Pn 2 i=1 (yi − θ1 ) L(θ; y) ∝ n exp − 2θ2 θ22 1 Inferenza statistica e probabilità Verosimiglianza L(θ; y) ∝ = con t1 = Pn Pn Pn 2 2 i=1 yi − 2θ1 i=1 yi + nθ1 − n exp 2θ2 θ22 1 t2 − 2θ1 t1 + nθ12 − n exp 2θ2 θ22 i=1 yi 1 e t2 = Pn 2 i=1 yi La statistica T (Y) = [T1 (Y), T2 (Y)]0 , P P con T1 (Y) = ni=1 Yi e T2 = ni=1 Yi2 , è sufficiente per θ Inferenza statistica e probabilità Verosimiglianza Due campioni, y e x danno luogo a verosimiglianze equivalenti quando L(θ; y) T2 (y) − T2 (x) − 2θ1 (T1 (y) − T1 (x)) = exp − L(θ; x) 2θ2 non dipende da θ. Ciò avviene se e solo se T (y) = T (x). Quindi T (Y) è sufficiente minimale Inferenza statistica e probabilità Verosimiglianza Siano n T1∗ (Y) = Ȳ e T2∗ (Y) = S 2 = 1X (Yi − Ȳ )2 , n i=1 la statistica T ∗ (Y) = [Ȳ , S 2 ]0 è una funzione biunivoca di T (Y), quindi è essa stessa sufficiente minimale. Inferenza statistica e probabilità Verosimiglianza Esercizio Si supponga di disporre di un campione casuale semplice di dimensione n corrispondente al modello statistico: Y ∼ N(µ, θ) con media µ nota e varianza θ ignota. 1 Individuare lo spazio campionario e lo spazio parametrico 2 Determinare l’espressione della funzione di verosimiglianza 3 Individuare una statistica sufficiente minimale. Inferenza statistica e probabilità Verosimiglianza La famiglia esponenziale La classe parametrica G è una famiglia esponenziale di ordine r se ! r X g (y ; θ) = q(y ) exp ψi (θ)ti (y ) − τ (θ) θ ∈ Θ ⊆ Rk , k ≥ 1 i=1 dove r ≥ 1, ti (y ), i = 1, . . . , r , sono funzioni di y indipendenti da θ e ψi (θ), i = 1, . . . , r , e τ (θ) sono funzioni di θ indipendenti da y . Se a0 + r X ai ψi (θ) = 0 ∀θ ∈ Θ ⇔ ai = 0, i = 0, . . . , r i=1 la famiglia esponenziale si dice ridotta. Inferenza statistica e probabilità Verosimiglianza Esempi Se Y ∼ Bin(n; θ), n y g (y ; θ) = θ (1 − θ)n−y y n θ = exp log y + n log(1 − θ) y 1−θ θ quindi r = 1, q(y ) = yn , ψ(θ) = log , t(y ) = y e 1−θ τ (θ) = −n log(1 − θ). Inferenza statistica e probabilità Verosimiglianza Se Y ∼ N(θ1 , θ2 ), g (y ; θ) = = = 1 (y − θ1 )2 √ exp − 2θ2 2πθ2 2 1 y − 2θ1 y + θ12 √ exp − 2θ2 2πθ2 θ1 1 1 2 θ12 1 √ exp y− y − − log(θ2 ) θ2 2θ2 2θ2 2 2π e quindi r = 2, q(y ) = √1 , ψ1 (θ) = − θ1 , ψ2 (θ) = 1 , θ2 2θ2 2π 2 θ τ (θ) = 1 − 12 log(θ2 ), t1 (y ) = y e t2 (y ) = y 2 2θ2 Inferenza statistica e probabilità Verosimiglianza Se Y ∼ Po(θ), g (y ; θ) = exp(−θ) = θy y! 1 exp(log(θ)y − θ) y! e quindi r = 1, q(y ) = 1 , ψ(θ) = log(θ), t(y ) = y e y! τ (θ) = θ. Inferenza statistica e probabilità Verosimiglianza Verosimiglianze della famiglia esponenziale Se g (y ; θ) appartiene alla famiglia esponenziale, allora vi appartiene anche f (y; θ): r n X Y ψj (θ)tj (yi ) − τ (θ) q(yi ) exp f (y; θ) = j=1 i=1 r X = q ∗ (y) exp ψj (θ)Tj (y) − τ ∗ (θ) j=1 P Tj (y) = ni=1 tj (yi ) e τ ∗ (θ) = nτ (θ). r X L(θ; y) ∝ exp ψj (θ)Tj (y) − τ ∗ (θ) dove q ∗ (y) = Quindi, Qn i=1 q(yi ), j=1 Inferenza statistica e probabilità Verosimiglianza Una conseguenza importante Se g (y ; θ) appartiene alla famiglia esponenziale, allora T (Y) = [T1 (Y), . . . , Tr (Y]0 è sufficiente minimale. Inferenza statistica e probabilità Verosimiglianza Famiglie esponenziali regolari Una famiglia esponenziale si dice regolare se: Lo spazio parametrico, Θ coincide con l’intero insieme per cui g (y ; θ) integra (somma) a 1 ed è un intervallo aperto in Rk ; Le dimensioni di Θ e della statistica sufficiente minimale coincidono; ψ(θ) = [ψ1 (θ), . . . , ψr (θ)]0 è invertibile; le funzioni ψi , i = 1, . . . , r e τ (θ) ammettono derivate di qualsiasi ordine rispetto agli elementi di θ. Inferenza statistica e probabilità Verosimiglianza Se Y appartiene ad una famiglia esponenziale regolare di ordine 1 e Θ ⊂ R , allora E [T (Y)] = Var [T (Y)] = τ ∗ 0 (θ) ψ 0 (θ) ψ 0 (θ)τ ∗ 00 (θ) − ψ 00 (θ)τ ∗ 0 (θ) ψ 0 (θ)3 Dimostrazione: si veda Azzalini (2001).