Università di Siena Teoria della Stima Lucidi del corso di Identificazione e Analisi dei Dati A.A. 2002-2003 Università di Siena 1 Indice X Approcci al problema della stima Stima parametrica Stima bayesiana X Proprietà degli stimatori X Stime a minima varianza X Stima di massima verosimiglianza X Problemi di stima parametrica Stima di Gauss-Markov Stima ai minimi quadrati X Stima Bayesiana Stima a minimo errore quadratico medio Stima ottima lineare Identificazione e Analisi dei Dati Università di Siena 2 Variabili aleatorie scalari Sia X una variabile aleatoria (v.a.) scalare X:Ω→R definita sull’insieme di eventi elementari Ω. La notazione X ∼ FX (x), fX (x) denota che: • FX (x) è la funzione distribuzione di probabilità di X FX (x) = P {X ≤ x} , ∀x ∈ R • fX (x) è la funzione densità di probabilità di X Z x FX (x) = fX (σ) dσ, ∀x ∈ R −∞ Identificazione e Analisi dei Dati Università di Siena 3 Variabili aleatorie vettoriali Sia X = (X1 , . . . , Xn ) una variabile aleatoria vettoriale X : Ω → Rn definita sull’insieme di eventi elementari Ω. La notazione X ∼ FX (x), fX (x) denota che: • FX (x) è la funzione distribuzione di probabilità congiunta di X FX (x) = P {X1 ≤ x1 , . . . , Xn ≤ xn } , ∀x = (x1 , . . . , xn ) ∈ Rn • fX (x) è la funzione densità di probabilità congiunta di X Z x1 Z xn FX (x) = ... fX (σ1 , . . . , σn ) dσ1 . . . dσn , ∀x ∈ Rn −∞ −∞ Identificazione e Analisi dei Dati Università di Siena 4 Momenti di una distribuzione • primo momento (media) mX = E[X] = Z +∞ x fX (x) dx −∞ • secondo momento centrato (varianza) 2 σX = Var(X) = E (X − mX ) 2 = Z +∞ −∞ (x − mX )2 fX (x) dx Esempio Si definisce densità normale, e si indica con N(m, σ 2 ), la densità f(x) = √ 1 2πσ (x − m)2 − 2σ 2 e in cui m è la media della distribuzione e σ 2 è la varianza. Identificazione e Analisi dei Dati Università di Siena 5 Campionamento di una variabile aleatoria Si considerino n ripetizioni indipendenti dello stesso esperimento casuale. L’osservazione è dunque costituita da una successione X1 , . . . , Xn di v.a. indipendenti ed aventi la stessa densità di probabilità f(·). Definizione 1 Una successione X1 , . . . , Xn di v.a. indipendenti e identicamente distribuite (i.i.d.) si dice campione di dimensione n di densità f(·). Si definisca la v.a. vettoriale X=(X1 , . . . , Xn ). Qual è la densità di probabilità congiunta di X? Dato che le v.a. X1 , . . . , Xn sono indipendenti, risulta: fX (x) = n Y f(xi ), x = (x1 , . . . , xn ) i=1 Identificazione e Analisi dei Dati Università di Siena 6 Problema della Stima Problema. Stimare il valore della variabile incognita θ ∈ Rp sulla base di un’osservazione y della v.a. Y ∈ Rn . Due possibili scenari: a. Stima parametrica La variabile θ è un parametro incognito, e la densità di probabilità di Y dipende da θ b. Stima bayesiana L’incognita θ è una variabile aleatoria, ed è nota la densità di probabilità congiunta di Y e θ Identificazione e Analisi dei Dati Università di Siena 7 Stima parametrica • La distribuzione (o la densità) di probabilità della v.a. Y ha una forma funzionale nota, che dipende da un vettore θ di parametri incerti Y ∼ FYθ (y), fYθ (y) • Θ ⊆ Rp denota lo spazio dei parametri, in cui assume valori il vettore dei parametri θ • Y ⊆ Rn denota lo spazio delle osservazioni, in cui assume valori la variabile aleatoria Y Identificazione e Analisi dei Dati Università di Siena 8 Problema della stima parametrica Il problema della stima parametrica consiste nello stimare il parametro incognito θ sulla base di un’osservazione y della v.a Y . Definizione 2 Uno stimatore del parametro θ è una funzione T : Y −→ Θ Dare uno stimatore T (·) corrisponde a fissare la regola che, se si osserva y, allora si stima θ con la quantità θ̂ = T (y). In base alla definizione data, la classe dei possibili stimatori è infinita! Una prima questione consiste quindi nello stabilire dei criteri per decidere quali stimatori siano “buoni” e quali no, ovvero per confrontare due stimatori. Quale criterio conviene adottare per la scelta di un buon stimatore? Identificazione e Analisi dei Dati Università di Siena 9 Stima non polarizzata Ovviamente, il risultato migliore che uno stimatore può fornire è che la stima coincida con il valore vero del parametro. Dato che la stima è una v.a., è allora ragionevole richiedere che ciò accada in media. Definizione 3 Uno stimatore T (·) del parametro θ si dice corretto (o non polarizzato) se E θ [T (Y )] = θ, ∀θ ∈ Θ. corretto polarizzato PSfrag replacements θ Identificazione e Analisi dei Dati Università di Siena 10 Esempi • Y1 , . . . , Yn v.a. i.d. con media m. La media campionaria n 1X Yi Ȳ = n i=1 è una stima non polarizzata di m. Infatti n 1X E[Yi ] = m E Ȳ = n i=1 • Y1 , . . . , Yn v.a. i.i.d. con varianza σ 2 . La varianza campionaria n 1 X (Yi − Ȳ )2 S = n − 1 i=1 2 è una stima non polarizzata di σ 2 . Identificazione e Analisi dei Dati Università di Siena 11 Stima consistente Definizione 4 Sia {Yi }∞ i=1 una successione di v.a.. La successione di stimatori Tn =Tn (Y1 , . . . , Yn ) si dice consistente per θ se Tn converge a θ in probabilità per ogni θ ∈ Θ, cioè lim P θ {kTn − θk > ε} = 0 n→∞ , ∀ε > 0 , ∀θ ∈ Θ n = 500 n = 100 PSfrag replacements n = 50 n = 20 θ Identificazione e Analisi dei Dati Università di Siena 12 Esempio Y1 , . . . , Yn v.a. i.i.d. con media m e varianza σ 2 . La media campionaria n 1X Yi Ȳ = n i=1 è uno stimatore consistente di m. Vale infatti il seguente teorema. Teorema 1 (Legge dei grandi numeri) Sia {Yi }∞ i=1 una successione di v.a. indipendenti e identicamente distribuite con media m e varianza finita. Allora la media campionaria Ȳ converge a m in probabilità. Osservazione Sappiamo che la media campionaria è una stima non polarizzata di m. Inoltre, sotto le ipotesi del Teorema 1, risulta σ2 Var(Ȳ ) = →0 n per n→∞ Identificazione e Analisi dei Dati Università di Siena 13 Errore quadratico medio Si consideri uno stimatore T (·) del parametro scalare θ. Definizione 5 Si definisce errore quadratico medio la quantità E θ (T (Y ) − θ)2 Se lo stimatore T (·) è corretto, l’errore quadratico medio coincide con la varianza della stima. Definizione 6 Dati due stimatori T1 (·) e T2 (·) del parametro θ, T1 (·) si dice preferibile a T2 (·) se θ 2 θ 2 , ∀θ ∈ Θ E (T1 (Y ) − θ) ≤ E (T2 (Y ) − θ) Restringendo l’attenzione agli stimatori corretti, cerchiamo quello, se esiste, con minima varianza per ogni valore di θ. Identificazione e Analisi dei Dati Università di Siena 14 Stima non polarizzata a minima varianza Definizione 7 Uno stimatore corretto T ∗ (·) del parametro scalare θ viene detto efficiente (o UMVUE, uniformly minimum variance unbiased estimator) se h i 2 θ ∗ θ 2 E (T (Y ) − θ) ≤ E (T (Y ) − θ) , ∀θ ∈ Θ per ogni stimatore corretto T (·) di θ. UMVUE PSfrag replacements θ Identificazione e Analisi dei Dati Università di Siena 15 Migliore stima lineare Restringiamo l’attenzione alla classe degli stimatori lineari, ossia stimatori del tipo n X ai y i , a i ∈ R T (y) = i=1 Definizione 8 Uno stimatore lineare corretto T ∗ (·) del parametro scalare θ viene detto BLUE (best linear unbiased estimator) se h i 2 θ ∗ θ 2 E (T (Y ) − θ) ≤ E (T (Y ) − θ) , ∀θ ∈ Θ per ogni stimatore lineare corretto T (·) di θ. Esempio. Yi v.a. indipendenti con media m e varianza σi2 , i = 1, . . . , n. n X 1 1 Y Ŷ = n 2 i X 1 σ i=1 i 2 σ i i=1 risulta essere la migliore stima lineare non polarizzata di m. Identificazione e Analisi dei Dati Università di Siena 16 Limite di Cramer-Rao Il limite di Cramer-Rao stabilisce un limite inferiore per la varianza di ogni stimatore corretto del parametro θ. Teorema 2 Sia T (·) uno stimatore corretto del parametro scalare θ, e si supponga che lo spazio delle osservazioni Y sia indipendente da θ. Allora (sotto alcune ipotesi di regolarità...) θ 2 E (T (Y ) − θ) ≥ [In (θ)]−1 " 2 # θ ∂ ln fY (Y ) dove In (θ)=E θ ( quantità di informazione di Fisher). ∂θ Osservazione. La valutazione di In (θ) richiede generalmente la conoscenza di θ; quindi il valore del limite di Cramer-Rao è tipicamente sconosciuto all’utente. Esso può comunque essere usato per dimostrare che uno stimatore non polarizzato è efficiente. Identificazione e Analisi dei Dati Università di Siena 17 Limite di Cramer-Rao Nel caso in cui il parametro θ sia vettoriale, e T (·) ne è uno stimatore corretto, risulta E θ (T (Y ) − θ) (T (Y ) − θ)0 ≥ [In (θ)]−1 (1) dove la disuguaglianza è da intendersi in senso matriciale. In (θ) denota la matrice di informazione di Fisher " 0 # θ θ ∂ ln fY (Y ) ∂ ln fY (Y ) In (θ) = E θ ∂θ ∂θ La matrice a sinistra nella (1) è la matrice di covarianza dello stimatore. Identificazione e Analisi dei Dati Università di Siena 18 Limite di Cramer-Rao Se le v.a. Y1 , . . . , Yn sono i.i.d., risulta In (θ) = nI1 (θ) 1 Dunque, per θ fissato, il limite di Cramer-Rao migliora come n all’aumentare della dimensione n del campione. Esempio. Y1 , . . . , Yn v.a. i.i.d. con media m e varianza σ 2 . Risulta E h Ȳ − m 2 i [I1 (θ)]−1 σ2 −1 ≥ [In (θ)] = = n n dove Ȳ denota la media campionaria. Se le v.a. Y1 , . . . , Yn seguono una 1 densità normale, risulta anche I1 (θ)= 2 . σ Essendo dunque raggiunto il limite di Cramer-Rao, nel caso di v.a. normali i.i.d. la media campionaria è uno stimatore efficiente della media. Identificazione e Analisi dei Dati Università di Siena 19 Stima di massima verosimiglianza Si consideri una v.a. Y ∼fYθ (y), e una sua osservazione y. Si definisce funzione di verosimiglianza la funzione di θ (y è fissato!) L(θ|y) = fYθ (y) Una stima ragionevole di θ è quel valore del parametro che massimizza la probabilità dell’evento osservato. Definizione 9 Si definisce stimatore di massima verosimiglianza del parametro θ lo stimatore TML (y) = arg max L(θ|y) θ∈Θ Osservazione. I punti di massimo delle funzioni L(θ|y) e ln L(θ|y) coincidono. In alcuni casi può risultare conveniente cercare i punti di massimo di ln L(θ|y). Identificazione e Analisi dei Dati Università di Siena 20 Proprietà della stima di massima verosimiglianza Si consideri il caso di parametro θ scalare. Teorema 3 Sotto le ipotesi di validità del limite di Cramer-Rao, se esiste uno stimatore T ∗ (·) che raggiunge il limite di Cramer-Rao, allora esso coincide con lo stimatore di massima verosimiglianza TML (·). Esempio. Yi ∼N(m, σi2 ) indipendenti, σi2 nota, i = 1, . . . , n. La stima n X 1 1 Y Ŷ = n 2 i X 1 σ i=1 i 2 σ i i=1 n X 1 1 di m è corretta e tale che Var(Ŷ ) = n , mentre In (m) = . 2 X 1 σ i=1 i 2 σ i i=1 Essendo raggiunto il limite di Cramer-Rao, Ŷ risulta lo stimatore di massima verosimiglianza di m. Identificazione e Analisi dei Dati Università di Siena 21 La stima di massima verosimiglianza ha un buon comportamento asintotico. Teorema 4 Se le v.a. Y1 , . . . , Yn sono i.i.d., allora (sotto alcune ipotesi di regolarità...) p In (θ) (TML (Y ) − θ) −→ N(0, 1) in densità di probabilità, asintoticamente per n→∞. Il Teorema 4 ci dice che la stima di massima verosimiglianza è • asintoticamente corretta • consistente • asintoticamente efficiente • asintoticamente normale Identificazione e Analisi dei Dati Università di Siena 22 Esempio. Sia Y1 , . . . , Yn un campione di densità normale con media m e varianza σ 2 . La media campionaria n 1X Yi Ȳ = n i=1 è la stima di massima verosimiglianza di m. p n Inoltre In (m)(Ȳ − m) ∼ N(0, 1), essendo In (m)= 2 . σ Osservazione. La stima di massima verosimiglianza può non essere corretta. Si consideri il caso di un campione Y1 , . . . , Yn di densità normale con varianza σ 2 . La stima di massima verosimiglianza di σ 2 risulta n 1X (Yi − Ȳ )2 Ŝ = n i=1 2 che è non corretta, in quanto E[Ŝ 2 ] = n−1 2 σ . n Identificazione e Analisi dei Dati Università di Siena 23 Problemi di stima a massima verosimiglianza Sia Y ∈ Rm un vettore di v.a., tali che Y = U (θ) + ε dove - θ ∈ Rn è il parametro incognito da stimare - U (·) : Rn → Rm è una funzione nota - ε ∈ Rm è un vettore di v.a., su cui si fa l’ipotesi ε ∼ N (0, Σε ) Problema: determinare la stima a massima verosimiglianza di θ θ̂ML = TML (Y ) Identificazione e Analisi dei Dati Università di Siena 24 Stima ai minimi quadrati La densità di probabilità dei dati Y è pari a fY (y) = fε (y − U (θ)) = L(θ|y) Perciò, dalle ipotesi su ε θ̂ML = arg max ln L(θ|y) = arg min (y − U (θ))0 Σ−1 ε (y − U (θ)) θ θ Se la covarianza Σε è nota, si ottiene la stima ai minimi quadrati pesati Poichè in generale U (θ) è una funzione non lineare, la soluzione si calcola tramite metodi numerici: MATLAB Optimization Toolbox → >> help optim Identificazione e Analisi dei Dati Università di Siena 25 Stimatore di Gauss-Markov Nel caso in cui la funzione U (·) sia lineare, ovvero U (θ) = U θ con U ∈ Rm×n matrice nota, si ha Y = Uθ + ε e la stima ML coincide con la stima di Gauss-Markov −1 0 −1 U Σε y θ̂ML = θ̂GM = (U 0 Σ−1 ε U) Nel caso particolare in cui ε ∼ N (0, σ 2 I) (variabili εi indipendenti!), si ha la stima ai minimi quadrati θ̂LS = (U 0 U )−1 U 0 y Nota: la stima LS non dipende dal valore di σ, ma solo da U Identificazione e Analisi dei Dati Università di Siena 26 Esempi di stima ai minimi quadrati Esempio 1. Yi = θ + εi , i = 1, . . . , m εi variabili aleatorie indipendenti, con media nulla e varianza σ 2 ⇒ E[Yi ] = θ Si vuole stimare il valore di θ sulla base di m osservazioni delle Yi Si ha Y = U θ + ε con U = (1 1 . . . 1)0 e 0 θ̂LS = (U U ) −1 m 1 X U y = yi m i=1 0 La stima ai minimi quadrati coincide con la media aritmetica (ed è anche la stima a massima verosimiglianza se le εi sono Gaussiane) Identificazione e Analisi dei Dati Università di Siena 27 Esempi di stima ai minimi quadrati Esempio 2. Stesso problema dell’Esempio 1, con E[ε2i ] = σi2 , i = 1, . . . , m In questo caso, E[εε0 ] = Σε = σ12 0 ... 0 0 . . . σ22 . . . ... 0 . . . 0 0 ... .. . 2 σm ⇒ La stima lineare ai minimi quadrati è ancora la media aritmetica ⇒ La stima di Gauss-Markov è θ̂GM = (U 0 −1 0 −1 Σ−1 U Σε y ε U) m X 1 1 = m 2 yi X 1 σ i=1 i 2 σ i i=1 e coincide con la stima a massima verosimiglianza se le εi sono Gaussiane Identificazione e Analisi dei Dati Università di Siena 28 Stima Bayesiana Stima parametrica: stimare il valore di un parametro incognito θ sulla base di osservazioni della variabile aleatoria Y , la cui distribuzione ha una forma funzionale nota che dipende da θ, fYθ (y) → stima a massima verosimiglianza → stimatori UMVUE e BLUE → stimatori ai minimi quadrati Stima Bayesiana : stimare una variabile aleatoria incognita X, sulla base di osservazioni della variabile aleatoria Y , conoscendo la densità di probabilità congiunta fX,Y (x, y) ⇒ stima ottima a posteriori ⇒ stima a minimo errore quadratico medio ⇒ stima ottima lineare Identificazione e Analisi dei Dati Università di Siena 29 Stima Bayesiana: formulazione del problema Problema: Data una variabile aleatoria incognita X ∈ Rn e una variabile aleatoria Y ∈ Rm , della quale sono disponibili osservazioni, determinare una stima di X basata sui valori osservati di Y . Soluzione: occorre individuare uno stimatore X̂ = T (Y ), dove T (·) : Rm → Rn Per valutare la qualità della stima è necessario definire un opportuno criterio di stima: in generale, si considera il funzionale di rischio di Bayes ZZ d(x, T (y)) fX,Y (x, y) dx dy Jr = E[d(X, T (Y ))] = e si minimizza Jr rispetto a tutti i possibili stimatori T (·) d(X, T (Y )) → “distanza” tra la v.a. incognita X e la sua stima T (Y ) Identificazione e Analisi dei Dati Università di Siena 30 Stima a minimo errore quadratico medio (MEQM) Sia d(X, T (Y )) = kX − T (Y )k2 . Si ottiene cosı̀ la stima a minimo errore quadratico medio (MEQM) X̂MEQM = T ∗ (Y ) dove T ∗ (·) = arg min E[kX − T (Y )k2 ] T (·) Osservazioni: - si deve risolvere un problema di minimo rispetto a tutti i possibili stimatori T (·) : Rm → Rn - il valore atteso E[·] viene calcolato rispetto a entrambe le variabili aleatorie X e Y → è necessario conoscere la densità di probabilità congiunta fX,Y (x, y) Identificazione e Analisi dei Dati Università di Siena 31 Stima MEQM Risultato X̂MEQM = E[X|Y ] Il valore atteso condizionato di X rispetto ad Y coincide con la stima a minimo errore quadratico medio di X basata su osservazioni di Y Generalizzazioni: - Sia Q(X, T (Y )) = E[(X − T (Y ))(X − T (Y ))0 ]. Allora: Q(X, X̂MEQM ) ≤ Q(X, T (Y )), per ogni possibile T (Y ) - X̂MEQM minimizza ogni funzione scalare monotona crescente di Q(X, T (Y )), e in particolare trace(Q) (MEQM) e trace(W Q) con W > 0 (MEQM pesato) Identificazione e Analisi dei Dati Università di Siena 32 Stima ottima lineare (LMEQM) La stima MEQM richiede la conoscenza della distribuzione di X e Y → Stimatori di struttura più semplice Stimatori lineari: T (Y ) = AY + b A ∈ Rn×m , b ∈ Rn×1 : coefficienti dello stimatore (da determinare) La stima lineare a minimo errore quadratico medio è definita da X̂LMEQM = A∗ Y + b∗ dove A∗ , b∗ = arg min E[kX − AY − bk2 ] A,b Identificazione e Analisi dei Dati Università di Siena 33 Stima LMEQM Risultato Siano X e Y variabili aleatorie tali che: E[X] = mX E X − mX Y − mY E[Y ] = mY X − mX Y − mY 0 = RX 0 RXY RXY RY Allora X̂LMEQM = mX + RXY RY−1 (Y − mY ) ovvero A∗ = RXY RY−1 b∗ = mX − RXY RY−1 mY Identificazione e Analisi dei Dati Università di Siena 34 Proprietà della stima LMEQM • La stima LMEQM non richiede la conoscenza della distribuzione di probabilità congiunta di X e Y , ma solo delle covarianze RXY , RY (statistiche del secondo ordine) • La stima LMEQM soddisfa E[(X − X̂LMEQM )Y 0 ] = = E[{X − mX − RXY RY−1 (Y − mY )}Y 0 ] RXY − RXY RY−1 RY = 0 ⇒ L’errore di stima ottimo lineare è scorrelato dai dati Y • Se X e Y sono congiuntamente Gaussiane si ha E[X|Y ] = mX + RXY RY−1 (Y − mY ) per cui X̂LMEQM = X̂MEQM ⇒ Nel caso Gaussiano, la stima MEQM è funzione lineare delle variabili osservate Y , e quindi coincide con la stima LMEQM Identificazione e Analisi dei Dati Università di Siena 35 Esempio di stima LMEQM (1/2) Yi , i = 1, . . . , m, variabili aleatorie definite da Yi = ui X + ε i dove - X variabile aleatoria di media mX e varianza σX2 ; - ui coefficienti noti; - εi variabili aleatorie indipendenti, con media nulla e varianza σi2 Si ha Y = UX + ε con U = (u1 u2 . . . um )0 e E[εε0 ] = Σε = diag{σi2 } Si vuole calcolare la stima LMEQM X̂LMEQM = mX + RXY RY−1 (Y − mY ) Identificazione e Analisi dei Dati Università di Siena 36 Esempio di stima LMEQM (2/2) Si ha: - mY = E[Y ] = U mX - RXY = E[(X − mX )(Y − U mX )0 ] = σX2 U 0 - RY = E[(Y − U mX )(Y − U mX )0 ] = U σX2 U 0 + Σε da cui (dopo qualche passaggio...) 1 mX σX2 1 U 0 Σ−1 ε U + σX2 U 0 Σ−1 ε Y + X̂LMEQM = Caso particolare: U = (1 1 . . . 1)0 (ovvero Yi = X + εi ) X̂LMEQM = m X 1 1 Y + 2 mX 2 i σ σX i=1 i m X 1 1 + σ2 σX2 i=1 i Nota: l’informazione a priori su X è considerata come un dato aggiuntivo Identificazione e Analisi dei Dati Università di Siena 37 Esercizio sulla stima Bayesiana (1/2) Si considerino due variabili aleatorie X e Y , la cui pdf congiunta è − 3 x2 + 2xy 0 ≤ x ≤ 1, 1 ≤ y ≤ 2 2 fX,Y (x, y) = 0 altrimenti Si vogliono determinare le stime X̂MEQM e X̂LMEQM di X, basate su una osservazione della variabile Y . Soluzioni: • X̂MEQM 2 3 y− 8 = 3 1 y− 2 • X̂LMEQM = 73 1 y+ 22 132 Vedere file MATLAB: Es bayes.m Identificazione e Analisi dei Dati Università di Siena 38 Esercizio sulla stima Bayesiana (2/2) Joint pdf 0.65 0.64 2.5 0.63 2 0.62 f(x,y) stime di X 1.5 1 0.61 0.6 0.5 0 2 0.59 1.8 MEQM LMEQM E[X] 1 1.6 0.8 0.4 1.2 y 0.58 0.6 1.4 0.2 1 0 fX,Y (x, y) 0.57 x 1 1.1 1.2 1.3 1.4 1.5 y 1.6 1.7 1.8 1.9 2 X̂MEQM (y) (rosso) X̂LMEQM (y) (verde) E[X] (blu) Identificazione e Analisi dei Dati