Statistica e biometria D. Bertacchi I modelli probabilistici Statistica inferenziale Campione Stimatori Non distorti Consistenti Stima del valore atteso Stima della varianza Valore atteso noto Valore atteso incognito Finora abbiamo visto che esistono modelli probabilistici che possiamo utilizzare per prevedere gli esiti di esperimenti aleatori. Naturalmente la previsione è di tipo probabilistico: diciamo con quanta probabilità si verificano certi esiti. Formula alternativa Ad esempio se per una moneta scegliamo il modello B(1/2), diciamo che la probabilità che esca testa in un lancio futuro vale 1/2. Statistica e biometria D. Bertacchi Statistica inferenziale Campione Stimatori Non distorti Consistenti La statistica inferenziale Con la statistica inferenziale si utilizzano i dati di più esperimenti aleatori per dire qualcosa sul modello probabilistico che si suppone incognito (almeno in parte). Stima del valore atteso Esempio: la moneta Stima della varianza Se abbiamo una moneta, essendo gli esiti possibili solamente due (testa e croce), il modello adatto è quello bernoulliano, ma p = probabilità che esca testa potrebbe anche non essere = 1/2. Come fare per capire quanto vale p? Valore atteso noto Valore atteso incognito Formula alternativa Idea: lanciamo molte volte (n) la moneta e contiamo il numero totale di teste (Sn ). Dalla legge dei grandi numeri sappiamo che se n è grande sarà assai improbabile che tale Sn /n sia “molto diverso” da p. Statistica e biometria Dall’esempio della moneta D. Bertacchi Statistica inferenziale Campione Stimatori Guidati dall’intuizione abbiamo Non distorti Consistenti 1 scelto un modello (Bernoulli) con un parametro incognito (p); 2 fatto n esperimenti con la stessa moneta e indipendenti (n lanci); 3 raccolto i dati e calcolato una funzione di questi dati (Sn /n); 4 usato questa funzione per stimare il parametro incognito. Stima del valore atteso Stima della varianza Valore atteso noto Valore atteso incognito Formula alternativa Introduciamo allora le definizioni necessarie. Statistica e biometria Modello statistico D. Bertacchi Statistica inferenziale Campione Stimatori Non distorti Consistenti Stima del valore atteso Stima della varianza Valore atteso noto DEFINIZIONE DI MODELLO STATISTICO Un modello statistico parametrico è una famiglia di leggi di v.a., dipendenti da uno o più parametri θ: lo indichiamo tramite la funzione di densità: {f (x; θ) : θ ∈ Θ}. Valore atteso incognito Formula alternativa Θ è lo spazio dei parametri. In altre parole, il modello statistico indica la scelta di un “tipo” di v.a. (ricordiamo inoltre che abbiamo già osservato che conoscere la legge di una v.a. equivale a conoscere la sua densità). Statistica e biometria Esempi D. Bertacchi Statistica inferenziale Campione Stimatori Non distorti Esempi di modelli statistici. Consistenti Stima del valore atteso Stima della varianza Valore atteso noto Valore atteso incognito Formula alternativa • Il modello B(p): f (x; p) = p se x=1, f (x; p) = 1 − p se x=0, il parametro incognito è p e lo spazio dei parametri è [0, 1]. • Il modello N (µ, σ 2 ): la densità è una funzione di x (la campana) che dipende da µ e σ 2 . Lo spazio dei parametri è R × (0, +∞) (infatti µ può essere qualsiasi numero reale, σ 2 deve essere >0). Statistica e biometria D. Bertacchi Il campione casuale Statistica inferenziale Campione Stimatori Non distorti Consistenti Stima del valore atteso Stima della varianza Valore atteso noto Valore atteso incognito Formula alternativa DEFINIZIONE DI CAMPIONE CASUALE Un campione casuale di dimensione n è una n-upla di v.a. X1 , . . . , Xn i.i.d. Il campione si dice estratto da una popolazione di legge f (x; θ) se ciascuna delle v.a. ha legge f (x; θ). Statistica e biometria Statistica D. Bertacchi Statistica inferenziale Campione Stimatori Non distorti Consistenti Stima del valore atteso Stima della varianza Valore atteso noto Valore atteso incognito Formula alternativa DEFINIZIONE DI STATISTICA Dato un campione casuale X1 , X2 , . . . , Xn , si dice statistica una v.a. T funzione del campione casuale che NON sia funzione di alcun parametro incognito. In altre parole, esiste una funzione t per cui T = t(X1 , X2 , . . . , Xn ) e t NON dipende da parametri incogniti. Esempi. T = X1 + X3 − 5, W = X4 X5 sono statistiche. Y = X1 + pX2 , se p è incognito, non è una statistica. Statistica e biometria D. Bertacchi Statistica inferenziale Campione Stimatori Non distorti Consistenti Stima del valore atteso Stimatori DEFINIZIONE DI STIMATORE Si dice stimatore del parametro θ una statistica usata per stimare θ. Assegnata la statistica T = t(X1 , X2 , . . . , Xn ), una volta estratto un particolare campione (x1 , x2 , . . . , xn ), il numero τ = t(x1 , x2 , . . . , xn ) si dice stima di θ. Stima della varianza Valore atteso noto Valore atteso incognito Formula alternativa Osservazione Lo stimatore è una variabile aleatoria, mentre la stima è un numero reale. A priori ogni funzione del campione casuale può essere usata per stimare un parametro, ma è chiaro che ci saranno stimatori migliori di altri. Due proprietà “desiderabili” per uno stimatore sono la non distorsione e la consistenza. Statistica e biometria D. Bertacchi Stimatori non distorti Statistica inferenziale Campione Stimatori Non distorti Consistenti DEFINIZIONE DI STIMATORE NON DISTORTO Uno stimatore T di θ si dice non distorto, se Eθ (T ) = θ per ogni θ. Stima del valore atteso Stima della varianza Valore atteso noto Valore atteso incognito Formula alternativa Perché Eθ La legge, e quindi anche il valore atteso, di T dipende da θ; nel seguito spesso, per semplicità di notazione, sottintenderemo i pedici θ. Significato della non distorsione Se T è uno stimatore non distorto di θ, la v.a. T ha come “centro dei suoi possibili valori” proprio θ. Statistica e biometria Stimatori consistenti D. Bertacchi Statistica inferenziale Campione Stimatori Non distorti Consistenti Stima del valore atteso Stima della varianza Valore atteso noto Valore atteso incognito Formula alternativa Spesso lo stimatore scelto dipende esplicitamente, oltre che dal campione casuale X1 , . . . , Xn , dal numero n (la numerosità del campione). Quindi di fatto abbiamo una successione di stimatori {Tn }n≥0 . DEFINIZIONE DI STIMATORE CONSISTENTE Una successione di stimatori {Tn }n≥0 di θ si dice consistente (in media quadratica) se lim Eθ (Tn − θ)2 = 0, n→+∞ ∀θ ∈ Θ. Eθ (Tn − θ)2 è detto rischio quadratico medio di Tn . Statistica e biometria D. Bertacchi Significato della consistenza Statistica inferenziale Campione Stimatori Non distorti Consistenti Se {Tn }n≥0 è una successione consistente di stimatori di θ, il valore atteso della distanza fra lo stimatore Tn e ciò che vogliamo stimare, cioè θ, tende a 0 per n → ∞. Stima del valore atteso Quindi la stima sarà tanto più precisa tanto più n è grande. Stima della varianza Stimatori non distorti e consistenti Se i Tn sono stimatori non distorti di θ, allora Eθ (Tn − θ)2 = Var(Tn ). Valore atteso noto Valore atteso incognito Formula alternativa Quindi per gli stimatori non distorti, chiedere che siano consistenti equivale a chiedere che la varianza tenda a zero per n → ∞. Statistica e biometria Stimatore per E(X ) D. Bertacchi Statistica inferenziale Campione Se abbiamo una v.a. X e vogliamo stimare E(X ) come possiamo fare? (È la generalizzazione del problema della moneta...). Stimatori Non distorti Consistenti Stima del valore atteso Prenderemo un campione casuale X1 , . . . , Xn in cui ogni Xi abbia la stessa legge di X , lo stimatore naturale per E(X ) è la media campionaria Stima della varianza n 1X Xn = Xi . n Valore atteso noto Valore atteso incognito Formula alternativa i=1 Proprietà di X n Basta ricordare i conti già visti per E(X n ) e Var(X n ) per ottenere che • è uno stimatore non distorto di E(X ); • è uno stimatore consistente di E(X ). Statistica e biometria Su X n D. Bertacchi Statistica inferenziale Campione Stimatori Non distorti Consistenti Stima del valore atteso Stima della varianza Valore atteso noto Valore atteso incognito Formula alternativa Qualsiasi sia n (numerosità del campione) X n è uno stimatore non distorto di E(X ). Quindi dal punto di vista 2 della distorsione X 2 = X1 +X non appare migliore o 2 X1 +···+X40 . peggiore di X 40 = 40 L’intuizione ci dice che fare 40 esperimenti porta in genere ad una stima migliore di quella fornita da 2 esperimenti. X n è uno stimatore migliore se n è grande È una conseguenza del fatto che il rischio quadratico medio (che coincide con la varianza) diminuisce all’aumentare di n: Var(X n ) = Var(X )/n. Statistica e biometria D. Bertacchi Stimatori per Var(X ) Statistica inferenziale Campione Stimatori Non distorti Consistenti Stima del valore atteso Stima della varianza Valore atteso noto Valore atteso incognito Formula alternativa Ricordiamo la definizione di varianza. DEFINIZIONE DI VARIANZA DI UNA V.A. Data una variabile aleatoria X la sua varianza è il numero reale: Var(X ) = E (X − E(X ))2 . Ricordiamo anche che un buon stimatore di E(X ) è X n (la media aritmetica del campione). Idea per costruire uno stimatore Si prende l’espressione teorica del parametro da stimare e si sostituiscono le medie teoriche (E) con le medie aritmetiche. Statistica e biometria Se E(X ) è noto D. Bertacchi Statistica inferenziale Stimatore di Var(X ) con µ = E(X ) noto Campione Per ogni n n Stimatori Non distorti Consistenti Stima del valore atteso Stima della varianza Valore atteso noto Valore atteso incognito Formula alternativa Tn = 1X (Xi − µ)2 n i=1 è uno stimatore non distorto di Var(X ) e {Tn }n≥1 è una successione di stimatori consistente in media quadratica. Notiamo che µ è un numero che si suppone noto. Si prende ciascuna delle osservazioni (Xi ), si calcola la sua distanza al quadrato da µ e poi si fa la media aritmetica. Formula alternativa ! n 1X 2 Tn = (Xi ) + µ2 − 2µX n . n i=1 Statistica e biometria Se E(X ) è incognito D. Bertacchi Statistica inferenziale Campione Stimatori Non distorti Consistenti Stima del valore atteso Stima della varianza Valore atteso noto Valore atteso incognito Formula alternativa In molte situazioni E(X ) è incognito: risulta naturale stimarlo con X n . Stimatore di Var(X ) con E(X ) incognito Per ogni n n Sn2 = 1 X (Xi − X n )2 n−1 i=1 è uno stimatore non distorto di Var(X ) e {Sn∗ }n≥1 è una successione di stimatori consistente in media quadratica. Questo stimatore è detto varianza campionaria. Statistica e biometria Perché 1/(n − 1) D. Bertacchi Statistica inferenziale Campione Stimatori Non distorti Consistenti Stima del valore atteso Stima della varianza Notiamo che sarebbe naturale aspettarsi che lo stimatore “giusto” sia n 1X Wn = (Xi − X n )2 n i=1 invece di Valore atteso noto n Sn2 Valore atteso incognito Formula alternativa 1 X (Xi − X n )2 . = n−1 i=1 Ma E(Wn ) = n−1 n Var(X ). Si sceglie Sn2 invece di Wn Perché Wn è uno stimatore distorto per Var(X ) mentre E(Sn2 ) è non distorto (E(Sn2 ) = Var(X )). Statistica e biometria Formula utile D. Bertacchi Statistica inferenziale Campione Stimatori Non distorti La formula n Consistenti Stima del valore atteso Stima della varianza Valore atteso noto Valore atteso incognito Formula alternativa Sn2 1 X = (Xi − X n )2 . n−1 i=1 costringe a calcolare n differenze da elevare al quadrato. Formula alternativa per la varianza campionaria ! n X 2 1 n Xn . Sn2 = (Xi )2 − n−1 n−1 i=1