STIMA PARAMETRICA E TEST DELLE IPOTESI L’inferenza Statistica riguarda affermazioni circa I parametri di una popolazione sulla base della metodologia statistica e del calcolo delle probabilità • Stima puntuale Quando un parametro della popolazione incognito è valutato (stimato) da una sola statistica (parametro) tratto da un campione • Stima Intervallo Quando un parametro della popolazione incognito è valutato (stimato) mediante un intervallo di valori e alla valutazione è associato un giudizio di fiducia circa la possibilità di trovare in tale intervallo il valore incognito. Sia θ un generico parametro incognito e sia noto un campione x1 , x 2 ,..., x n . Sia Θ spazio dei parametri campionari– l’insieme dei valori che può assumere θ. La stima parametrica significa trovare una procedura che ci consenta di trarre dal campione osservato x1 , x 2 ,..., x n (Stimatore) l’informazione per assegnare a θ un valore (stima) o un insieme di valori. Lo Stimatore è dunque una vc e la stima è una sua determinazione data una particolare osservazione Test di Ipotesi E’ una procedura che porta a stabilire quandto un evidenza campionaria è in grado di respingere una certa assunzione circa il parametro incognito di una popolazione. Se si assume cxhe un determinato parametro incognito di una distribuzione sia vero e si costruisce la corrispondente distribuzione di probabilità. Se la corrispondente statistica campionaria ha una bassaporbabilità di appartenere a quella distribuzione diremo che l’ipotesi formulata è respinta dall’evidenza empirica (falsificazione) – al contrario, se la probabilià è alta non sarà rigettata (ma mai confermata). E’ una strategia per fare inferenza mediante un approccio indiretto. STIMA PUNTUALE Si definisce stimatore del parametro θ incognito qualunque statistica T = t( X 1 , X 2 ,..., X n ) utilizzata per stimare θ. Il valore assunto dallo stimatore T per un dato campione è una stima ( θ̂ ). La vc stimatore t( X 1 , X 2 ,..., X n ) ha una propria distribuzione campionaria quindi una propria media e varianza. Si ricorre a varie strategie per trovare lo stimatore di un parametro θ . In ogni caso la scelta dello stimatore è basata sulla distribuzione di probabilità e su alcune proprietà desiderabili. Correttezza Uno stimatore T diθ è corretto se e solo se E (T ) = θ Efficienza Uno stimatore corretto di θ, T*, è efficiente se: Var (T *) ≤ Var (T ) Per ogni altro stimatore corretto T e per ogni θ ∈ Θ . Esempio: la media aritmentica è uno stimatore corretto della media della popolazione μ. θ = μ e T = X segue : ⎛1 n ⎞ 1 n E (T ) = E (X ) = E ⎜ ∑ X i ⎟ = ∑ E ( X i ) = μ ⎝ n i =1 ⎠ n i =1 Esempio: La varianza campionaria è uno stimatore distorto della varianza in popolazione. Lo stimatore corretto è: ⎛ n 2 ⎞ ⎜ ∑ (X i − X ) ⎟ ⎟ =σ 2 E (s 2 ) = E ⎜ i =1 ⎜ ⎟ n −1 ⎜ ⎟ ⎝ ⎠ Graphs Stima Intervallo Un Intervallo di confidenza è dato da due valori calcolati sulla base del campione che identificano una classe di valori che con una data probabilità (confidenza ), include il valore vero del parametro X 1 , X 2 ,..., X n Dato un campione casuale con funzione di probabilità f (x;θ ) , estratto da una Popolazione Sia t1 ( X 1 , X 2 ,..., X n ) e t 2 ( X 1 , X 2 ,..., X n ) 2 statistiche, dove t1<t2 e P(t1 < θ < t 2 ) = 1 − α , L’intervallo casuale [t1 ,t 2 ] è un intervallo di confidence di θ con confidenza 1-α. NOTA: interpretazione corretta Dato un livello di confidenza α, e un gran numero di ripetizioni della selezione campionaria, l’intervallo [t1 ,t 2 ] include θ 100(1−α)% . Stima Intervallo della media (μ) Si ricorre alla distribuzione campionaria di X . X −μ ~ N (0,1) σ/ n da cui ⎤ ⎡ X −μ P ⎢− zα / 2 ≤ ≤ zα / 2 ⎥ = 1 − α σ/ n ⎦ ⎣ [ ] P μ − zα / 2σ / n ≤ X ≤ μ + zα / 2σ / n = 1 − α Risolvendo per μ : [ ] [ ] P X − zα / 2σ / n < μ < X + zα / 2σ / n = 1 − α Se α=0.05 P X − 1.96σ / n < μ < X + 1.96σ / n = 0.95 Questo è un intervallo con una “confidenza” alta (0,95) che includa al suo [ interno la media vera incognita μ, x − 1.96σ / n , x + 1.96σ / n La domanda: quanto è grande l’intervallo? dipende dalla varianzae da n Se la varianza non è nota X −μ ~ t n −1 s/ n ] L’intervallo di confidenza è: [ ] P X − t n −1,α / 2 s / n < μ < X + t n −1,α / 2 s / n = 1 − α Differenza tra due medie ( ) X 1 , X 2 ,..., X n è un campione selezionato dalla popolazione N μ x ,σ x2 , σ x2 noto. Y1 ,Y2 ,...,Ym è un campione selezionato dalla popolazione N (μ y ,σ y2 ), σ y2 noto allora: (X − Y ) − (μ x − μy ) σ / n +σ / m 2 x 2 y ~ N (0 ,1) , L’intervallo di confidenza per la differenza tra medie: ( X − Y ) − zα /2 σ x2 / n + σ y2 / m ≤ μ x − μ y ≤ (X − Y ) + zα / 2 σ x2 / n + σ y2 / m NB: Il risultato è valido anche se le due popolazioni non sono note se n è grande. Il risultato è valido anche se trattiamo con proporzioni grazie alla approssimazione della binomiale alla normale Esercizio 1. In una indagine sul variazione del reddito è stata condotta su un campione di 6 regioni di un paese. L’indagine ha mostrato I seguenti incrementi di reddito: 19,2 18,4 19,8 20,2 20,4 19 (%) Qual’è la stimma intervallo della variazione del reddito medio per l’intero paese What is the interval estimate of the average income increase for the whole country (Grado di confidenza 0.95) Soluzione Dall’indagime abbiamo: x = 117 / 6 =19,5 s 2 = 0 ,588 s = 0 ,7668 s / n = 0 ,313 Se si assume che la variazione del reddito medio campionario si distribuisca come una Normale L’intervallo di confidenza (0.95) va costruito con riferi,emto alla distribuzione t-Student con 5 gradi di libertà, dalle tavole otteniamo t5; 0 ,975 =2,571. Quindi: x ± t n −1,α s / n = 19,5 ± 2,571 (0,313) = 19,5 ± 0,805 2 cioè [18,695; 20,305] Esercizio 2. Si vuole stimare l’occupazione di un certo paese. Si seleziona un srs di 100 persone o, 70 di queste risultano occupate. Vogliamo che la stima della popolazione abbia una fiducia del 0.95. Solztione Si tratta di una proporzione La proporzione campionaria porta ad una vc che si distribuisce secondo una Binomial con media P e varianza P(1-P)/n. Poiché il campione è grande grazie al central limit Theorem, può essere approssimata da una normal con. E(P)=P e V(P)=P(1-P)/n, Se si assume che la stima pˆ = 0,7 e pˆ (1 − pˆ ) / n = (0,7)(0,3) / 100 = 0,0021 per media e varianza della proporzione campionaria si ottiene: ( da notare che la Var(P) contiene un parametro incognito che stimiamo riferendoci alla proporzione campionaria ) pˆ ± z ,α pˆ (1 − pˆ ) 2 n = 0,7 ± 1,96 (0,0458) = 0,7 ± 0,0897 L’intervallo al 0.95 è [0,6103; 0,7897].