S.S.I.S TOSCANA F.I.M. -II anno STATISTICA INDUTTIVA: STIMA DI PARAMETRI STIMA PUNTUALE PROBLEMA 1 Vogliamo valutare la percentuale p di donne fumatrici tra le donne in età fertile. Procediamo all’estrazione di un campione casuale semplice dalla popolazione di riferimento Come possiamo utilizzare un preciso campione di ampiezza n, che ha dato h risposte affermative alla domanda: “fumi più di un certo numero stabilito di sigarette, in media, al giorno?”, per valutare o, più precisamente, stimare p? Se attribuissimo a p il valore p* =h/n, questo valore sarebbe una “buona” stima di p? Quando pensiamo di attribuire a p il valore p*, in realtà stiamo interpretando il dato campionario secondo un preciso modello probabilistico. Stiamo pensando ogni unità statistica del campione come una variabile aleatoria di Bernoulli che vale 1 con probabilità p e 0 con probabilità 1-p. Il risultato campionario, che rappresenta la frequenza relativa delle donne fumatrici nel campione, (x1 + x2 +…+xn)/n = h/n è interpretato come la v.a. (X1 + X2 +…+Xn)/n, dove ciascuna v.a. Xi è una variabile di Bernoulli di parametro p ed ogni variabile è indipendente dalle altre. Il valor medio di questa variabile aleatoria è E((X1 + X2 +…+Xn)/n) = p , la sua varianza è V((X1 + X2 +…+Xn)/n) = p(1-p)/n. Quindi la media campionaria ci fornirà in media il valore “vero” di p, ed inoltre si osserva che la varianza intorno a tale valor medio diminuisce al crescere dell’ampiezza campionaria n. Si potrebbe osservare che il modello probabilistico adottato è binomiale, la variabile X1 + X2 +…+Xn è distribuita secondo una binomiale di parametri p ed n , che potrebbe sembrare poco idoneo ad un campionamento casuale, in cui non si penserebbe mai di sorteggiare con rimessa, ma piuttosto senza rimessa e quindi secondo un modello ipergeometrico. D’altra parte la popolazione da cui effettuare il campionamento è pensata talmente grande da ritenere praticamente nulla la probabilità di sorteggiare più di una volta uno stesso individuo e quindi di poter ragionevolmente adottare un modello binomiale. ALCUNE OSSERVAZIONI E DEFINIZIONI Il campione è interpretato secondo un preciso modello probabilistico che lo vede come una variabile aleatoria vettoriale, la cui legge congiunta può dipendere da uno o più parametri. Nella maggior parte dei casi, la variabile aleatoria vettoriale è pensata composta da variabili aleatorie indipendenti tra loro e quindi la legge congiunta è prodotto delle leggi marginali delle singole variabili aleatorie. Del resto, il campionamento casuale comporta una indipendenza di risultato tra le varie unità statistiche del campione. Abbiamo già detto che una statistica è, in senso tecnico, una quantità numerica calcolata a partire dal campione, quindi possiamo dire che una statistica è una funzione delle osservazioni campionarie. Una statistica utilizzata per ricavare stime di un parametro θ (da cui la legge congiunta della variabile aleatoria, che interpreta il campione secondo un preciso modello probabilistico, dipende) si dice uno stimatore di θ. Una statistica ed, in particolare, uno stimatore, sono quindi variabili aleatorie. DEFINIZIONE 1 Uno stimatore θ* di un parametro incognito θ si dice corretto o non distorto se il suo valore medio coincide con il parametro stesso: E(θ*) = θ DEFINIZIONE 2 Se abbiamo due stimatori θ 1 e θ2 non distorti dello stesso parametro θ si dice che θ1 è più efficiente di θ2 se la varianza di θ1 è minore di quella di θ2. DEFINIZIONE 3 Si dice che θ* è uno stimatore consistente di θ se, all’aumentare della dimensione del campione, la probabilità che θ* si discosti da θ tende ad essere nulla. Vale a dire ∀ε>0 lim P(|θn* - θ|< ε) = 1 dove con θn* si è indicato lo stimatore e la sua dipendenza dalla dimensione n del campione. PROBLEMA 2-A ERRORI DI MISURA Supponiamo di effettuare delle prove di laboratorio in cui vengono rilevate n misure di una grandezza incognita, nelle stesse condizioni e indipendentemente l’una dall’altra, con uno strumento di misurazione la cui precisione è nota. E’ noto che la curva sperimentale delle misure è ben rappresentata da una densità gaussiana di varianza σ2 nota (perché dipendente dalla precisione dello strumento di misurazione) e di media µ incognita (in quanto esprime il valore medio della grandezza incognita). Sia x la generica misura effettuata, essa viene dunque interpretata come (x-µ)2 1 una v.a. X di densità f(x) = exp− 2πσ 2σ2 Le n misure effettuate sono interpretate come una v.a. vettoriale di densità congiunta data dal prodotto delle densità marginali, essendo le variabili indipendenti: Σ (x −µ)2 1 n i i exp− f(x1 , x2 , ...., xn ) = 2 2πσ 2σ Come stimatore del parametro µ possiamo usare la media campionaria µ*= Σ1xi/n Si ha E(µ*) = µ , quindi lo stimatore è non distorto, e V(µ*) = σ2/n da cui si ottiene che lo stimatore è consistente. Il procedimento per cui si usa come stimatore di un parametro incognito la funzione analoga calcolata sul campione si dice METODO DEI MOMENTI ALTRO METODO: STIMATORI DI MASSIMA VEROSIMIGLIANZA Funzione di verosimiglianza: la funzione del parametro che, nel modello probabilistico adottato, fornisce il valore di probabilità da attribuire al risultato osservato. Si sceglie come valore di stima del parametro quello in corrispondenza del quale tale probabilità è massima, vale a dire, quello in corrispondenza del quale il risultato ottenuto è più verosimile. PROBLEMA 2-B µ NOTA ERRORI DI MISURA CON σ2 INCOGNITA e Effettuiamo n misure indipendenti di una grandezza nota con uno strumento di misura di precisione incognita, ai fini di valutare appunto la precisione dello strumento. Abbiamo ancora una distribuzione gaussiana di cui, però, stavolta è nota la media ed incognita la varianza. Procedendo con il metodo dei momenti (ma anche con il metodo di massima verosimiglianza si otterrebbe, in questo caso, lo stesso stimatore) si adotta come stimatore di σ2 lo stimatore s2 = Σ i(xi -µ)2/n , vale a dire la varianza campionaria. Si può dimostrare che lo stimatore è non distorto e consistente. PROBLEMA 2-C ERRORI DI MISURA CON σ 2 INCOGNITA e µ INCOGNITA Effettuiamo n misure indipendenti di una grandezza incognita con uno strumento di misura di cui non è nota la precisione. Abbiamo ancora una distribuzione gaussiana di cui, però, non è nota né la media né la varianza. Per stimare µ adottiamo, come nel problema 2-A, come stimatore la media campionaria µ*= Σ1xi/n Se per stimare σ 2 adottassimo, come nel problema 2-B, la varianza campionaria, lo stimatore s2 = Σ i(xi -µ∗)2/n risulterebbe consistente, ma distorto. Dimostriamo che lo stimatore è distorto. Utilizziamo la relazione E(X2) = µ2 + σ2 , si ha s2 = Σi(xi -µ∗)2/n = Σi(xi)2/n – (µ∗)2 , quindi E(s2 ) = E(Σi(xi)2/n) – E((µ∗)2) = µ2 + σ2 - σ2/n -µ2 = (n-1)/n σ2 Dunque, per ottenere uno stimatore non distorto, dobbiamo moltiplicare per n e dividere per n-1 la varianza campionaria, ottenendo s2 * = Σi(xi -µ∗)2/(n-1) A differenza del problema 2-B, qui la media non è nota e quindi la dobbiamo stimare con la media campionaria, introducendo quindi una relazione algebrica tra le n variabili. Diciamo quindi che questa statistica ha n-1 gradi di libertà. GRADI DI LIBERTA’ Siano (x1 , x2 , ...., xn ) un campione di n misure e g una statistica g:Rn→R, si dirà che a g corrispondono n gradi di libertà se in g non compare nessuna relazione che lega fra loro le variabili (X1 , X2 , ...., Xn ), al contrario n-k gradi di libertà se nella definizione di g sono presenti k relazioni tra le variabili. In tal caso è possibile espicitare dalle relazioni k variabili in funzione delle restanti n-k e definire g:Rn-k→R. INTERVALLI DI CONFIDENZA Il metodo fornisce sia informazioni sul valore del parametro incognito che sul grado di attendibilità della stima stessa, vale a dire la sua precisione. Il metodo si basa sulla determinazione, in base ai dati campionari, di due valori L1 e L2 in modo tale che P(L1 ≤ θ ≤ L2) = α (α di solito scelto come 0.9, 0.95, 0.99) α è appunto detto livello di confidenza. Si osserva che L1 e L2 , essendo funzioni dei dati, sono di fatto delle statistiche ed, in particolare, degli stimatori. Ci possono essere infiniti modi di determinare L1 e L2 , di solito si limita la ricerca agli intervalli di confidenza centrali, vale a dire gli intervalli per cui si ha P(L1 ≥ θ)= P(L2 ≤ θ) = (1-α)/2 Un intervallo di confidenza fornisce un metodo di stima che, applicata un gran numero di volte, dà luogo ad una conclusione corretta in media nell’α100% dei casi. Si osserva che all’aumentare del livello di confidenza aumenta l’ampiezza dell’intervallo; per ridurre l’ampiezza dell’intervallo, a parità di livello di confidenza, si aumenta (se possibile) l’ampiezza del campione. INTERVALLO DI CONFIDENZA PER LA MEDIA µ DI UNA GAUSSIANA DI VARIANZA σ2 NOTA Si eseguono, come nel problema 2-A, n misure di una grandezza di misura incognita con uno strumento di precisione nota, stavolta, invece di una stima puntuale, vogliamo determinare un intervallo in cui il valor medio incognito verrà a cadere con probabilità assegnata α . Il modello probabilistico adottato è quello gaussiano, per cui la media campionaria Σ1xi/n è interpretata come una v.a. gaussiana Σ1Xi/n di media µ e varianza σ2/n. L’intervallo di confidenza cercato è centrale. Si osserva che la v.a. (Σ1Xi/n − µ )/(σ/√n) è gaussiana standard, perciò se poniamo P(-a ≤ (Σ1xi/n − µ )/(σ/√n) ≤ a)= α, siamo in grado di determinare a dalle tavole della gaussiana standard e quindi possiamo ottenere P(Σ1xi/n − aσ/√n ≤ µ ≤ Σ1xi/n + aσ/√n)= α Quindi l’intervallo di confidenza è dato da [Σ1xi/n − aσ/√n , Σ1xi/n + aσ/√n ] ESEMPIO Supponiamo di avere rilevato un campione casuale di 50 osservazioni per una grandezza vista come una variabile aleatoria di legge gaussiana di media incognita e varianza nota σ 2 =4, e di avere ottenuto una media campionaria µ* = 20. Vogliamo determinare un intervallo di confidenza centrale al livello α = 0.95 per la media µ. Inseriamo i dati nell’intervallo precedentemente determinato [Σ1xi/n − aσ/√n , Σ1xi/n + aσ/√n ] = [20 – a2/√50, 20 + a 2/√50] resta da determinare a dalle tavole della normale ridotta, cercando il valore a per cui la funzione di ripartizione Φ(a)= 0.975, quindi a=1.96. Dunque otteniamo l’intervallo [19.45, 20.55] OSSERVAZIONE: Qualunque sia la legge di probabilità del modello che interpreta i dati statistici, per il teorema centrale di convergenza la legge di distribuzione della media campionaria delle n osservazioni di un campione casuale, per n grande, è ben approssimata da una normale di media µ = E(Σ 1Xi/n) e varianza σ 2 =Var(Σ 1Xi/n). Perciò, per campioni casuali di taglia n grande, l’intervallo precedentemente trovato per la media rappresenta una buona approssimazione qualunque sia la legge di X. INTERVALLO DI CONFIDENZA PER LA MEDIA µDI UNA GAUSSIANA DI VARIANZA σ2 INCOGNITA Si procede come nel caso precedente, con la differenza che, non conoscendo la varianza, si deve utilizzare, al posto di σ 2 , la varianza stimata dai dati campionari s2 * = Σi(xi -µ∗)2/(n-1). Si dimostra (vedi Appendice) che la v.a. (Σ1Xi/n − µ )/(s*/√n) è distribuita secondo una legge di densità di Student con n-1 gradi di libertà. Quindi posto P(-a ≤ (Σ1xi/n − µ )/(s*/√n) ≤ a)= α, siamo in grado di determinare a utilizzando le tavole di una Student con n-1 gradi di libertà. Una volta determinato a, si ottiene P(Σ1xi/n − as*/√n ≤ µ ≤ Σ1xi/n + as*/√n)= α Quindi l’intervallo di confidenza è dato da [Σ1xi/n − as*/√n , Σ1xi/n + as*/√n ] ESEMPIO Supponiamo di avere rilevato un campione casuale di 50 osservazioni per una grandezza vista come una variabile aleatoria di legge gaussiana di media e varianza incognita , e di avere ottenuto una media campionaria µ* = 20 ed inoltre Σi(xi -µ∗)2= 500. Vogliamo determinare un intervallo di confidenza centrale al livello α = 0.95 per la media µ. Inseriamo i dati nell’intervallo precedentemente determinato [Σ1xi/n − as*/√n , Σ1xi/n + as*/√n ]= [20 – a·sqr(500/(49)(50)), 20 + a sqr(500/(49)(50)] resta da determinare a dalle tavole della Student con 49 gradi di libertà, cercando il valore a per cui la funzione di ripartizione vale 0.975, quindi a=2.04. Dunque otteniamo l’intervallo [19.08, 20.92] INTERVALLO DI CONFIDENZA PER LA VARIANZA σ2 DI UNA GAUSSIANA DI MEDIA µ NOTA Tenendo conto che la v.a. Σ i(Xi -µ) 2/σ2 è distribuita (vedi Appendice) secondo una legge chi-quadrato con n gradi di libertà, possiamo ottenere un intervallo di confidenza per σ2 nel modo seguente: P(a ≤ Σi(xi -µ)2/σ2 ≤ b) = α , dove a e b sono determinati dalle tavole della legge chi-quadrato con n gradi di libertà, in modo tale che P(Σi(xi -µ)2/σ2 ≤ a)=P(Σi(xi -µ)2/σ2 ≥ b)= (1-α)/2, dunque si ottiene P(Σi(xi -µ)2/b ≤ σ2 ≤ Σi(xi -µ)2/a)= α e quindi l’intervallo di confidenza [Σi(xi -µ)2/b, (Σi(xi -µ)2/a] ESEMPIO: Supponiamo di avere un campione casuale di 15 osservazioni relative ad una grandezza vista come una variabile aleatoria di media nota µ = 8 e varianza incognita, e di avere ottenuto che Σi(xi -µ)2 = 17.3. Vogliamo determinare un intervallo di confidenza centrale per la varianza σ2 al livello α= 0.9. Inseriamo i dati nell’intervallo precedentemente determinato [Σi(xi -µ)2/b, (Σi(xi -µ)2/a] = [17.3/b, 17.3/a] Restano da determinare a e b dalle tavole della chi-quadro con 15 gradi di libertà con a tale che la corrispondente funzione di ripartizione F15(a) =0.05 e b tale che F15(b)=0.95, si ottiene a=7.26 e b=25, da cui l’intervallo [17.3/25, 17.3/7.26]≈ [0.692, 2.383] INTERVALLO DI CONFIDENZA PER LA VARIANZA σ2 DI UNA GAUSSIANA DI MEDIA µ INCOGNITA A differenza dal caso precedente, qui non è nota la media µ , quindi dobbiamo utilizzare al posto di µ la media campionaria µ*. Tenendo conto che la v.a. Σ i(Xi -µ*)2/σ2 è distribuita (vedi Appendice) secondo una legge chi-quadrato con n-1 gradi di libertà, possiamo ottenere un intervallo di confidenza per σ2 analogamente al caso precedente: P(a ≤ Σi(xi -µ*)2/σ2 ≤ b) = , dove a e b sono determinati dalle tavole della legge chi-quadrato con n – 1 gradi di libertà, in modo tale che P(Σi(xi -µ*)2/σ2 ≤ a)=P(Σi(xi -µ*)2/σ2 ≥ b)= (1-α)/2, dunque si ottiene P(Σi(xi -µ * )2/b ≤ σ2 ≤ Σ i(xi -µ * )2/a) )= α e quindi l’intervallo di confidenza [Σi(xi -µ*)2/b, (Σi(xi -µ*)2/a] ESEMPIO: Supponiamo di avere un campione casuale di 15 osservazioni relative ad una grandezza vista come una variabile aleatoria gaussiana di media e varianza incognita, e di avere ottenuto che Σi(xi -µ*)2 = 17.3. Vogliamo determinare un intervallo di confidenza centrale per la varianza σ2 al livello α= 0.9. Inseriamo i dati nell’intervallo precedentemente determinato [Σi(xi -µ)2/b, (Σi(xi -µ)2/a] = [17.3/b, 17.3/a] Restano da determinare a e b dalle tavole della chi-quadro con 14 gradi di libertà con a tale che la corrispondente funzione di ripartizione F14(a) =0.05 e b tale che F14(b)=0.95, si ottiene a=6.57 e b=23.7, da cui l’intervallo [17.3/23.7, 17.3/6.57]≈ [0.73, 2.63] INTERVALLO DI CONFIDENZA PER IL PARAMETRO p DI UNA BINOMIALE Se i dati campionari (x1 , x2 , ...., xn ) sono interpretati come v.a. (X1 , X2 , ...., Xn ) Bernoulliane di parametro p incognito, per determinare un intervallo di confidenza centrale per il parametro p, si procede nel modo seguente: uno stimatore efficiente e non distorto per p è p*=Σ1xi/n; per il teorema del limite centrale p*=Σ1Xi/n, interpretato come v.a., tende a diventare, per n grande, normale di media p e varianza p(1-p)/n, perciò p*-p per n grande è approssimativamente gaussiana standard, p(1-p)/n quindi sarebbe possibile dalle tavole della gaussiana standard determinare p*-p a in modo tale che P(-a ≤ ≤ a) = α p(1-p)/n è opportuno però, per arrivare ad un intervallo di confidenza per p, sostituire alla varianza p(1-p) un suo stimatore, ad esempio, lo stimatore p*(1-p*), ottenendo P( -a ≤ p*-p ≤ a)=P(p* -a p*(1-p*)/n ≤ p ≤ p* + a p*(1-p*)/n ) p*(1-p*)/n =α E quindi l’intervallo di confidenza al livello α [p* − a p*(1-p*)/n , p* + a p*(1-p*)/n ] L’intervallo trovato è valido solo per n piuttosto grande. Talvolta si preferisce utilizzare come stima della varianza, invece dello stimatore p*(1-p*), il valore massimo della varianza, che si ottiene per p=0.5. ESEMPIO: In un campione casuale di 250 individui, estratto da una data popolazione molto ampia, 72 hanno mostrato una certa caratteristica C. Determinare un intervallo di confidenza al livello 0.9 per la percentuale p effettiva nella popolazione degli individui che presentano C. Si ottiene p*=72/250 ≈ 0.288, utilizziamo l’intervallo [p* − a p*(1-p*)/n , p* + a p*(1-p*)/n ] dove resta da determinare a dalle tavole della normale ridotta in modo tale che Φ(a)=0.95, otteniamo a=1.65 e dunque l’intervallo [0.240, 0.335] Se per la varianza avessimo utilizzato il valore p=0.5, invece di p*, avremmo ottenuto l’intervallo [0.236, 0.340], leggermente più ampio del precedente APPENDICE Se (X1 , X2 , ...., Xn ) sono v.a. gaussiane standard, tra loro indipendenti, la v.a (X1 2 + X2 2 + ....,+Xn 2) si dimostra essere distribuita secondo una legge di densità chi-quadrato con n gradi di libertà. Se (X1 , X2 , ...., Xn ) sono v.a. gaussiane di media µ e di varianza σ2 , tra loro indipendenti, la variabile aleatoria Σi(Xi -µ)2/σ2 è ancora distribuita secondo una legge di densità chi-quadrato con n gradi di libertà (infatti ogni variabile Xi è stata standardizzata). Se la media µ non è nota e al suo posto si utilizza lo stimatore µ* corrispondente alla media campionaria, la v.a Σi(Xi -µ*)2/σ2 si dimostra essere distribuita secondo una legge chi-quadrato con n-1 gradi di libertà. W , dove W è una v.a gaussiana Z/n standard e Z una chi-quadrato con n gradi di libertà, è distribuita secondo una legge di Student con n gradi di libertà. Si dimostra inoltre che la v.a T = Se (X1 , X2 , ...., Xn ) sono v.a. gaussiane di media µ e di varianza σ2 , µ*−µ ( µ* indica la media σ/ n campionaria) è una gaussiana standard, abbiamo già detto che Σi(Xi -µ*)2/σ2 è distribuita secondo una chi-quadrato con n-1 gradi di libertà, per cui risulta evidente che la v.a. µ*−µ σ/ n n(n-1) T= = (µ*−µ) = (µ*−µ)/s*/√n Σi(Xi−µ*)2 2 Σi(Xi −µ*) σ2(n-1) tra loro indipendenti, la v.a. W = è una t di Student con n-1 gradi di libertà