Inferenza Statistica • Intervalli di fiducia • Introduzione • Caso varianza nota • Caso varianza non nota • Intervalli di fiducia per i coefficienti di regressione 1 Inferenza Statistica - Riepilogo • Il campione è un sottoinsieme scelto a caso nella popolazione CAMPIONE POPOLAZIONE Frequenza relativa f con cui si osservano i risultati sono utilizzati per calcolare Le probabilità p(y) sono usate per il calcolo di Y e s2 Essi cambiano valore al variare del campione La media è un esito di una VA: ⎛ σ2 ⎞ YN ~ N ⎜⎜ μ , ⎟⎟ ⎝ N ⎠ M. Grosso Statistica Intervalli di Fiducia μ e σ2 che sono dei parametri COSTANTI della popolazione 1 Intervalli di Fiducia - Introduzione • Sino ad ora si sono considerati diversi stimatori puntuali: – per esempio la media Y è un oggetto il cui valore atteso coincide con il parametro cercato μ. L’osservazione di Y sarà un po’ più grande o un po’ più piccolo del valore vero • Non possiamo affermare che Y è esattamente uguale a μ μ. • Si potrebbe costruire un intervallo di fiducia del tipo μ = y ± Δy in cui è molto probabile cada il valore vero di μ. Δy dipenderà dall’ampiezza delle fluttuazioni di Y 3 Intervalli di fiducia • Il primo passo è decidere quale è il livello di fiducia γ tale che ll’intervallo intervallo di valori ottenuto contenga verosimilmente il valore vero μ. • Il livello di fiducia rapresenta quindi una probabilità. In genere (ma non sempre) si fissa un livello di fiducia pari a γ = 0.95. • In parole povere, povere si utilizzerà una tecnica che ci darà darà, nel momento in cui si ripetono un gran numero di campioni, un intervallo corretto γ·100 volte su 100 4 M. Grosso Statistica Intervalli di Fiducia 2 Intervalli di fiducia • Esempio: • Si consideri un campione mp di dimensioni m N proveniente p da una popolazione di tipo gaussiano di media μ e deviazione standard σ • Sarà quindi Media campione Y Popolazione Y media : deviazione standard μY σY media : μY deviazione standard SE = σY N 5 Intervalli di fiducia • Scelto il livello di fiducia (esempio: γ=0.95), il nostro obiettivo è la determinazione di un intervallo di valori tale che l’esito della variabile aleatoria “media campione” cada nel 95% dei casi in tale intervallo • Sfruttando le tabelle delle probabilità per la distribuzione di tipo Standard e le proprietà delle trasformazioni lineari P(− c < Z < c ) = 0.95 ⇒ c = z0.025 = 1.96 ⎛ ⎞ Y −μ P⎜⎜ − z0.025 < < z0.025 ⎟⎟ = P (− 1.96 SE < Y − μ < 1.96 SE ) SE ⎝ ⎠ 6 M. Grosso Statistica Intervalli di Fiducia 3 Intervalli di fiducia • Da cui: P(μ − 1.96 SE < Y < μ + 1.96 SE ) = 0.95 Area = 0.95 PY ( y ) μ−1.96 SE μ C’è il 95% di probabilità che il valore osservato della media cada nell’intervallo rosso μ+1.96 SE Intervallo simmetrico rispetto all’origine 7 Intervalli di fiducia • Manipolando la diseguaglianza all’interno della parentesi parentesi: P(Y − 1.96 SE < μ < Y + 1.96 SE ) = 0.95 • La relazione ottenuta fornisce una stima dell’intervallo di fiducia • N.B. in questo caso la deviazione standard σ della popolazione l i è supposta nota • Importante: Nella diseguaglianza μ è sempre costante. È l’intervallo di fiducia che varia con il campione. 8 M. Grosso Statistica Intervalli di Fiducia 4 Intervalli di fiducia – Esempio • Si consideri un caso (irrealistico) in cui si ha accesso alla conoscenza della popolazione in termini di media e varianza. varianza • La popolazione sia di tipo Gaussiano con media e varianza: μY = 69 σ Y = 3.32 Sono entrambi noti a priori • Si prelievi da questa popolazione un campione di 10 elementi per cui la variabile aleatoria media sia: μY = 69 SE = σ Y = σY = 1.02 N 9 Intervalli di fiducia - Esempio Intervalli di fidu ucia calcolati • Se uno statistico ripete il calcolo dell’intervallo di fiducia piu’ volte (su campioni differenti): M. Grosso Statistica Intervalli di Fiducia 67 … 69 71 Solo una volta su 20 l’intervallo di fiducia non racchiude il valore vero 10 5 Intervalli di fiducia - Esempio • Ovviamente,l’opportunità di ripetere più volte ll’esperienza esperienza (e considerare quindi differenti campioni) è possibile solo dal punto di vista teorico e lo statistico sa che avrà a disposizione solo un campione per trarre le sue conclusioni dalla media. • La cosa importante è avere uno strumento che permette potenzialmente, permette, potenzialmente di dare la risposta esatta il 95% delle volte Intervalli di fiducia – Revisione concetti 1. Il parametro μ della popolazione è costante e resta tale La variabile aleatoria è ll’intervallo tale. intervallo di fiducia il cui centro Ŷ è una variabile aleatoria 2. Si può scrivere l’intervallo di fiducia nel modo seguente: μ = Y ± z0.025 SE ovvero, in forma più generale: μ = Y ± z0.025 σ n 3. Al crescere di n l’intervallo di fiducia si restringe (perché?). M. Grosso Statistica Intervalli di Fiducia 6 Intervalli di fiducia – Revisione concetti • Se volessimo aumentare il livello di fiducia (per esempio: γ=0.99), esempio 0.99), ci aspettiamo che l’intervallo l intervallo diventi più grande γ=0.95 μ−θ μ γ=0.99 μ+θ μ−θ θ = z0.025 SE μ μ+θ θ = z0.005 SE Intervalli di fiducia per campioni di piccole dimensioni – Varianza non nota • Sinora si è supposto che fosse nota la deviazione standard σ della popolazione popolaz one (e di d conseguenza, la deviazione standard del campione a disposizione). • Questo si verifica raramente • Nel caso in cui s non fosse nota, dovremmo ricorrere ad una sua stima. La deviazione standard s del campione appare il migliore candidato: s = s2 = 1 n 2 ∑ (xi − x ) n − 1 i =1 • L’introduzione di s introduce però un’ulteriore sorgente di incertezza nella nostra analisi, soprattutto se il campione è piccolo. M. Grosso Statistica Intervalli di Fiducia 7 Intervalli di fiducia della Media Caso di Varianza non nota. I passi per la determinazione dell’intervallo di fiducia sono i seguenti seguenti: 1. Scegliere un livello di fiducia γ 2. Calcolare il valore tα tale che: F (tα ) = 1 − α 2 = 1 (1 + γ ) 2 (α = 1 − γ ) Dove F(x) è la funzione di distribuzione cumulativa della T di Student ad (n-1) gradi di libertà Intervalli di fiducia della Media nel caso di Varianza non nota - Esempio Probabilità a associata al livello di fiducia g.d.l della student tα = 2.776 16 M. Grosso Statistica Intervalli di Fiducia 8 Intervalli di fiducia della Media Caso di Varianza non nota. 3. Calcolare la media y e la varianza s2 del campione dei dati sperimentali. 4. Calcolare s2 k = tα n 5. L’intervallo di fiducia sarà: conff {y − k ≤ μ ≤ y + k } Intervalli di fiducia della Media Caso di Varianza non nota. • Perché ricorrere alla T di student nel caso di varianza non nota. • Si può innanzitutto osservare che la variabile aleatoria: Y −μ Z= n σ • è una variabile normale di tipo standard • Si è inoltre visto che lo stimatore imparziale varianza s2 può ò essere correlata l ad d una variabile i bil aleatoria l i χ2 a n-1 gradi di libertà : s2 = M. Grosso Statistica Intervalli di Fiducia σ2 2 2 1 n χ n −1 ∑ (Yi − Y ) = n − 1 i =1 n −1 ⇒ χ n2−1 = s2 n −1 σ 2 9 Intervalli di fiducia della Media Caso di Varianza non nota. • Con qualche semplice passaggio si osserva che la variabile aleatoria aleatoria: Y −μ Z Y −μ = n σ = n T= 2 2 s χ s n −1 n −1 σ2 • È una variabile aleatoria di tipo p T di student ad n -1 gradi di libertà • Da notare che il passaggio alla T di student è obbligatorio per permettere la cancellazionedella varianza σ2 ignota dalla formula Intervalli di fiducia della Media Caso di Varianza non nota. • Quindi il nostro campione di risultati sperimentali può essere visto, nel suo insieme, come un risultato della variabile aleatoria t di Student descritta precedentemente, una volta nota la media dei dati sperimentali e la varianza stimata. • È possibile quindi determinare quale è la probabilità che tale variabile assumi valori compresi in un certo ntervallo. intervallo. P (Θ1 ≤ Θ ≤ Θ 2 ) = γ M. Grosso Statistica Intervalli di Fiducia 10 Intervalli di fiducia della Media Caso di Varianza non nota. • È necessario quindi determinare, data la simmetria della distribuzione, un numero c tale che P (− c ≤ T ≤ c ) = F (c ) − F (− c ) = γ • Data la simmetria della distribuzione, F(-c) = 1-F(c) e quindi P(− c ≤ T ≤ c ) = 2 F (c ) − 1 = γ • Da cui F (c ) = 1 (1 + γ ) 2 Intervalli di fiducia della Media Caso di Varianza non nota. • La distribuzione t di Student è generalmente più larga della distribuzione normale di tipo standard. 0.5 0.4 n 0.3 y 0.2 0.1 0.0 -3 -2 -1 0 1 2 3 x • Pertanto ci attendiamo un intervallo di ampiezza più grande, rispetto al caso in cui la varianza sia nota in modo esatto. M. Grosso Statistica Intervalli di Fiducia 11 Intervalli di fiducia della Media Caso di Varianza non nota. • Esercizio: • In una classe molto numerosa, numerosa si estraggono 4 voti a caso di una prova d’esame 64, 68, 89, 77 • Calcolare l’intervallo di fiducia al 95% per la media di tutta la classe Intervalli di fiducia della Media Caso di Varianza non nota. • Esercizio (svolgimento) • Il primo passo è la determinazione dei gradi di libertà n=4 ⇒ g .d .l. = 3 t0.025 = 3.18 • Si calcola inoltre: y = 74, s 2 = 132.7 • L L’intervallo intervallo di fiducia sarà in conclusione μ = 74 ± 3.18 132.7 = 74 ± 18 4 Da notare che l’intervallo è molto grande, dato che deve rispecchiare la scarsa informazione per le dimensioni piccole del campione M. Grosso Statistica Intervalli di Fiducia 12 Intervalli di fiducia della Media Caso di Varianza non nota. • Qualche esercizio • Una scelta casuale di 5 stati negli USA ha fornito le seguenti superfici (in migliaia di miglia quadrate) • 147, 84, 24, 85, 159 per la superficie p • Trovare l’intervallo di fiducia al 95% p media dell’insieme dei 50 stati degli USA 25 Intervalli di fiducia della Media Caso di Varianza non nota. • Un campione di 151 dati sperimentali ha fornito un valore medio Ŷ = 1.0 e una varianza pari a 2.0 • Stimare l’intervallo di fiducia per un tale campione • Confrontare i risultati con quelli ottenuti utilizzando una distribuzione normale (ultima riga nella tabella 2, corrispondente a n = 150) • L’approssimazione di varianza nota sarebbe stata in questo caso ragionevole? 26 M. Grosso Statistica Intervalli di Fiducia 13 Intervalli di fiducia per stimatori Caso generica per varianza non nota. • Dato uno stimatore generico θ̂ (N.B. di tipo gaussiano), la variabile aleatoria θθ̂ − θ sθ2 • rappresenta sempre una variabile aleatoria di tipo T di student. • Intuitivamente, tale grandezza è la distanza tra valore osservato e valore vero, normalizzata per la radice della varianza 2 • La grandezza sθ è il valore osservato della varianza dello stimatore θ̂ • Il numero di gradi di libertà della T di student dipende invece da caso a caso. Si deve fare riferimento ai gradi di libertà della stima della varianza Intervalli di fiducia per i Coefficienti di regressione • Oltre alle stime puntuali sui coefficienti di regressione è possibile valutare un intervallo di fiducia per i coefficienti stimati della regressione. • Lo “spessore” dell’intervallo di fiducia è una misura della qualità della regressione. M. Grosso Statistica Intervalli di Fiducia 14 Intervalli di fiducia per i Coefficienti di regressione • Nel caso della regressione lineare, è necessaria una stima della varianza dell’errore dell errore sperimentale: sperimentale ∑ (y n s2 = i =1 i − βˆ0 − βˆ1 xi ) 2 n−2 • In parecchi libri di testo tale espressione prende anche il nome di Errore Quadratico Medio (in inglese: Mean Square Errore, acronimo MSE) Intervalli di fiducia per i Coefficienti di regressione • Si è gia visto che gli stimatori β̂1 e β̂0 sono delle variabili aleatorie gaussiane, nell’ipotesi nell ipotesi che l’errore l errore nella misura all’esperimento i-esimo sia gaussiano. • Si può dimostrare che le seguenti variabili aleatorie: βˆ1 − β1 2 s S xx e βˆ0 − β 0 ⎛ 1 x2 ⎞ ⎟⎟ s 2 ⎜⎜ + ⎝ n S xx ⎠ • Sono delle distribuzioni T di student ad n-2 gradi di libertà. M. Grosso Statistica Intervalli di Fiducia 15 Intervalli di fiducia per i Coefficienti di regressione • Procedura: • Si sceglie g un livello di fiducia γ • Calcolare il valore c tale che: F (c ) = 1 (1 + γ ) 2 • Dove F è la distribuzione t di student ad n-2 gradi di libertà. • Calcolare k1 = c ⎛ 1 x2 ⎞ ⎟⎟ k0 = c s 2 ⎜⎜ + ⎝ n S xx ⎠ s2 S xx • Gli intervalli di fiducia saranno: { conf βˆ 1 − k1 ≤ β1 ≤ βˆ 1 + k1 } e { conf βˆ 0 − k0 ≤ β0 ≤ βˆ 0 + k0 } Intervalli di fiducia per i Coefficienti di regressione • La quantità: ( ) se β β̂1 = s2 S xx • Si chiama errore standard della pendenza e misura la precisione con cui β1 è stata stimata. • In modo analogo, la quantità: ( ) ⎡1 x ⎤ se βˆ0 = s 2 ⎢ + ⎥ ⎣ n S xx ⎦ • Si chiama errore standard dell’intercetta e misura la precisione con cui β0 è stata stimata. M. Grosso Statistica Intervalli di Fiducia 16