Intervalli di Fiducia Introduzione Intervalli di fiducia per la media – Caso varianza nota Intervalli di fiducia per la media – Caso varianza non nota Intervalli di fiducia per i coefficienti di regressione Intervalli di fiducia per la risposta media I t Intervalli lli di fiducia fid i per i coefficienti ffi i ti di regressione multilineare 1 Intervalli di fiducia - Media aritmetica Intervalli di fiducia • Sino ad ora si sono considerati diversi stimatori puntuali: – per esempio la media Y è un oggetto il cui valore atteso coincide con il parametro cercato μ. D D’altronde altronde ll’osservazione osservazione di Y sarà (sempre) un po’ più grande o un po’ più piccola del valore vero – non possiamo affermare che y è esattamente uguale a μ. • Si potrebbe costruire un intervallo del tipo μ = y ± Δy • cui riteniamo te a o molto o to probabile p obab e cada il valore a o e vero e o di d μ μ. in cu Y Δy dipenderà dall’ampiezza delle fluttuazioni di • Tale tipo di intervallo prende il nome di – intervallo di fiducia – o intervallo fiduciario – o intervallo di confidenza Analisi dei Processi Chimici e Biotecnologici ‐ Intervalli di fiducia 1 Intervalli di Fiducia Introduzione Intervalli di fiducia • Determinare l’intervallo di fiducia di una grandezza misurata θ, equivale alla determinazione di due numeri θ1 e θ2, tali che includano il valore vero con certezza. • Comunque, si è visto che non è possibile, da un campione finito di dati sperimentali, trarre delle conclusioni riguardo alla popolazione che siano certe al 100 % • E’ possibile stabilire però un intervallo in cui il valore vero ha probabilità molto elevata (esempio: 95% o 99%) di cadere. cadere 3 Intervalli di Fiducia Procedura Intervalli di fiducia • Si sceglie una probabilità γ vicina a 1. Tale probabilità prende il nome di livello di fiducia. • Si determinano quindi due quantità Θ1 e Θ2 tali che la probabilità che Θ1 e Θ2 racchiudano il valore esatto Θ sia eguale a γ. • L’intervallo di estremi Θ1 e Θ2 si chiama intervallo di fiducia e si indica con il simbolo: CONF {Θ1 ≤ Θ ≤ Θ 2 } 4 Analisi dei Processi Chimici e Biotecnologici ‐ Intervalli di fiducia 2 Intervalli di Fiducia Procedura Intervalli di fiducia • Scegliere γ = 95% equivale a dire che in presenza di un campione di dati c’è una probabilità del 95% che il valore vero ricada nell’intervallo determinato. • La scelta di γ implica una differente ampiezza dell’intervallo di fiducia calcolato. • All’aumentare di γ, quale è il comportamento della “larghezza” dell’intervallo di fiducia? 5 Intervalli di fiducia della Media nel caso di varianza nota. Intervalli di fiducia • Sia dato un certo campione di dati sperimentali y1 , y2 , ... , yn • Ipotesi: – Tutte le grandezze misurate sono caratterizzate dalla stessa variabile aleatoria (eguale media e varianza) e sono indipendenti. – La varianza della variabile aleatoria è nota (per esempio da pregresse misure) – La L media, di invece, i è ignota. i t 6 Analisi dei Processi Chimici e Biotecnologici ‐ Intervalli di fiducia 3 Intervalli di Fiducia Caso di varianza nota Intervalli di fiducia La determinazione dell’intervallo di fiducia passa per i seguenti punti: 1. Scegliere un livello di fiducia γ 2 Calcolare il valore c tale che: 2. FX (c ) − FX (− c ) = γ dove F è la distribuzione cumulativa della normale di tipo standard, ovvero X ~ N(0,1) 3. Calcolare k = cσ n 1. L’intervallo di fiducia per la popolazione sarà: conf {y − k ≤ μ ≤ y + k } 7 Intervalli di Fiducia Caso di varianza nota Intervalli di fiducia • Gli n campioni dei dati sperimentali possono essere visti come n singole osservazioni della stessa variabile aleatoria Y (con eguale distribuzione,, eguale g varianza,, eguale g media). ) • La variabile media del campione è quindi una variabile aleatoria di media μ e varianza σ2/n. ⎛ σ2 ⎞ Yn ~ N ⎜⎜ μ, ⎟⎟ ⎝ n ⎠ • La variabile aleatoria X= Y −μ n ~ N (0,1) σ È una variabile aleatoria normale di tipo standard. 8 Analisi dei Processi Chimici e Biotecnologici ‐ Intervalli di fiducia 4 Intervalli di Fiducia Caso di Varianza Nota Intervalli di fiducia • Il valore y è quindi un valore osservato della variabile Y • Determiniamo innanzitutto il valore di c tale che P(− c ≤ X ≤ c ) = γ • Questa ineguaglianza può essere scritta come: ⎛ Y −μ ⎞ P⎜⎜ − c ≤ n ≤ c ⎟⎟ = γ σ ⎝ ⎠ 9 Intervalli di Fiducia Caso di Varianza Nota Intervalli di fiducia • Da cui: σ σ ⎞ ⎛ P⎜ − c ≤Y −μ ≤c ⎟=γ n n⎠ ⎝ • Con qualche passaggio si ottiene infine: P (Y − k ≤ μ ≤ Y + k ) = γ • dove k =c σ n Questo passaggio merita un po’ di attenzione! (riflettere sulle VA in gioco) • La relazione di prima si legge: – La probabilità che il valore vero della media μ sia racchiuso in un intervallo centrato sulla stima Y con uno spessore k è pari a γ 10 Analisi dei Processi Chimici e Biotecnologici ‐ Intervalli di fiducia 5 Intervalli di fiducia - Media aritmetica – Caso Varianza a priori nota Intervalli di fiducia • Importante: Nella diseguaglianza μ è sempre costante. È l’intervallo di fiducia p che varia con il campione. • Per chiarire il concetto, si consideri il caso (poco realistico) in cui si abbia la conoscenza della popolazione in termini di media e varianza. • La popolazione sia, per esempio, di tipo Gaussiano con media e varianza: μY = 69 σ Y = 3.32 • Si prelevi da questa popolazione un campione di 10 elementi per cui la variabile aleatoria media sia: μY = 69 σY = σY = 1.02 N Intervalli di fiducia - Media aritmetica – Caso Varianza a priori nota Intervalli di fiducia Intervalli di fiducia a calcolati • Se uno statistico ripete il calcolo dell’intervallo di fiducia più volte (ovviamente su campioni differenti): 67 … Analisi dei Processi Chimici e Biotecnologici ‐ Intervalli di fiducia 69 71 Solo una volta su 20 ll’intervallo intervallo di fiducia non racchiude il valore vero 6 Intervalli di Fiducia Caso di Varianza Nota Intervalli di fiducia • L’intervallo di fiducia rappresenta un intervallo di numeri reali in cui ricada il valore vero della media (μ), con una probabilità pari al 95%. • Nel caso in cui l’intervallo di fiducia sia del 99%, l’intervallo è più grande o più piccolo di quello determinato precedentemente? • Quale sarebbe l’intervallo di confidenza per un livello γ del 100%? 13 Intervalli di fiducia - Media aritmetica – Caso Varianza a priori nota Intervalli di fiducia • All’aumentare del numero di prove, la varianza della media aritmetica (ovvero l’incertezza nella stima) decresce • L L’intervallo intervallo di valori in cui sono più ricorrenti le stime per la media aritmetica si restringe: N 2 > N1 1.2 σY1 = 1 σ 1.2 N1 1 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0 0 μ−c1 μ Analisi dei Processi Chimici e Biotecnologici ‐ Intervalli di fiducia μ+c1 σY 2 = σ N2 μ−c2 μ μ+c2 7 Intervalli di fiducia - Media aritmetica – Caso Varianza a priori nota Intervalli di fiducia • Come valutare lo spessore c dell’intervallo di fiducia • La costante cγ può essere valutata dalla seguente probabilità: ( ) P − cγ < Z < cγ = γ • Essendo Z la variabile aleatoria Gaussiana standard (di media 0 e varianza 1) 0.5 Valori tipici di cγ per differenti livelli di fiducia γ γ cγ 09 0.9 1 645 1.645 0.95 1.960 0.99 2.576 0.999 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 3.291 0 -3 -2 -1 0 1 2 3 γ=0.95 γ=0.99 Intervalli di fiducia - Media aritmetica – Caso Varianza non nota Intervalli di fiducia • Il calcolo dell’intervallo di fiducia emerge in maniera naturale dalla natura Gaussiana dello stimatore media aritmetica • Tale derivazione è possibile grazie alla conoscenza pregressa della varianza dell’errore sperimentale • Nella realtà, questo è raramente possibile e si conosce solo una stima della varianza dell’errore sperimentale: s2 = 1 n ( yi − y )2 ∑ N − 1 i =1 • Tale eventualità implica un’ulteriore sorgente di incertezza da tenere in conto nel calcolo dell’intervallo di fiducia • In maniera intuitiva, dovremmo considerare degli intervalli più ampi di quelli registrati nel caso di conoscenza della varianza Analisi dei Processi Chimici e Biotecnologici ‐ Intervalli di fiducia 8 Intervalli di fiducia della Media Caso di Varianza non nota. Intervalli di fiducia I passi per la determinazione dell’intervallo di fiducia sono i seguenti: 1. Scegliere un livello di fiducia γ 2 Calcolare il valore c tale che: 2. FT (c ) = 1 (1 + γ ) 2 Dove FT(y) è la funzione di distribuzione cumulativa della T di student ad (n-1) gradi di libertà 3. Calcolare la media y e la varianza s2 del campione dei dati sperimentali sperimentali. s 4. Calcolare k =c n 5. L’intervallo di fiducia sarà: conf {y − k ≤ μ ≤ y + k } 17 Intervalli di fiducia della Media Caso di Varianza non nota. Intervalli di fiducia • La variabile aleatoria: X= n Y −μ σ • È una variabile normale di tipo standard • Si è gia visto che lo stimatore imparziale varianza s2 può essere correlata ad una variabile aleatoria χ2 a n-1 gradi di libertà : s2 = 1 n σ2 2 2 Y Y − = ) n − 1 χ n −1 ∑( i n − 1 i =1 ⇒ χ n2−1 = s2 n −1 σ 2 18 Analisi dei Processi Chimici e Biotecnologici ‐ Intervalli di fiducia 9 Intervalli di fiducia della Media Caso di Varianza non nota. Intervalli di fiducia • In conclusione la variabile aleatoria: Y −μ T= Z χ n2−1 n −1 = n σ s2 = n Y −μ s σ2 • È una variabile aleatoria di tipo T di student ad n -1 gradi di libertà • Il passaggio alla T di student è necessario per la semplificazione della varianza σ2 ignota. 19 Intervalli di fiducia della Media Caso di Varianza non nota. Intervalli di fiducia • Il campione di risultati sperimentali può quindi essere visto, nel suo insieme, come un risultato della variabile aleatoria T di student,, una volta nota la media dei dati sperimentali p e la varianza stimata. • È possibile quindi determinare quale è la probabilità che tale variabile assumi valori compresi in un certo intervallo. P (Θ1 ≤ Θ ≤ Θ 2 ) = γ 20 Analisi dei Processi Chimici e Biotecnologici ‐ Intervalli di fiducia 10 Intervalli di fiducia della Media Caso di Varianza non nota. Intervalli di fiducia • È necessario quindi determinare, data la simmetria della distribuzione, un numero c tale che P(− c ≤ T ≤ c ) = FT (c ) − FT (− c ) = γ • Data la simmetria della distribuzione, F(-c) = 1-F(c) e quindi P(− c ≤ T ≤ c ) = 2 FT (c ) − 1 = γ • Da cui FT (c ) = 1 (1 + γ ) 2 21 Intervalli di fiducia della Media Caso di Varianza non nota. Intervalli di fiducia • La distribuzione T di student è generalmente più larga della distribuzione normale di tipo standard. 0.5 0.4 n 0.3 y 0.2 0.1 0.0 ‐3 ‐2 ‐1 0 1 2 3 x • Pertanto ci attendiamo un intervallo di ampiezza più grande, rispetto al caso in cui la varianza sia nota in modo esatto. 22 Analisi dei Processi Chimici e Biotecnologici ‐ Intervalli di fiducia 11 Intervalli di fiducia per stimatori Caso generica per varianza non nota. Intervalli di fiducia • Dato uno stimatore generico θ̂ (N.B. di tipo gaussiano), la variabile aleatoria θˆ − θ sθ2 • Rappresenta sempre una variabile aleatoria di tipo T di student. • Intuitivamente, tale grandezza è la distanza tra valore osservato e valore vero, normalizzata per la radice della varianza 2 • La grandezza sθ è il valore osservato della varianza dello stimatore • Il numero di gradi di libertà della T di student dipende invece da caso a caso. Si deve fare riferimento ai gradi di libertà della stima della varianza 23 Intervalli di fiducia per i coefficienti di regressione Intervalli di fiducia • Oltre alle stime puntuali sui coefficienti di regressione è possibile valutare un intervallo di fiducia per i coefficienti stimati della regressione. g • Lo “spessore” dell’intervallo di fiducia è una misura della qualità della regressione. 24 Analisi dei Processi Chimici e Biotecnologici ‐ Intervalli di fiducia 12 Intervalli di fiducia per i coefficienti di regressione Intervalli di fiducia • Nel caso della regressione lineare, è necessaria una stima imparziale della varianza dell’errore sperimentale: n s 2 = MSE = ∑ (y i =1 − b0 − b1 xi ) 2 i n−2 • In parecchi libri di testo tale espressione prende anche il nome di Errore Quadratico Medio (in inglese: Mean Square Errore, acronimo MSE) 25 Intervalli di fiducia per i coefficienti di regressione Intervalli di fiducia • Si è gia visto che gli stimatori b0 e b1 sono delle variabili aleatorie Gaussiane, nell’ipotesi che l’errore nella misura all’esperimento iesimo sia Gaussiano. • Si può dimostrare che le seguenti variabili aleatorie: b1 − β1 MSE S xx e b0 − β0 ⎛ 1 x2 ⎞ ⎟⎟ MSE ⎜⎜ + ⎝ n S xx ⎠ sono delle distribuzioni T di student ad n-2 gradi di libertà. 26 Analisi dei Processi Chimici e Biotecnologici ‐ Intervalli di fiducia 13 Intervalli di fiducia per i coefficienti di regressione Intervalli di fiducia • Procedura: • Si sceglie un livello di fiducia γ • Calcolare il valore c tale che: FT (c ) = 1 (1 + γ ) 2 • Dove F è la distribuzione t di student ad n-2 gradi di libertà. • Calcolare k1 = c ⎛ 1 x2 ⎞ ⎟ k 0 = c MSE ⎜ + ⎜n S ⎟ xx ⎠ ⎝ MSE S xx • Gli intervalli di fiducia saranno: conf { b1 − k1 ≤ β1 ≤ b1 + k1 } conf { b0 − k0 ≤ β0 ≤ b0 + k0 } e 27 Intervalli di fiducia per i coefficienti di regressione Intervalli di fiducia • La quantità: se(b1 ) = MSE S xx • Si chiama errore standard della pendenza e misura la precisione con cui β1 è stata stimata. • In modo analogo, la quantità: ⎡1 x ⎤ se(b0 ) = MSE ⎢ + ⎥ ⎣ n S xx ⎦ • Si chiama errore standard dell’intercetta e misura la precisione con cui β0 è stata stimata. 28 Analisi dei Processi Chimici e Biotecnologici ‐ Intervalli di fiducia 14 Intervalli di fiducia per la risposta media Intervalli di fiducia • Un ulteriore esempio è la determinazione dell’intervallo di fiducia per la risposta media E(y=b0+b1x) per un particolare valore della variabile regressore g x • La stima puntuale fornisce un valore: yˆ 0 = b0 + b1 x0 • Ci si pone il problema della determinazione di un intervallo di fiducia per la variabile y0 in corrispondenza del valore x0 29 Intervalli di fiducia per la risposta media Intervalli di fiducia • Il primo passaggio consiste nella determinazione della varianza della variabile aleatoria • La varianza è: V ( yˆ 0 ) = V (b0 + b1 x0 ) = V [Y + b1 ( x0 − x )] = 2 ⎡ 1 ( x − x )2 ⎤ σ 2 σ 2 ( x0 − x ) + = σ2 ⎢ + 0 ⎥ + Cov (Y , b1 ) n S xx S xx ⎦ ⎣n Si può dimostrare che le VA Y e b1 sono indipendenti • Se per σ2 prendiamo lo stimatore MSE si può dimostrare che la variabile aleatoria: y0 − yˆ 0 ⎛ 1 ( x − x )2 MSE ⎜ + 0 ⎜n S xx ⎝ ⎞ ⎟ ⎟ ⎠ • È una distribuzione T di student ad n-2 g.d.l. 30 Analisi dei Processi Chimici e Biotecnologici ‐ Intervalli di fiducia 15 Intervalli di fiducia per la risposta media Intervalli di fiducia • Procedura: • Scegliere un livello di fiducia γ • Calcolare il valore c tale che: FT (c ) = 1 (1 + γ ) 2 Dove F è la distribuzione T di student ad n-2 gradi di libertà. • Calcolare ⎛ 1 ( x0 − x )2 ⎞ ⎟ k ( x0 ) = c MSE ⎜⎜ + ⎟ n S xx ⎝ ⎠ • L’intervallo di fiducia sarà: conf {yˆ 0 − k ( x0 ) ≤ y0 ≤ yˆ 0 + k (x0 )} 31 Intervalli di fiducia per la risposta media Intervalli di fiducia • L’intervallo di fiducia è variabile con x, esso assumerà valore minimo in corrispondenza del centroide dei dati. 1.3 1.2 1.1 1 0.9 0.8 0.7 0.6 0.5 0.4 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 32 Analisi dei Processi Chimici e Biotecnologici ‐ Intervalli di fiducia 16 Intervalli di fiducia per i Coefficienti di una regressione multilineare Intervalli di fiducia • Problema: • Regressione multilineare: y (n ×1) = F⋅α (n × p )( p ×1) ⇒ ( ) −1 a = FT ⋅ F FT ⋅ y • Ipotesi: • Gli errori εi sono indipendenti e normalmente distribuiti. • La varianza degli errori è uguale a σ2 • Ne segue che la stima a è normalmente distribuita con vettore media α e matrice di covarianza σ2(FT F)-1 • Questo implica che la marginale di ogni coefficiente di regressione è normale con media αj e varianza σ2Cjj, l’elemento diagonale della matrice (FT F)-1 33 Intervalli di fiducia per i Coefficienti di una regressione multilineare Intervalli di fiducia • Ne consegue che la generica statistica: aj −α j MSE C jj • È una distribuzione t di student ad n-p gradi di libertà, dove MSE è la stima di σ2, così come definito nel semplice caso della regressione lineare. 34 Analisi dei Processi Chimici e Biotecnologici ‐ Intervalli di fiducia 17 Intervalli di fiducia per i Coefficienti di una regressione multilineare Intervalli di fiducia • Procedura: • Scegliere un livello di fiducia γ • Calcolare il valore c tale che: FT (c ) = 1 (1 + γ ) 2 • Dove F è la distribuzione t di student ad n-p gradi di libertà. • Calcolare k = c MSE C jj • L’intervallo di fiducia sarà: conf {a j − k ≤ α j ≤ a j + k } 35 Analisi dei Processi Chimici e Biotecnologici ‐ Intervalli di fiducia 18