Test delle Ipotesi – Parte I • Test delle Ipotesi sulla media – Introduzione – Definizioni basilari – Teoria per il caso di varianza nota – Rischi nel test delle ipotesi – Teoria per il caso di varianza non nota • Test delle Ipotesi sui coefficienti di regressione 1 Test delle Ipotesi Introduzione • Un’ipotesi statistica è un’assunzione che noi facciamo su una distribuzione di una variabile aleatoria • Per P esempio i possiamo i assumere che h una variabile i bil aleatoria l i di tipo gaussiano sia caratterizzata da una media μ = 20.3. • Un test statistico di un’ipotesi è una procedura in cui si conclude se è possibile non rigettare l’ipotesi (cioè non si può escludere che essa sia vera) oppure rigettare l’ipotesi. Le sorgenti delle ipotesi possono essere: • • • • L’ipotesi può provenire da una richiesta di qualità L’ipotesi è basata su valori noti da esperienze precedenti L’ipotesi risulta da una teoria che si vuole verificare. Altro 2 M. Grosso - Statistica Test delle ipotesi - Parte 1 1 Test delle Ipotesi Introduzione • In ogni test si usa un campione e cerchiamo di trarre delle conclusioni sulla popolazione corrispondente. • Una conclusione non può mai essere completamente certa. • Ogni test può comportare un certo rischio di errore 3 Test delle Ipotesi Introduzione Esempio: • Una fabbrica p produce tubi di acciaio con una data tensione di snervamento • Tale proprietà del materiale non è costante per il singolo prodotto ma risulta soggetto a fluttuazioni all’interno della produzione. Uno studio della produzione nell’arco degli anni ha portato a concludere che la tensione di snervamento può essere vista come una variabile aleatoria di tipo Gaussiano di media μ=110 MPa e deviazione standard σ = 30 MPa Y~N(110, 900) 4 M. Grosso - Statistica Test delle ipotesi - Parte 1 2 Test delle Ipotesi Introduzione • Esempio/Continua • Un’altra fabbrica p produce (con ( un’altra procedura) p ) lo stesso tipo p di tubi di acciaio. • Un campione di 100 prodotti ha rilevato una tensione di snervamento: y = 115.5 MPa • È possibile che la nuova fabbrica produca acciaio di qualità migliore, oppure la differenza è legata semplicemente alle inevitabili fluttuazioni presenti nel processo? 5 Test delle Ipotesi - Ipotesi nulla • Si vuole testare l’ipotesi che i risultati di questo campionamento sperimentale p siano delle variabili aleatorie che abbiano media μ = 115.5 • Questa affermazione implica l’introduzione di una ipotesi che noi battezziamo ipotesi nulla H0 : μ = μ0 = 115.5 6 M. Grosso - Statistica Test delle ipotesi - Parte 1 3 Test delle Ipotesi - Ipotesi alternativa • Una altra possibilità (plausibile) è che il nuovo catalizzatore sia effettivamente più reattivo della vecchia produzione • Questa ipotesi, in contrasto con l’ipotesi nulla, è battezzata ipotesi alternativa: H1 : μ > μ0 • Tutti i test delle ipotesi statistici richiedono la formulazione di un’ipotesi nulla e di un’ipotesi alternativa • L’ipotesi nulla e l’ipotesi alternativa sono esaustive e mutuamente esclusive. 7 Test delle Ipotesi Significatività del test • Ogni test delle ipotesi implica una scelta di livello di significatività del test • Il livello di significatività del test è la probabilità di rigettare l’ipotesi nulla nonostante essa sia vera • Questa probabilità prende il nome di errore di tipo I e si indica con la lettera α 8 M. Grosso - Statistica Test delle ipotesi - Parte 1 4 Test delle Ipotesi sulla media Teoria Caso in cui la varianza σ2 sia nota • Se l’ipotesi nulla H0 : μ = μ0 • fosse vera, allora la variabile aleatoria media del campione di dati sperimentali ∑ Yi Y = n • ha una funzione densità di probabilità che è una distribuzione gaussiana di media μ0 e varianza σ2 /n 9 Test delle Ipotesi sulla media Teoria Caso in cui la varianza σ2 sia nota • Se si assume vera l’ipotesi nulla, la probabilità che Y assuma valori prossimi a μ0 è molto elevata, ma non si possono escludere valori diversi • Fissare un livello di significatività del test equivale a calcolare quale è il valore di Y al di sopra del quale la probabilità risulti molto bassa 10 M. Grosso - Statistica Test delle ipotesi - Parte 1 5 Test delle Ipotesi sulla media Teoria Caso in cui la varianza σ2 sia nota α = 5% c Non rigetto l’ipotesi nulla H0 Rigetto l’ipotesi nulla H0 • Al di sopra di c è poco plausibile che la variabile aleatoria ⎛ σ2 ⎞ Y = N ⎜ μ0 , ⎟ ⎜ assuma valori n ⎟⎠ ⎝ 11 Test delle Ipotesi sulla media Ricetta 1/3 • Fissare un livello di significatività α • Stab Stabilire l re l’ipotesi l potes nulla nulla: H0 : μ = μ0 • Contro l’ipotesi alternativa: H1 : μ > μ0 • Calcolare il valore stimato per la media (che corrisponde ad un valore osservato della VA): y= ∑ yi n 12 M. Grosso - Statistica Test delle ipotesi - Parte 1 6 Test delle Ipotesi sulla media Ricetta 2/3 • Dato che la media di Y è supposta essere una gaussiana di media μ0 e varianza σ2/n, la variabile aleatoria Y − μ0 Z= n σ • è una distribuzione normale di tipo standard • Quindi c − μ0 ⎞ c − μ0 ⎞ ⎛ ⎛ P(Y < c )μ = μ = P⎜ Z < n ⎟ =1−α ⎟ = F⎜ n σ ⎠ σ ⎠ ⎝ ⎝ 0 • dove F è la distribuzione cumulativa della gaussiana di tipo standard • Determinato il valore della distribuzione normale che mi soddisfa l’eguaglianza è possibile determinare c 13 Test delle Ipotesi sulla media Ricetta 3/3 • Se y >c • La probabilità che il risultato ottenuto appartenga alla variabile aleatoria ipotizzata è molto bassa, quindi rigettiamo l’ipotesi nulla ed accettiamo l’ipotesi alternativa. • Se y<c • non rigettiamo ll’ipotesi ipotesi nulla nulla. • La regione contenente i valori per cui rigettiamo l’ipotesi nulla si chiama regione di rigetto dell’ipotesi nulla 14 M. Grosso - Statistica Test delle ipotesi - Parte 1 7 Test delle ipotesi sulla media - Esempio • Si consideri di nuovo il caso dei tubi di acciaio. • Il test delle ipotesi p è sul valore medio: H0 : H1 : μ = μ0 μ > μ0 • Con un livello di significatività α = 5 % 15 Test delle ipotesi sulla media - Esempio • Si valuta innanzitutto il valore c tale che P(Z>c) = α = 0.05: F (c ) = 1 − α ⇒ c = 1.6449 • Inoltre, se l’ipotesi nulla fosse esatta, la variabile z= y − μ0 σ n= 115.5 − 110 10 = 1.833 30 • sarebbe un valore osservato di una variabile aleatoria normale di tipo standard. 16 M. Grosso - Statistica Test delle ipotesi - Parte 1 8 Test delle ipotesi sulla media - Esempio • La probabilità che la variabile aleatoria normale di media μ0 e varianza σ2/n in questione assuma un valore eguale a 1.833 rientra nella zona di rigetto Il valore osservato rientra nella regione 0.5 in cui la variabile aleatoria ha poche 0.4 probabilità di cadere 0.3 0.2 0.1 0.0 -3 -2 -1 0 1 2 3 C’è un 5% di probabilità che il valore osservato appartenga alla VA supposta nell’ipotesi nulla H0 e sia comunque rigettata 17 Test delle ipotesi sulla media - Esempio • Si consideri ora il caso in cui si scelga un livello di significatività α = 1 %. • Si valuta innanzitutto il valore c tale che P(Z>c) = α. F (c ) = 1 − α ⇒ c = 2.3263 • Nel caso in esame, il valore osservato della variabile aleatoria non rientra nella regione di rigetto dell’ipotesi. • Si conclude che, per il livello di significatività scelto, non ci sono evidenze sufficienti per rigettare l’ipotesi nulla. 18 M. Grosso - Statistica Test delle ipotesi - Parte 1 9 Test delle ipotesi sulla media - Esempio 0.5 α = 0.01 0.4 0.3 0.2 0.1 0.0 -3 -2 -1 0 1 2 3 Valore osservato della variabile aleatoria di tipo standard 19 Test delle ipotesi sulla media Ipotesi alternative 1/4 • Nel problema in esame si assume che il nostro campione di dati sperimentali sia caratterizzato da una variabile aleatoria che abbia una funzione densità di probabilità che coinvolge un parametro ignoto θ e si assume l’ipotesi nulla che H0 : θ = θ0 • L’ipotesi alternativa era che H1 : θ > θ0 • Ma non è l’unica alternativa che possiamo considerare 20 M. Grosso - Statistica Test delle ipotesi - Parte 1 10 Test delle ipotesi sulla media Ipotesi alternative 2/4 • In altri casi la natura può suggerire altri tipi di alternative: • Oppure H1 : θ < θ0 (1) H1 : θ ≠ θ0 (2) • Le prime 2 alternative si chiamano one-sided. L’ultima two-sided 21 Test delle ipotesi sulla media Ipotesi alternative 3/4 • Nel caso della ipotesi alternativa H1: θ < θ0, si deve determinare il valore critico c1 tale che tutti i valori inferiori a c1 abbiano una probabilità di verificarsi pari a α • Dobbiamo escludere i valori per cui la distribuzione assuma valori inferiori a c tali che P(Y<μ0-c) = α Insieme dei valori per i quali rigettiamo l’ipotesi nulla 5% μ0-c1 μ0 M. Grosso - Statistica Test delle ipotesi - Parte 1 22 11 Test delle ipotesi sulla media Ipotesi alternative 4/4 • Nel caso in cui l’ipotesi alternativa H1 è two-sided, ovvero μ ≠ μ0, dobbiamo escludere sia i valori p per cui la distribuzione assuma valori inferiori a μ0-c, sia i valori per cui la distribuzione assuma valori superiori a μ0 +c 5% Insieme dei valori per i quali non accettiamo l’ipotesi nulla μ0-c μ0 μ0+c 23 Test delle ipotesi sulla media – Caso Varianza non nota • Si consideri di nuovo il caso del catalizzatore in cui stavolta la varianza non sia nota e sia invece nota la sua stima s H0 : μ = μ0 H1 : μ > μ0 • Se l’ipotesi nulla fosse vera, allora la variabile aleatoria Z= n Y − μ0 s • Sarebbe una distribuzione ad (n-1) gradi di libertà. 24 M. Grosso - Statistica Test delle ipotesi - Parte 1 12 Test delle ipotesi sulla media – Caso Varianza non nota • Fissare un livello di significatività del test (es: α= 5%) • Calcolare s: s2 = 1 2 ∑ ( yi − y ) n −1 • Calcolare il valore di c per cui: P (T ≤ c ) = F (c ) = 1 − α • Dove T è la distribuzione di student ad n-1 gradi di libertà. • Come valore osservato della variabile T possiamo calcolare y − μ0 t= n s2 • se t > c, rigettare l’ipotesi nulla ed accettare l’ipotesi alternativa H1: μ>μ0 25 • se t< c non rigettare l’ipotesi nulla. Test delle ipotesi sulla media – Caso Varianza non nota • La costruzione del test delle ipotesi nel caso di ipotesi alternative di tipo differente è assolutamente equivalente al caso approcciato con le distribuzioni di tipo gaussiano. • Nel caso in cui: H 0 : μ = μ0 H1 : μ < μ0 • Dobbiamo escludere i valori per cui la T di student assuma valori inferiori a c tali che P(c) = α Insieme dei valori per i quali non accettiamo l’ipotesi nulla 5% -k M. Grosso - Statistica Test delle ipotesi - Parte 1 26 13 Test delle ipotesi sulla media – Caso Varianza non nota • Nel caso in cui: H0 : μ = μ0 H1 : μ ≠ μ0 • Dobbiamo escludere sia i valori per cui la T di student assuma valori inferiori a c, sia i valori per cui la T di student assuma valori superiori a c 5% Insieme dei valori per i quali non accettiamo l’ipotesi nulla -k k 27 Test delle ipotesi sui coefficienti di regressione • Con una filosofia analoga ai casi precedenti, è possibile proporre test delle ipotesi anche per lo studio della regressione lineare. • Ricordando che, in presenza di N osservazioni yi, effettuate al variare di una variabile regressore xi, è possibile valutare la migliore retta di regressione yi = β 0 + β1 xi + ε i • si ha che: ⎛ σ2 ⎞ ⎟⎟ ~ N ⎜⎜ β1 , S xx ⎝ S xx ⎠ ⎛ ⎛ 1 x 2 ⎞⎞ ⎟⎟ ⎟ βˆ0 = y − βˆ1 x ~ N ⎜⎜ β 0 , σ 2 ⎜⎜ + ⎟ N S xx ⎠ ⎠ ⎝ ⎝ βˆ1 = M. Grosso - Statistica Test delle ipotesi - Parte 1 ε i ~ N (0, σ 2 ) S xy 14 Test delle ipotesi sui coefficienti di regressione • Le stime di pendenza ed intercetta della retta di regressione sono affette da incertezza • Può pertanto essere utile stabilire se tali stime possano essere compatibili con dei valori puntuali ipotizzati per β0 e/o β1, oppure no Test delle ipotesi sui coefficienti di regressione Test delle Ipotesi sulla pendenza - Assunzioni: • Gli errori εi nelle osservazioni sono normalmente distribuiti ed indipendenti ε i ~ N (0, σ 2 ) • Si vuole testare l’ipotesi H0: β1 = β10 • Contro ll’ipotesi ipotesi alternativa alternativa: H1: β1 ≠ β10 • Ipotesi alternativa di tipo bilaterale (ma può anche essere “onesided”) 30 M. Grosso - Statistica Test delle ipotesi - Parte 1 15 Test delle ipotesi sui coefficienti di regressione • Test sulla pendenza: Se l’ipotesi nulla fosse vera, la stima della pendenza della retta di regressione sarebbe un esito di una variabile aleatoria di tipo Gaussiano: ⎛ βˆ1 N ⎜ β10 , ⎝ • • • ⎟ S XX ⎠ Essendo β10 il valore supposto nel test delle ipotesi. La distribuzione: ˆ Z= • σ2 ⎞ β1 − β10 σ 2 / S XX È una distribuzione normale di tipo Standard nel caso in cui l’ipotesi nulla fosse vera. Se σ2 fosse nota potremmo usare la Z per testare l’ipotesi nulla. 31 Test delle ipotesi sui coefficienti di regressione • Si può comunque dimostrare che, nel caso in cui fosse nota solo una stima s2 della varianza, la variabile aleatoria: t= βˆ1 − β10 s2 S xx • è una distribuzione di tipo t di Student ad (n-2) gradi di libertà. • Il test è quindi i di effettuato ff confrontando f d il valore l osservato di t0 con il limite superiore della t di Student, per la soglia di errore stabilito. 32 M. Grosso - Statistica Test delle ipotesi - Parte 1 16 Test delle ipotesi sui coefficienti di regressione • • Test delle ipotesi sull’intercetta In modo analogo è possibile ricavare una t di Student per un test sull’intercetta sull intercetta b0: H0: β0 = β00 • Contro l’ipotesi alternativa: H1: • Se l’ipotesi nulla fosse vera, allora la distribuzione: t= • β0 ≠ β00 βˆ0 − β 00 ⎛ 1 x2 ⎞ ⎟⎟ s 2 ⎜⎜ + ⎝ N S xx ⎠ È una t di Student ad (n-2) gradi di libertà 33 Test delle ipotesi sui coefficienti di regressione – Caso particolare • Un caso speciale molto importante è: H0: H1: • • β1 = 0 β1 ≠ 0 Questo test delle ipotesi è legato al concetto di significatività della regressione. Il fallimento del rigetto dell’ipotesi nulla H0 implica che ci potrebbe non essere dipendenza lineare tra la variabile dipendente e la variabile regressore regressore. 34 M. Grosso - Statistica Test delle ipotesi - Parte 1 17 Test delle ipotesi – Significatività della regressione Situazioni in cui l’ipotesi nulla β1 = 0 non è rigettata Situazioni in cui l’ipotesi nulla β1 = 0 è rigettata 35 M. Grosso - Statistica Test delle ipotesi - Parte 1 18