VERIFICA DELLE IPOTESI Ipotesi statistica ►una qualunque affermazione che specifica completamente o parzialmente la distribuzione di probabilità di una v.c. X. semplice: se la specificazione è altrimenti si parla di ipotesi composta. parametrica non parametrica sui parametri della distribuzione sulla forma della distribuzione o su altri aspetti non parametrici Ipotesi statistica Test statistico completa, popolazione ► regola di decisione che ad ogni valore campionario associa una decisione sul parametro incognito, tale schema decisionale viene formulato prima di effettuare il campionamento o di avere i dati a disposizione. Test statistico: campione Test statistico parametrico Test statistico non parametrico popolazione si suppone nota la distribuzione di probabilità della variabile di partenza X non si fanno assunzioni stringenti sulla forma analitica della distribuzione di probabilità di X LE IPOTESI STATISTICHE L’ipotesi da sottoporre a verifica viene definita Ipotesi nulla e viene indicata con H0 . H : θ = θ0 0 L’ipotesi alternativa è una controaffermazione che viene fatta in antitesi all’ipotesi nulla e viene indicata con H1 . E’ costituita da un singolo valore o da un insieme di valori possibili per θ e considerati alternativi a θ0: H : θ = θ1 1 H : θ < θ0 1 H : θ > θ0 1 H : θ ≠ θ0 1 Le due ipotesi sono esaustive e disgiunte!!! Qualsiasi decisione viene presa su H o mai su H 1 alla fine del Test io accetto o rifiuto H o Il TEST STATISTICO Poiché il valore campionario di un test statistico varia da campione a campione, il test statistico costituisce una variabile casuale che può assumere valori compresi in un insieme che costituisce lo Spazio Campionario secondo una distribuzione di probabilità che è la distribuzione campionaria del test Un test statistico da quindi luogo alla ripartizione dello spazio campionario in due sottoinsiemi complementari: un insieme A costituito dai valori del test che sono compatibili con l’ipotesi nulla H 0: REGIONE DI ACCETTAZIONE DEL TEST un insieme C che raggruppa i valori del test considerati incompatibili con H 0 : REGIONE DI RIFIUTO DEL TEST REGOLA Se il valore della Statistica Campionaria cade nella regione di accettazione del Test: ACCETTO L’IPOTESI NULLA Se il valore della Statistica Campionaria cade nella regione di rifiuto del Test: RIFIUTO L’IPOTESI NULLA il test statistico non da risultati statistici certi ma probabili Tipi di errore Non essendoci certezze assolute, le conclusioni di un test statistico sono soggette ad errori, di primo o secondo tipo nella realtà Ho è vera Ho è falsa nel test Accetto Ho decisione corretta errore di secondo tipo E 2 Rifiuto Ho errore di primo tipo E 1 decisione corretta La probabilità di commettere un errore di primo tipo corrisponde al livello di significatività del test e si indica con α La probabilità di commettere un errore di secondo tipo si indica con β La probabilità di rifiutare H0 quando H0 è falsa si chiama potenza del test e si indica con 1-β Due approcci: 1)Approccio basato sul lemma di Neyman-Pearson 2)Approccio basato sul p-value Formalizziamo Dato il parametro θ esso assume valori nell’insieme parametrico Θ Θο insieme dei valori di θ sotto l’ipotesi nulla Θ1 insieme dei valori di θ sotto l’ipotesi alternativa Θ t(x) : Valore campionario del test C : Insieme dei valori campionari del test t(x) che portano a rifiutare H 0 A : Insieme dei valori campionari del test t(x) che portano ad accettare H 0 Errore di I tipo: t (X) ∈C | θ ∈ Θο P: (t (X) ∈C | θ ∈ Θο)= α Errore di II tipo: t (X) ∈A | θ ∈ Θ1 P: (t (X) ∈A | θ ∈ Θ1)= β Potenza del test t (X) ∈C | θ ∈ Θ1 P: (t (X) ∈C | θ ∈ Θ1)= 1−β Approccio basato sul lemma di Neyman-Pearson Nella maggior parte dei casi, il test delle ipotesi viene costruito in modo che l’ipotesi nulla giochi un ruolo più importante dell’ipotesi alternativa nel problema di decisione che si intende affrontare. Questo significa che i due tipi di errore in cui è possibile incorrere non vengono considerati ugualmente importanti, poiché l’errore di I tipo si suppone avere conseguenze più gravi di quelle legate all’errore di II tipo. Neyman e Pearson propongono allora di prefissare un livello α di probabilità di commettere l’errore di I tipo e successivamente, condizionatamente al valore di α fissato, scegliere il test che minimizza la probabilità β di commettere l’errore di II tipo. In base al principio di Neyman-Pearson è quindi possibile definire una regione critica ottimale, scegliendo, tra i possibili test alternativi caratterizzati dallo stesso livello di significatività α, quello per il quale la probabilità β risulta minima. Una regione critica con potenza superiore a qualunque altra regione per un test di livello α viene definita regione critica ottimale e il test ad essa associato viene indicato come il test più potente. Approccio basato sul p-value Il p-value è il più piccolo valore di α per cui riesco a rifiutare Ho Supponiamo che io non consideri, a priori, alcun livello di significatività ma sulla base del risultato campionario, decida di rifiutare l’ipotesi nulla. Qual è la probabilità che stia sbagliando? Più piccolo è il p-value, più “distante” risulta essere il valore campionario osservato da quanto ci si aspetta sotto H 0 e quindi più problematico diventa accettare questa discrepanza come attribuibile alla sola aleatorietà campionaria. I software statistici ed econometrici semplificano i test e ci forniscono solo p-value, il ricercatore dovrà decidere in base alla propria esperienza e conoscenza del fenomeno se accettare o rifiutare H0