Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. gherghi gherghi Università di Napoli Federico II - Facoltà di Economia m. Anno accademico 2011-’12 Lezione 22 – La verifica delle ipotesi Corso di Statistica (A-D) 22 La verifica delle ipotesi marco gherghi [email protected] 1 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) Lezione 22 – La verifica delle ipotesi m. m. gherghi gherghi La verifica delle ipotesi da Orsi, pag. 354 In molte circostanze il ricercatore si trova a dover decidere quale, tra le diverse situazioni possibili riferibili alla popolazione, è quella meglio sostenuta dalle evidenze empiriche. Anche in questo caso la struttura del problema consiste in una famiglia di distribuzioni di probabilità parametriche f(x; θ), con θ incognito, e nelle osservazioni campionarie X1, …, Xn, che costituiscono delle realizzazioni della distribuzione di probabilità e che, quindi, forniscono delle informazioni sul valore di θ incognito. Una ipotesi statistica è dunque una affermazione concernente la distribuzione di probabilità o il processo che ha generato le osservazioni campionarie osservate. Una volta definita l’informazione che è necessario estrarre dal campione e la statistica che deve essere impiegata per questa operazione, occorrerà dare un giudizio sulla coerenza del risultato campionario con l’ipotesi specificata per la popolazione. Più precisamente, se il risultato campionario si verrà a trovare talmente lontano dal valore teorizzato dall’ipotesi fatta per θ da cadere in un insieme di valori ritenuti non “coerenti” (in quanto troppo poco probabili) con l’ipotesi su θ, tale risultato avvalorerà la possibilità di ipotesi alternative a quella specificata. E’ dunque necessario definire una regola di decisione, o test statistico, che ad ogni valore campionario associ una decisione sul parametro q, e tale schema decisionale viene formulato prima di 2 effettuare il campionamento o di avere i dati a disposizione. Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) Lezione 22 – La verifica delle ipotesi m. m. gherghi gherghi La verifica delle ipotesi da Piccolo, pagg. 607-608 Nel test delle ipotesi si evidenzia il ruolo della Statistica come scienza delle decisioni in condizioni di incertezza. Infatti, è proprio del test tradurre un problema reale in un’affermazione statistica, assumere informazioni campionarie sulla popolazione di riferimento e, su questa base, prendere decisioni attribuendo a tale scelta un giudizio probabilistico sulla sua veridicità. Un test si può derivare supponendo nota la distribuzione di probabilità di una variabile X, per cui l’inferenza si riferisce ai soli parametri che la specificano; Oppure si può effettuare senza fare assunzioni stringenti circa la forma analitica della distribuzione di probabilità di X, per cui l’inferenza riguarda sia la forma della distribuzione che i suoi parametri. Il test delle ipotesi statistiche è una regola istituita sullo spazio campionario mediante la quale, sulla base del campione osservato, si decide se rifiutare o meno una ipotesi statistica H0 riferita alla popolazione e detta Ipotesi nulla. 3 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi La verifica delle ipotesi da Piccolo, pagg. 607-608 Le ipotesi statistiche Si definisce ipotesi statistica una qualunque affermazione che specifica completamente o parzialmente la distribuzione di probabilità di una v.c. X. Se la specificazione è completa, si parla di ipotesi semplice, altrimenti si parla di ipotesi composta. Un’ipotesi viene definita parametrica quando gli aspetti incogniti riguardanti la popolazione vertono principalmente sui parametri della distribuzione di probabilità e non sulla forma o su altri aspetti non parametrici. Nell’ambito delle ipotesi composte si parlerà di ipotesi unidirezionale sul parametro q quando questa include valori reali in una sola direzione (ad esempio H : θ >θ0), ipotesi bidirezionale nel caso in cui questa comprenda valori in entrambe le direzioni (ad esempio H : θ ≠θ0) 4 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi La verifica delle ipotesi Le ipotesi statistiche L’ipotesi da sottoporre a verifica viene definita Ipotesi nulla e viene indicata con H0. E’ l’ipotesi preesistente rispetto all’esperimento campionario, quella che viene considerata valida fino a prova contraria, e comprende il sottoinsieme dei valori dello spazio parametrico test. Tipicamente, l’ipotesi nulla è un’ipotesi di tipo semplice: Θ che si vuole sottoporre a H0 : θ = θ0 Il complemento all’ipotesi nulla costituisce l’ipotesi alternativa e viene indicata con H1. E’ costituita da un singolo valore o da un insieme di valori possibili per θ e considerati alternativi a θ0 : H1 : θ = θ1 ; H1 : θ < θ0 ; H1 : θ > θ0 ; H1 : θ ≠ θ0 L’ipotesi alternativa rappresenta dunque una controaffermazione che viene fatta in antitesi all’ipotesi nulla, e indica la direzione di allontanamento da H0 che si desidera esaminare. E’ bene sottolineare che l’ipotesi nulla e l’ipotesi alternativa non sono equivalenti ai fini della decisione, nel senso che il test non è mai conclusivo circa H1, ma concerne solo la possibilità che dal campione si possa pervenire al rifiuto o al non rifiuto di H0. Le ipotesi H0 e H1 sono esaustive e disgiunte: o vale l’una o vale l’altra. da Orsi, pag. 359 e Piccolo, pagg. 608-609 5 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi La verifica delle ipotesi Test e regole di decisione da Orsi, pag. 362 Una volta formulate le ipotesi, occorre decidere se, sulla base dell’evidenza empirica campionaria, l’ipotesi nulla H0 debba essere rifiutata o meno. E’ perciò necessario mettere a punto una regola che permetta di discriminare tra i risultati campionari che portano ad accettare l’ipotesi nulla e quelli che portano a rifiutarla. Questa regola costituisce il Il test è dunque una regola che permette di stabilire se le osservazioni campionarie debbano ritenersi coerenti con l’ipotesi nulla oppure no. Poiché il valore campionario di un test statistico varia da campione a campione, il test statistico costituisce una variabile casuale che può assumere valori compresi in un insieme che costituisce lo del test, secondo una particolare distribuzione di probabilità che è la Da un punto di vista operativo, un test è una statistica che fa corrispondere ad ogni campione casuale (X1, …, Xn)un valore numerico che può essere classificato secondo due diverse possibilità: del test. 6 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi La verifica delle ipotesi Test e regole di decisione da Orsi, pag. 362 Un test statistico da quindi luogo alla ripartizione dello spazio campionario in due sottoinsiemi complementari: un insieme A costituito dai valori del test che sono compatibili con l’ipotesi nulla H0, e un insieme C che raggruppa i valori del test considerati incompatibili con H0. Quest’ultimo insieme è costituito dai valori del test che portano al e viene definito la del test. Quando il valore campionario di t cade nella regione critica, l’evidenza empirica del fenomeno studiato porta a ritenere che l’ipotesi H0 non possa essere considerata valida, e quindi che non possa essere accettata come vera. Regione di accettazione di H0 Regione di rifiuto di H0 Regione critica per un test statistico con ipotesi alternativa unidirezionale: t Regione di rifiuto di H0 Regione di accettazione di H0 Regione di rifiuto di H0 H0 : θ = θ0 H1 : θ > θ0 Regione critica per un test statistico con ipotesi alternativa bidirezionale: t H0 : θ = θ0 H1 : θ ≠ θ0 7 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi La verifica delle ipotesi Test e regole di decisione da Orsi, pag. 367 Indipendentemente dalla regola adottata, il test porta sempre a dover scegliere tra due possibili decisioni, H0 e H1 e a poter commettere due possibili errori, rifiutare un’ipotesi vera oppure accettare un’ipotesi falsa. Quindi, la decisione deve considerare l’importanza relativa dei due diversi tipi di Situazione vera errore o, nell’ottica della Teoria delle decisioni, le diverse funzioni di perdita. H0 H1 Decisione Ipotizzando vera H0, la regione critica Accetto H0 falsa H0 viene definita Errore II tipo Rifiuto H0 vera H1 associata (cioè la probabilità di rifiutare H0) Errore I tipo test e indicata con del . Accettare o rifiutare H0 non può e non deve essere inteso come una dimostrazione della verità o meno di H0 (altre ipotesi, diverse da H0, avrebbero potuto essere accettate o rifiutate sulla base dello stesso campione) ma solo come una conclusione che l’evidenza empirica è favorevole o meno all’ipotesi nulla. 8 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi La verifica delle ipotesi Test e regole di decisione da Orsi, pag. 370 Stati della natura Piove Errore Prendo l’ombrello Decisione Non piove Porto inutilmente l’ombrello Errore Non prendo l’ombrello Bagno il vestito nuovo e lo rovino 9 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi La verifica delle ipotesi Test e regole di decisione da Orsi, pag. 370 Realtà Innocente Errore Assoluzione Decisione Colpevole Assolvo un colpevole Errore Condanna Condanno un innocente 10 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi La verifica delle ipotesi Test e regole di decisione Θ : Insieme dei possibili valori di q da Orsi, pag. 372 Θ0 Insieme dei valori di θ sotto l’ipotesi nulla H0 Θ1 Insieme dei valori di θ sotto l’ipotesi alternativa H1 t(x) : Valore campionario del test C: Insieme dei valori campionari del test t(X) che portano a rifiutare H0 A: Insieme dei valori campionari del test t(X) che portano ad accettare H0 Errore di I tipo: (Rifiuto H0 vera) t ( X ) ∈ C | θ ∈ Θ0 P (Errore di I tipo): Errore di II tipo: (Accetto H0 falsa) P ⎡⎣t ( X ) ∈ C | θ ∈ Θ0 ⎤⎦ = α t ( X ) ∈ A | θ ∈ Θ1 ( ) P (Errore di II tipo): P ⎡t X ∈ A | θ ∈ Θ ⎤ = 1⎦ ⎣ β 11 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi La verifica delle ipotesi Test e regole di decisione Θ : Insieme dei possibili valori di q da Orsi, pag. 372 Θ0 Insieme dei valori di θ sotto l’ipotesi nulla H0 Θ1 Insieme dei valori di θ sotto l’ipotesi alternativa H1 t(x) : Valore campionario del test C: Insieme dei valori campionari del test t(X) che portano a rifiutare H0 A: Insieme dei valori campionari del test t(X) che portano ad accettare H0 Potenza del test (Rifiuto H0 falsa) t ( X ) ∈ C | θ ∈ Θ1 P ⎡⎣t ( X ) ∈ C | θ ∈ Θ1 ⎤⎦ = 1 − β 12 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) Lezione 22 – La verifica delle ipotesi m. m. gherghi gherghi La verifica delle ipotesi Esempio (sulla media) La durata delle lampadine prodotte da una certa azienda ha media pari a 2000 ore e deviazione standard pari a 250 ore. La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo di materiale sulla cui qualità il responsabile della produzione avanza seri dubbi. Prima di mettere in vendita le lampadine prodotte si desidera, dunque, indagare sulla qualità del materiale impiegato e, in particolare, verificare se possa avere influito sulla durata delle lampadine. Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e se ne misura la durata media, che risulta pari a 1955 ore. E’ possibile affermare, con significatività α=0,05, che tale riduzione sia imputabile alla scarsa qualità del materiale utilizzato? • Le ipotesi (Nulla, H0, e Alternativa, H1) • Il livello di significatività (α) • La statistica di riferimento • La regola di decisione 13 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi La verifica delle ipotesi Esempio (sulla media) La durata delle lampadine prodotte da una certa azienda ha media pari a 2000 ore e deviazione standard pari a 250 ore. La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo di materiale sulla cui qualità il responsabile della produzione avanza seri dubbi. Prima di mettere in vendita le lampadine prodotte si desidera, dunque, indagare sulla qualità del materiale impiegato e, in particolare, verificare se possa avere influito sulla durata delle lampadine. Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e se ne misura la durata media, che risulta pari a 1955 ore. E’ possibile affermare, con significatività a=0,05, che tale riduzione sia imputabile alla scarsa qualità del materiale utilizzato? µ =2000 σ =250 H0: µ = 2000 H1: µ < 2000 x = 1955 n =100 α = 0,05 X ~N za = -1,645 1. σ n 1955 X c 1975 2000 2. 1 Zc 0 Z = Rifiuto H0 se: ; X −µ σ n x − µ0 σ 1955 − 2000 = −1, 8 250 100 -1,8 < -1,645 X 5% -1 α =0,05 < − zα n Rifiuto H0 Valore critico σ = 1958, 9 non standardizzato: µ0 − 1,645 × n 14 1955 < 1958,9 Rifiuto H0 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) Lezione 22 – La verifica delle ipotesi m. m. gherghi gherghi La verifica delle ipotesi Esempio (sulla media) La durata delle lampadine prodotte da una certa azienda ha media pari a 2000 ore e deviazione standard pari a 250 ore. La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo di materiale di cui si ignorano le performance. Prima di mettere in vendita le lampadine prodotte si desidera, dunque, indagare sulla qualità del materiale impiegato e, in particolare, verificare se possa influire sulla durata delle lampadine. Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e se ne misura la durata media, che risulta pari a 2010 ore. E’ possibile affermare, con significatività a=0,05, che tale variazione sia imputabile al nuovo materiale utilizzato? • Le ipotesi (Nulla, H0, e Alternativa, H1) • Il livello di significatività (a) • La statistica di riferimento • La regola di decisione 15 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi La verifica delle ipotesi Esempio (sulla media) La durata delle lampadine prodotte da una certa azienda ha media pari a 2000 ore e deviazione standard pari a 250 ore. La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo di materiale di cui si ignorano le performance. Prima di mettere in vendita le lampadine prodotte si desidera, dunque, indagare sulla qualità del materiale impiegato e, in particolare, verificare se possa influire sulla durata delle lampadine. Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e se ne misura la durata media, che risulta pari a 2010 ore. E’ possibile affermare, con significatività α=0,05, che tale variazione sia imputabile al nuovo materiale utilizzato? H0: µ= 2000 H1: µ ≠ 2000 µ =2000 α = 0,05 σ =250 2,5% X ~N x = 2010 n =100 zα = 1, 96 1. 2,5% 2 2010 1951 2000 2,5% − zα 2. 2,5% 2 0 0,4 zα Z = 2 ; X −µ σ n x − µ0 σ α =0,05 > zα n 2 2010 − 2000 = 0, 4 250 100 |0,4| < 1,96 X 2049 Rifiuto H0 se: Valori critici non standardizzati: 1951 ≤ 2010 ≤ 2049 Non rifiuto H0 µ0 1,96 × σ n = 1951, 0 2049, 0 Non rifiuto H0 16 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) Lezione 22 – La verifica delle ipotesi m. m. gherghi gherghi La verifica delle ipotesi Esempio (sulla media) La durata delle lampadine prodotte da una certa azienda ha media pari a 2000 ore e deviazione standard pari a 250 ore. Viene proposta alla Direzione una nuova macchina che, secondo i produttori, è in grado di ottimizzare il processo con un guadagno, in termini di efficienza del prodotto, quantificabile in un miglioramento di performance del 3,5%. Prima di decidere se procedere o meno all’acquisto, si decide di considerare un campione casuale di 100 lampadine prese dalla produzione della nuova macchina e di considerare significativo il risultato se la media campionaria risulta oltre il 99° percentile (quindi, α=0,01). Si definisca la probabilità β dell’errore di II tipo e, quindi, la potenza del test e, eventualmente, si definisca una possibile strategia alternativa. 17 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi La verifica delle ipotesi Esempio (sulla media) La durata delle lampadine prodotte da una certa azienda ha media pari a 2000 ore e deviazione standard pari a 250 ore. Viene proposta alla Direzione una nuova macchina che, secondo i produttori, è in grado di ottimizzare il processo con un guadagno, in termini di efficienza del prodotto, quantificabile in un miglioramento di performance del 3,5%. Prima di decidere se procedere o meno all’acquisto, si decide di considerare un campione casuale di 100 lampadine prese dalla produzione della nuova macchina e di considerare significativo il risultato se la media campionaria risulta oltre il 99° percentile (quindi, α=0,01). Si definisca la probabilità β dell’errore di II tipo e, quindi, la potenza del test e, eventualmente, si definisca una possibile strategia alternativa. µ0 =2000 σ =250 H0: µ = 2000 H1: µ = 2070 α = 0,01 H0 2000 n =100 α =0,01 X ~N µ1=2000+(2000×0,035)=2070 Rifiuto H0 se: H1 2070 Per calcolare β, è necessario determinare il valore critico. x − µ0 σ > zα n X 18 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi La verifica delle ipotesi Esempio (sulla media) La durata delle lampadine prodotte da una certa azienda ha media pari a 2000 ore e deviazione standard pari a 250 ore. Viene proposta alla Direzione una nuova macchina che, secondo i produttori, è in grado di ottimizzare il processo con un guadagno, in termini di efficienza del prodotto, quantificabile in un miglioramento di performance del 3,5%. Prima di decidere se procedere o meno all’acquisto, si decide di considerare un campione casuale di 100 lampadine prese dalla produzione della nuova macchina e di considerare significativo il risultato se la media campionaria risulta oltre il 99° percentile (quindi, α=0,01). Si definisca la probabilità β dell’errore di II tipo e, quindi, la potenza del test e, eventualmente, si definisca una possibile strategia alternativa. µ0 =2000 σ =250 H0: µ = 2000 H1: µ = 2070 α =0,01 n =100 α = 0,01 H0 µ1=2000+(2000×0,035)=2070 X ~N Rifiuto H0 se: H1 x − µ0 σ > zα n 1% 2000 X 2070 µ0 + zα ⋅ σ n = 2000 + 2,33 ⋅ 250 100 =2.058,3 19 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi La verifica delle ipotesi Esempio (sulla media) La durata delle lampadine prodotte da una certa azienda ha media pari a 2000 ore e deviazione standard pari a 250 ore. Viene proposta alla Direzione una nuova macchina che, secondo i produttori, è in grado di ottimizzare il processo con un guadagno, in termini di efficienza del prodotto, quantificabile in un miglioramento di performance del 3,5%. Prima di decidere se procedere o meno all’acquisto, si decide di considerare un campione casuale di 100 lampadine prese dalla produzione della nuova macchina e di considerare significativo il risultato se la media campionaria risulta oltre il 99° percentile (quindi, α=0,01). Si definisca la probabilità β dell’errore di II tipo e, quindi, la potenza del test e, eventualmente, si definisca una possibile strategia alternativa. µ0 =2000 σ =250 H0: µ = 2000 H1: µ = 2070 n =100 α = 0,01 H0 α =0,01 X ~N H1 β =P µ1=2000+(2000×0,035)=2070 Rifiuto H0 se: (θˆ ∈ A | θ ∈ Θ ) x − µ0 σ > zα n 1 1% 2.058 2070 2000 P ( X ≤ 2058,3 | µ X ⎛ ⎞ X − µ 2058,3 − 2070 ⎜ ⎟ ≤ = 2070 = P ⎜ ⎟ = P ( Z ≤ −0, 468) = 0,32 σ 250 ⎜ ⎟ 100 ⎠ n ⎝ ) 20 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi La verifica delle ipotesi Esempio (sulla media) H0: µ = 2000 H1: µ = 2070 µ0 =2000 α = 0,01 σ =250 X ~N n =100 α =0,01 Rifiuto H0 se: xc − µ0 σ > zα n µ1=2000+(2000×0,035)=2070 β = 0,32 H0 2000 H1 2070 Come possiamo rendere il test più “potente”? X 21 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi La verifica delle ipotesi Esempio (sulla media) H0: µ = 2000 H1: µ = 2070 µ0 =2000 α = 0,01 X ~N σ =250 n =180 H0 H1 α =0,01 Rifiuto H0 se: xc − µ0 σ > zα n µ1=2000+(2000✕0,035)=2070 Aumentando la numerosità campionaria n, la varianza dello stimatore media campionaria si riduce, riducendosi anche l’area di sovrapposizione (“area grigia”) tra le due curve. 2000 2070 X 22 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi La verifica delle ipotesi Esempio (sulla media) H0: µ = 2000 H1: µ = 2070 µ0 =2000 α = 0,01 X ~N σ =250 n =180 H0 H1 α =0,01 Rifiuto H0 se: xc − µ0 σ > zα n µ1=2000+(2000✕0,035)=2070 Con la nuova numerosità campionaria, possiamo determinare il nuovo valore critico e calcolare, a parità di α, il nuovo valore di β. 2000 2070 X 23 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi La verifica delle ipotesi Esempio (sulla media) H0: µ = 2000 H1: µ = 2070 µ0 =2000 α = 0,01 X ~N σ =250 n =180 H0 H1 α =0,01 Rifiuto H0 se: =P σ > zα n µ1=2000+(2000✕0,035)=2070 X c = 2000 + 2,33 × β xc − µ0 250 180 = 2043, 4 (θˆ ∈ A | θ ∈ Θ ) 1 1% 2000 P ( X ≤ 2043, 4 | µ 2043 2070 ⎛ ⎞ ⎜ X − µ 2043, 4 − 2070 ⎟ = 2070 = P ⎜ ≤ ⎟ =P σ 250 ⎜ ⎟ 180 n ⎝ ⎠ ) X ( Z ≤ −1, 43) = 0, 08 24 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi La verifica delle ipotesi Esempio (sulla media) La frequenza cardiaca (battiti al minuto, bpm) dei maschi giovani sani segue una distribuzione Normale con media µ=72 bpm. Si misura la frequenza cardiaca su un campione di 12 atleti maschi e si ottiene una media µ=68,7 bpm e una varianza corretta s2=75,12. Si verifichi, con significatività α=0,05, che la frequenza cardiaca degli atleti è diversa da quella della popolazione di tutti i maschi sani. H0: µ = 72 H1: µ ≠ 72 x = 68,7 α = 0,05 s = 75,12 = 8,67 X ~N n =12 Rifiuto H0 se: x − µ0 > tα ;11 s 2 n x − µ0 68,7 − 72 −3,3 = = −1,32 = s 2,5 8,67 n 12 25 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi La verifica delle ipotesi Tavola della distribuzione T di Student Area nella coda di destra Gradi di libertà 0,25 0,1 0,05 0,025 0,01 0,005 1 1,0000 3,0777 6,3138 12,7062 31,8205 63,6567 2 0,8165 1,8856 2,9200 4,3027 6,9646 9,9248 3 0,7649 1,6377 2,3534 3,1824 4,5407 5,8409 4 0,7407 1,5332 2,1318 2,7764 3,7469 4,6041 5 0,7267 1,4759 2,0150 2,5706 3,3649 4,0321 6 0,7176 1,4398 1,9432 2,4469 3,1427 3,7074 7 0,7111 1,4149 1,8946 2,3646 2,9980 3,4995 8 0,7064 1,3968 1,8595 2,3060 2,8965 3,3554 9 0,7027 1,3830 1,8331 2,2622 2,8214 3,2498 10 0,6998 1,3722 1,8125 2,2281 2,7638 3,1693 11 0,6974 1,3634 1,7959 2,2010 2,7181 3,1058 12 0,6955 1,3562 1,7823 2,1788 2,6810 3,0545 13 0,6938 1,3502 1,7709 2,1604 2,6503 3,0123 14 0,6924 1,3450 1,7613 2,1448 2,6245 2,9768 15 0,6912 1,3406 1,7531 2,1314 2,6025 2,9467 16 0,6901 1,3368 1,7459 2,1199 2,5835 2,9208 17 0,6892 1,3334 1,7396 2,1098 2,5669 2,8982 18 0,6884 1,3304 1,7341 2,1009 2,5524 2,8784 26 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi La verifica delle ipotesi Esempio (sulla media) La frequenza cardiaca (battiti al minuto, bpm) dei maschi giovani sani segue una distribuzione Normale con media µ=72 bpm. Si misura la frequenza cardiaca su un campione di 12 atleti maschi e si ottiene una media µ=68,7 bpm e una varianza corretta s2=75,12. Si verifichi, con significatività α=0,05, che la frequenza cardiaca degli atleti è diversa da quella della popolazione di tutti i maschi sani. H0: µ = 72 H1: µ ≠ 72 x = 68,7 α = 0,05 s = 75,12 = 8,67 X ~N n =12 x − µ0 68,7 − 72 −3,3 = = −1,32 = s 2,5 8,67 n 12 dalle tavole: t0,025;11 = 2,201 Rifiuto H0 se: x − µ0 > tα ;11 s 2 n Non rifiuto H027 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) Lezione 22 – La verifica delle ipotesi m. m. gherghi gherghi La verifica delle ipotesi Il lemma di Neyman-Pearson Nella maggior parte dei casi, il test delle ipotesi viene costruito in modo che l’ipotesi nulla giochi un ruolo più importante dell’ipotesi alternativa nel problema di decisione che si intende affrontare. Questo significa che i due tipi di errore in cui è possibile incorrere non vengono considerati ugualmente importanti, poiché l ’ errore di I tipo si suppone avere conseguenze più gravi di quelle legate all’errore di II tipo. Neyman e Pearson propongono allora di prefissare un livello a di probabilità di commettere l’errore di I tipo e successivamente, condizionatamente al valore di a fissato, scegliere il test che minimizza la probabilità b di commettere l’errore di II tipo. In base al principio di Neyman-Pearson è quindi possibile definire una regione critica ottimale, scegliendo, tra i possibili test alternativi caratterizzati dallo stesso livello di significatività a, quello per il quale la probabilità b risulta minima; Una regione critica con potenza superiore a qualunque altra regione per un test di livello a viene definita regione critica ottimale e il test ad essa associato viene indicato come il test più potente. da Orsi, pagg. 393-394 28 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi La verifica delle ipotesi Esempio (sulla proporzione) In una scommessa con un amico, lanciando 100 volte una moneta si sono ottenute 54 teste. Abbiamo il sospetto che l’amico ci abbia ingannati utilizzando una moneta truccata. Si verifichi questa ipotesi ad un livello di significatività α=0,1. H0: π = 0,5 H1: π > 0,5 n=100 p~N α = 0,10 Rifiuto H0 se: π 0 ⋅ (1 − π 0 ) 10% = n p pc 0,80 < 1,28 10% zα p−π π ⋅ (1 − π ) n > zα n p − π0 0 π 0 ⋅ (1 − π 0 ) zα = 1,28 p =0,54 0,50 p − π0 0,54 − 0,50 0,50 ⋅ (1 − 0,50 ) 100 = 0, 80 Non rifiuto H0 Supponiamo che io non consideri, a priori, alcun livello di significatività ma che, sulla base del risultato campionario, decida di accusare l’amico di utilizzare una moneta truccata. Qual è la probabilità che lo stia 29 accusando ingiustamente? Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi La verifica delle ipotesi Esempio (sulla proporzione) In una scommessa con un amico, lanciando 100 volte una moneta si sono ottenute 54 teste. Abbiamo il sospetto che l’amico ci abbia ingannati utilizzando una moneta truccata. Si verifichi questa ipotesi ad un livello di significatività α=0,1. H0: π = 0,5 H1: π > 0,5 n=100 p~N arbitraria ⎛ ⎜ p−π ⎜ ≥ P p ≥ 0,54 = P ⎜ ⎜ π ⋅ (1 − π ) ⎜ n ⎝ p =0,54 ( ) Livello di significatività “osservato” 0,5 Rifiuto H0 se il valore campionario mi sembra “eccessivo” 0,54 = 0,21 ⎞ ⎟ 0,54 − 0,5 ⎟ = P ( Z ≥ 0,80) ⎟ 0,5 ⋅ (1 − 0,5) ⎟ ⎟ 100 ⎠ p-value p Orsi, pag. 387 Più piccolo è il p-value, più “distante” risulta essere il valore campionario osservato da quanto ci si aspetta sotto H0, e quindi più problematico diventa accettare questa discrepanza come attribuibile alla sola aleatorietà campionaria. Il p-value è la probabilità di commettere un errore nel rifiutare l’ipotesi nulla sulla base del risultato campionario. 30 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi La verifica delle ipotesi Il p-value La durata delle lampadine prodotte da una certa azienda ha media pari a 2000 ore e deviazione standard pari a 250 ore. La produzione dell’ultima settimana è stata effettuata impiegando un nuovo tipo di materiale sulla cui qualità il responsabile della produzione avanza seri dubbi. Prima di mettere in vendita le lampadine prodotte si desidera, dunque, indagare sulla qualità del materiale impiegato e, in particolare, verificare se possa avere influito sulla durata delle lampadine. Si esamina allora un campione casuale di 100 lampadine prese dalla produzione settimanale e se ne misura la durata media, che risulta pari a 1955 ore. Qual è la probabilità di errore nell’affermare che tale riduzione sia imputabile alla scarsa qualità del materiale utilizzato? µ =2000 σ =250 H0: µ = 2000 H1: µ < 2000 x = 1955 n =100 arbitraria X ~N ⎛ ⎞ ⎜ X − µ 1955 − 2000 ⎟ ≤ P X ≤ 1955 = P ⎜ ⎟ = P ( Z ≤ −1,8) = 0, 036 σ 250 ⎜ ⎟ n 100 ⎠ ⎝ ( 1955 -1,8 Rifiuto H0 se la probabilità di errore associata al valore campionario osservato risulta troppo elevata. 2000 0 ) X Z = p-value X −µ σ n 0,036 La percentuale di errore nel rifiutare l’ipotesi H0 sulla base del valore campionario osservato è del 3,6%. La decisione se rifiutare o meno H0 dipenderà dunque da quanto 31 noi consideriamo piccola (o grande) questa percentuale, ed è quindi arbitraria, a differenza della quantificazione del rischio, che è invece oggettiva. Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi I test non parametrici • Il test chi-quadrato sull’indipendenza fra mutabili Si riporta, di seguito, la tabella che incrocia il Voto di laurea con l’Occupazione (al momento dell’intervista) di 382 laureati della Facoltà di Economia. E’ possibile affermare, con un livello di significatività a=0,05, che esiste relazione tra i due caratteri osservati? Conteggio VOTO Meno di 96 VOTO 96-105 106-110 110 e lode Totale OCCUPAZIONEATTUALE ATTUALE OCCUPAZIONE Non occupato Precario Occ. stabile 22 19 29 61 57 51 25 23 25 22 20 28 130 119 133 Totale 70 169 73 70 382 32 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi I test non parametrici • Il test chi-quadrato sull’indipendenza fra mutabili Conteggio VOTO Meno di 96 VOTO 96-105 106-110 110 e lode Totale OCCUPAZIONEATTUALE ATTUALE OCCUPAZIONE Non occupato Precario Occ. stabile 22 19 29 61 57 51 25 23 25 22 20 28 130 119 133 α = 0,05 Totale 70 169 73 70 382 VOTO Meno di 96 96-105 106-110 110 e lode Totale (n ∑∑ ij i j − n ij n ij χ2 = ∑ ∑ i Conteggio % Conteggio % Conteggio % Conteggio % Conteggio % j ( nij − n ij n ij ) 2 =3,84 OCCUPAZIONE ATTUALE Non occupato Precario Occ. stabile 22 19 29 31,4% 27,1% 41,4% 61 57 51 36,1% 33,7% 30,2% 25 23 25 34,2% 31,5% 34,2% 22 20 28 31,4% 28,6% 40,0% 130 119 133 34,0% 31,2% 34,8% Totale 70 100,0% 169 100,0% 73 100,0% 70 100,0% 382 100,0% ) 2 33 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi I test non parametrici Tavola della distribuzione Gradi di libertà χ2 Area nella coda destra 0,995 0,990 0,975 0,950 0,900 0,750 0,250 0,100 0,050 0,025 0,010 0,004 0,103 0,352 0,711 1,145 1,635 2,167 2,733 3,325 3,940 0,016 0,211 0,584 1,064 1,610 2,204 2,833 3,490 4,168 4,865 0,102 0,575 1,213 1,923 2,675 3,455 4,255 5,071 5,899 6,737 1,323 2,773 4,108 5,385 6,626 7,841 9,037 10,219 11,389 12,549 2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684 15,987 3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919 18,307 5,024 7,378 9,348 11,143 12,833 14,449 16,013 17,535 19,023 20,483 6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 1 2 3 4 5 6 7 8 9 10 0,072 0,207 0,412 0,676 0,989 1,344 1,735 2,156 0,115 0,297 0,554 0,872 1,239 1,646 2,088 2,558 0,001 0,051 0,216 0,484 0,831 1,237 1,690 2,180 2,700 3,247 11 12 13 14 15 16 17 18 19 20 2,603 3,074 3,565 4,075 4,601 5,142 5,697 6,265 6,844 7,434 3,053 3,571 4,107 4,660 5,229 5,812 6,408 7,015 7,633 8,260 3,816 4,404 5,009 5,629 6,262 6,908 7,564 8,231 8,907 9,591 4,575 5,226 5,892 6,571 7,261 7,962 8,672 9,390 10,117 10,851 5,578 6,304 7,042 7,790 8,547 9,312 10,085 10,865 11,651 12,443 7,584 8,438 9,299 10,165 11,037 11,912 12,792 13,675 14,562 15,452 13,701 14,845 15,984 17,117 18,245 19,369 20,489 21,605 22,718 23,828 17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 21,920 23,337 24,736 26,119 27,488 28,845 30,191 31,526 32,852 34,170 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 21 22 8,034 8,643 8,897 9,542 10,283 10,982 11,591 12,338 13,240 14,041 16,344 17,240 24,935 26,039 29,615 30,813 32,671 33,924 35,479 36,781 38,932 40,289 34 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi I test non parametrici • Il test chi-quadrato sull’indipendenza fra mutabili Conteggio VOTO Meno di 96 VOTO 96-105 106-110 110 e lode Totale OCCUPAZIONEATTUALE ATTUALE OCCUPAZIONE Non occupato Precario Occ. stabile 22 19 29 61 57 51 25 23 25 22 20 28 130 119 133 α = 0,05 2 χ0,05;6 VOTO Meno di 96 96-105 = 12,59 106-110 110 e lode 1-α α 12,59 Totale (n ∑∑ ij i Zona di accettazione Totale 70 169 73 70 382 j − n ij n ij χ2 = ∑ ∑ i Conteggio % Conteggio % Conteggio % Conteggio % Conteggio % j ( nij − n ij n ij ) 2 =3,84 OCCUPAZIONE ATTUALE Non occupato Precario Occ. stabile 22 19 29 31,4% 27,1% 41,4% 61 57 51 36,1% 33,7% 30,2% 25 23 25 34,2% 31,5% 34,2% 22 20 28 31,4% 28,6% 40,0% 130 119 133 34,0% 31,2% 34,8% Totale 70 100,0% 169 100,0% 73 100,0% 70 100,0% 382 100,0% ) 2 Zona di rifiuto 35 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi I test non parametrici • Il test chi-quadrato sull’indipendenza fra mutabili Conteggio VOTO Meno di 96 VOTO 96-105 106-110 110 e lode Totale OCCUPAZIONEATTUALE ATTUALE OCCUPAZIONE Non occupato Precario Occ. stabile 22 19 29 61 57 51 25 23 25 22 20 28 130 119 133 α = 0,05 2 χ0,05;6 VOTO = 12,59 106-110 110 e lode α 12,59 Totale (n ∑∑ ij i Zona di accettazione Meno di 96 96-105 1-α 3,84 Totale 70 169 73 70 382 Zona di rifiuto j − n ij n ij χ2 = ∑ ∑ i Conteggio % Conteggio % Conteggio % Conteggio % Conteggio % j ( nij − n ij n ij ) 2 =3,84 OCCUPAZIONE ATTUALE Non occupato Precario Occ. stabile 22 19 29 31,4% 27,1% 41,4% 61 57 51 36,1% 33,7% 30,2% 25 23 25 34,2% 31,5% 34,2% 22 20 28 31,4% 28,6% 40,0% 130 119 133 34,0% 31,2% 34,8% Totale 70 100,0% 169 100,0% 73 100,0% 70 100,0% 382 100,0% ) 2 Non rifiuto l’ipotesi H0 di indipendenza fra le mutabili 36 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi I test non parametrici • Il test chi-quadrato sull’indipendenza fra mutabili Conteggio VOTO Meno di 96 VOTO 96-105 106-110 110 e lode Totale OCCUPAZIONEATTUALE ATTUALE OCCUPAZIONE Non occupato Precario Occ. stabile 22 19 29 61 57 51 25 23 25 22 20 28 130 119 133 α = 0,05 2 χ0,05;6 VOTO = 12,59 106-110 110 e lode α 12,59 Totale (n ∑∑ ij i Zona di accettazione Meno di 96 96-105 1-α 3,84 Totale 70 169 73 70 382 Zona di rifiuto j − n ij n ij χ2 = ∑ ∑ i Conteggio % Conteggio % Conteggio % Conteggio % Conteggio % j ( nij − n ij n ij ) 2 =3,84 OCCUPAZIONE ATTUALE Non occupato Precario Occ. stabile 22 19 29 31,4% 27,1% 41,4% 61 57 51 36,1% 33,7% 30,2% 25 23 25 34,2% 31,5% 34,2% 22 20 28 31,4% 28,6% 40,0% 130 119 133 34,0% 31,2% 34,8% Totale 70 100,0% 169 100,0% 73 100,0% 70 100,0% 382 100,0% ) 2 Supponiamo che, sulla base di questo risultato campionario, io decida comunque di rifiutare l’ipotesi di indipendenza e concluda per l’associazione tra le mutabili considerate. Qual è la probabilità che stia commettendo 37 un errore? Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi I test non parametrici • Il test chi-quadrato sull’indipendenza fra mutabili Conteggio VOTO Meno di 96 VOTO 96-105 106-110 110 e lode Totale OCCUPAZIONEATTUALE ATTUALE OCCUPAZIONE Non occupato Precario Occ. stabile 22 19 29 61 57 51 25 23 25 22 20 28 130 119 133 Totale 70 169 73 70 382 VOTO Meno di 96 96-105 p-value 106-110 110 e lode Totale 3,84 (n ∑∑ ij i j − n ij n ij χ2 = ∑ ∑ i Conteggio % Conteggio % Conteggio % Conteggio % Conteggio % j ( nij − n ij n ij ) 2 =3,84 OCCUPAZIONE ATTUALE Non occupato Precario Occ. stabile 22 19 29 31,4% 27,1% 41,4% 61 57 51 36,1% 33,7% 30,2% 25 23 25 34,2% 31,5% 34,2% 22 20 28 31,4% 28,6% 40,0% 130 119 133 34,0% 31,2% 34,8% Totale 70 100,0% 169 100,0% 73 100,0% 70 100,0% 382 100,0% ) 2 Il p-value è la probabilità di commettere un errore nel rifiutare l’ipotesi H0 sulla base del valore campionario osservato. Quanto più è piccolo, tanto più tenderemo a rifiutare H0. 38 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi I test non parametrici Tavola della distribuzione Gradi di libertà χ2 Area nella coda destra 0,995 0,990 0,975 0,950 0,900 0,750 0,250 0,100 0,050 0,025 0,010 0,004 0,103 0,352 0,711 1,145 1,635 2,167 2,733 3,325 3,940 0,016 0,211 0,584 1,064 1,610 2,204 2,833 3,490 4,168 4,865 0,102 0,575 1,213 1,923 2,675 3,455 4,255 5,071 5,899 6,737 1,323 2,773 4,108 5,385 6,626 7,841 9,037 10,219 11,389 12,549 2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684 15,987 3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919 18,307 5,024 7,378 9,348 11,143 12,833 14,449 16,013 17,535 19,023 20,483 6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 1 2 3 4 5 6 7 8 9 10 0,072 0,207 0,412 0,676 0,989 1,344 1,735 2,156 0,115 0,297 0,554 0,872 1,239 1,646 2,088 2,558 0,001 0,051 0,216 0,484 0,831 1,237 1,690 2,180 2,700 3,247 11 12 13 14 15 16 17 18 19 20 2,603 3,074 3,565 4,075 4,601 5,142 5,697 6,265 6,844 7,434 3,053 3,571 4,107 4,660 5,229 5,812 6,408 7,015 7,633 8,260 3,816 4,404 5,009 5,629 6,262 6,908 7,564 8,231 8,907 9,591 4,575 5,226 5,892 6,571 7,261 7,962 8,672 9,390 10,117 10,851 5,578 6,304 7,042 7,790 8,547 9,312 10,085 10,865 11,651 12,443 7,584 8,438 9,299 10,165 11,037 11,912 12,792 13,675 14,562 15,452 13,701 14,845 15,984 17,117 18,245 19,369 20,489 21,605 22,718 23,828 17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 21,920 23,337 24,736 26,119 27,488 28,845 30,191 31,526 32,852 34,170 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 21 22 8,034 8,643 8,897 9,542 10,283 10,982 11,591 12,338 13,240 14,041 16,344 17,240 24,935 26,039 29,615 30,813 32,671 33,924 35,479 36,781 38,932 40,289 39 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi I test non parametrici • Il test chi-quadrato sull’indipendenza fra mutabili Conteggio VOTO Meno di 96 VOTO 96-105 106-110 110 e lode Totale OCCUPAZIONEATTUALE ATTUALE OCCUPAZIONE Non occupato Precario Occ. stabile 22 19 29 61 57 51 25 23 25 22 20 28 130 119 133 Totale 70 169 73 70 382 VOTO Meno di 96 96-105 p-value 106-110 110 e lode Totale 3,84 ∑∑ i j (n ij χ2 = ∑ ∑ i Conteggio % Conteggio % Conteggio % Conteggio % Conteggio % j ( nij − n ij n ij ) 2 =3,84 OCCUPAZIONE ATTUALE Non occupato Precario Occ. stabile 22 19 29 31,4% 27,1% 41,4% 61 57 51 36,1% 33,7% 30,2% 25 23 25 34,2% 31,5% 34,2% 22 20 28 31,4% 28,6% 40,0% 130 119 133 34,0% 31,2% 34,8% − n% ij ) n% ij Totale 70 100,0% 169 100,0% 73 100,0% 70 100,0% 382 100,0% 2 Il p-value è la probabilità di commettere un errore nel rifiutare l’ipotesi H0 sulla base del valore campionario osservato. Quanto più è piccolo, tanto più tenderemo a rifiutare H0. Chi-quadrato Chi-quadrato di Pearson Valore 3,835 df 6 Sig. ,699 40 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi I test non parametrici • Il test chi-quadrato sull’indipendenza fra mutabili Si riporta, di seguito, la tabella che incrocia il Voto di laurea con la Frequenza alle lezioni di 382 laureati della Facoltà di Economia. E’ possibile affermare che esiste relazione tra i due caratteri osservati? VOTO VOTO FREQ. FREQ. <30% delle lez. % 30-50% delle lez. % Meno di 96 43 25,7% 27 17,0% >50% delle lez. % Totale % 70 18,3% 96-105 82 49,1% 68 42,8% 19 33,9% 169 44,2% 106-110 29 17,4% 31 19,5% 13 23,2% 73 19,1% 110 e lode 13 7,8% 33 20,8% 24 42,9% 70 18,3% Totale 167 100,0% 159 100,0% 56 100,0% 382 100,0% 41 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi I test non parametrici • Il test chi-quadrato sull’indipendenza fra mutabili FREQ. FREQ. <30% delle lez. % 30-50% delle lez. % Meno di 96 43 25,7% 27 17,0% >50% delle lez. % Totale % 70 18,3% VOTO VOTO 96-105 106-110 82 29 49,1% 17,4% 68 31 42,8% 19,5% 19 13 33,9% 23,2% 169 73 44,2% 19,1% 110 e lode 13 7,8% 33 20,8% 24 42,9% 70 18,3% Totale 167 100,0% 159 100,0% 56 100,0% 382 100,0% χ2 = ∑ ∑ i ( nij − n ij j n ij ) 2 = 47,56 Chi-quadrato Chi-quadrato di Pearson Valore 47,559 df Sig. ,000 6 La probabilità di errore nel rifiutare l’ipotesi di indipendenza è quasi nulla (p<0,001). L’ipotesi di indipendenza viene dunque senz’altro rifiutata. 47,56 (n ∑∑ ij i j − n ij n ij ) 2 42 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi I test non parametrici • Il test chi-quadrato sull’adattamento ad una distribuzione nota In 600 lanci di un dado si sono ottenuti i risultati riportati in tabella. Determinare, con significatività α=0,05, se il dado può considerarsi truccato. Risultato Freq. Osservate 1 2 3 4 5 6 94 123 88 102 115 78 Dado non truccato Distribuzione uniforme dei risultati Risultato 1 2 3 4 5 6 Freq. Osservate 94 123 88 102 115 78 Freq. Teoriche 100 100 100 100 100 100 χ2 (n = ∑∑ ij i j − n ij n ij ) 2 (94 − 100 ) = 2 100 (123 − 100 ) + 2 100 (88 − 100 ) + 2 100 = 0,36 + 5,29 + 1, 44 + 0,04 + 2,25 + 4,84 (102 − 100 ) + 2 100 (115 − 100 ) + 2 100 (78 − 100 ) + 2 100 = 14,22 43 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi I test non parametrici Tavola della distribuzione Gradi di libertà χ2 Area nella coda destra 0,995 0,990 0,975 0,950 0,900 0,750 0,250 0,100 0,050 0,025 0,010 0,004 0,103 0,352 0,711 1,145 1,635 2,167 2,733 3,325 3,940 0,016 0,211 0,584 1,064 1,610 2,204 2,833 3,490 4,168 4,865 0,102 0,575 1,213 1,923 2,675 3,455 4,255 5,071 5,899 6,737 1,323 2,773 4,108 5,385 6,626 7,841 9,037 10,219 11,389 12,549 2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684 15,987 3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919 18,307 5,024 7,378 9,348 11,143 12,833 14,449 16,013 17,535 19,023 20,483 6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 1 2 3 4 5 6 7 8 9 10 0,072 0,207 0,412 0,676 0,989 1,344 1,735 2,156 0,115 0,297 0,554 0,872 1,239 1,646 2,088 2,558 0,001 0,051 0,216 0,484 0,831 1,237 1,690 2,180 2,700 3,247 11 12 13 14 15 16 17 18 19 20 2,603 3,074 3,565 4,075 4,601 5,142 5,697 6,265 6,844 7,434 3,053 3,571 4,107 4,660 5,229 5,812 6,408 7,015 7,633 8,260 3,816 4,404 5,009 5,629 6,262 6,908 7,564 8,231 8,907 9,591 4,575 5,226 5,892 6,571 7,261 7,962 8,672 9,390 10,117 10,851 5,578 6,304 7,042 7,790 8,547 9,312 10,085 10,865 11,651 12,443 7,584 8,438 9,299 10,165 11,037 11,912 12,792 13,675 14,562 15,452 13,701 14,845 15,984 17,117 18,245 19,369 20,489 21,605 22,718 23,828 17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 21,920 23,337 24,736 26,119 27,488 28,845 30,191 31,526 32,852 34,170 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 21 22 8,034 8,643 8,897 9,542 10,283 10,982 11,591 12,338 13,240 14,041 16,344 17,240 24,935 26,039 29,615 30,813 32,671 33,924 35,479 36,781 38,932 40,289 44 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi I test non parametrici • Il test chi-quadrato sull’adattamento ad una distribuzione nota In 600 lanci di un dado si sono ottenuti i risultati riportati in tabella. Determinare, con significatività α=0,05, se il dado può considerarsi truccato. Risultato Freq. Osservate 1 2 3 4 5 6 94 123 88 102 115 78 Dado non truccato Risultato Distribuzione uniforme dei risultati 1 2 3 4 5 6 Freq. Osservate 94 123 88 102 115 78 Freq. Teoriche 100 100 100 100 100 100 χ2 = ∑ ∑ i j (n ij 2 2 2 2 2 2 − n% 94 − 100 ) 123 − 100 ) 88 − 100 ) 102 − 100 ) 115 − 100 ) 78 − 100 ) ij ) ( ( ( ( ( ( = + + + + + 100 100 100 100 100 100 n% ij 2 = 0,36 + 5,29 + 1, 44 + 0,04 + 2,25 + 4,84 2 χ0,05;5 = 11,07 14,22>11,07 = 14,22 Rifiuto l’ipotesi di distribuzione uniforme (quindi concludo che il dado è truccato) 45 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi I test non parametrici • Il test chi-quadrato sull’adattamento ad una distribuzione nota In 600 lanci di un dado si sono ottenuti i risultati riportati in tabella. Determinare, con significatività α=0,05, se il dado può considerarsi truccato. Risultato Freq. Osservate 1 2 3 4 5 6 94 123 88 102 115 78 Dado non truccato Risultato Distribuzione uniforme dei risultati 1 2 3 4 5 6 Freq. Osservate 94 123 88 102 115 78 Freq. Teoriche 100 100 100 100 100 100 χ2 = ∑ ∑ i j (n ij 2 2 2 2 2 2 − n% 94 − 100 ) 123 − 100 ) 88 − 100 ) 102 − 100 ) 115 − 100 ) 78 − 100 ) ij ) ( ( ( ( ( ( = + + + + + 100 100 100 100 100 100 n% ij 2 = 0,36 + 5,29 + 1, 44 + 0,04 + 2,25 + 4,84 p-value? = 14,22 46 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi I test non parametrici Tavola della distribuzione Gradi di libertà χ2 Area nella coda destra 0,995 0,990 0,975 0,950 0,900 0,750 0,250 0,100 0,050 0,025 0,010 0,004 0,103 0,352 0,711 1,145 1,635 2,167 2,733 3,325 3,940 0,016 0,211 0,584 1,064 1,610 2,204 2,833 3,490 4,168 4,865 0,102 0,575 1,213 1,923 2,675 3,455 4,255 5,071 5,899 6,737 1,323 2,773 4,108 5,385 6,626 7,841 9,037 10,219 11,389 12,549 2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684 15,987 3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919 18,307 5,024 7,378 9,348 11,143 12,833 14,449 16,013 17,535 19,023 20,483 6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 1 2 3 4 5 6 7 8 9 10 0,072 0,207 0,412 0,676 0,989 1,344 1,735 2,156 0,115 0,297 0,554 0,872 1,239 1,646 2,088 2,558 0,001 0,051 0,216 0,484 0,831 1,237 1,690 2,180 2,700 3,247 11 12 13 14 15 16 17 18 19 20 2,603 3,074 3,565 4,075 4,601 5,142 5,697 6,265 6,844 7,434 3,053 3,571 4,107 4,660 5,229 5,812 6,408 7,015 7,633 8,260 3,816 4,404 5,009 5,629 6,262 6,908 7,564 8,231 8,907 9,591 4,575 5,226 5,892 6,571 7,261 7,962 8,672 9,390 10,117 10,851 5,578 6,304 7,042 7,790 8,547 9,312 10,085 10,865 11,651 12,443 7,584 8,438 9,299 10,165 11,037 11,912 12,792 13,675 14,562 15,452 13,701 14,845 15,984 17,117 18,245 19,369 20,489 21,605 22,718 23,828 17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 21,920 23,337 24,736 26,119 27,488 28,845 30,191 31,526 32,852 34,170 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 21 22 8,034 8,643 8,897 9,542 10,283 10,982 11,591 12,338 13,240 14,041 16,344 17,240 24,935 26,039 29,615 30,813 32,671 33,924 35,479 36,781 38,932 40,289 47 Universitàdi Università diNapoli NapoliFederico Federico II,II, Facoltà Facoltà di Economia, di Economia, AnnoAnno accademico accademico 2011-’12, 2005-’06, Corso diCorso STATISTICA di Statistica (A-D) di base (A-D) m. m. gherghi gherghi Lezione 22 – La verifica delle ipotesi I test non parametrici • Il test chi-quadrato sull’adattamento ad una distribuzione nota In 600 lanci di un dado si sono ottenuti i risultati riportati in tabella. Determinare, con significatività α=0,05, se il dado può considerarsi truccato. Risultato Freq. Osservate 1 2 3 4 5 6 94 123 88 102 115 78 χ2 2,5% 12,8 15,1 1,0% ∑∑ i 14,2 j (n ij − n% ij ) n% ij = 14,22 p-value? La probabilità di errore nel rifiutare l’ipotesi di indipendenza, sulla base del valore campionario osservato (14,22), è dunque pari a circa 0,015. 2 48