16/04/2013 STATISTICA A – D (72 ore) Verifica d’ipotesi Marco Riani [email protected] http://www.riani.it Formalizzazione di un test = parametro ignoto dell’universo (ad es.: , ) (=probabilità di rispondere correttamente ai quiz) T = indice campionario (ad es: P) statistica test (è variabile aleatoria) (X=numero risposte corrette nel test) ipotesi da sottoporre a verifica H0: = 0 ( =0.25) 0 = valore fissato a priori in base al problema (non dipende dai dati) H0 = ipotesi nulla • Distribuzione campionaria di T suddivisa in 2 zone: • zona di rifiuto di H0 (“regione critica”) = insieme di valori di T a cui è associata una piccola probabilità di verificarsi se H0 è vera; • zona di accettazione di H0 = comprende i restanti valori di T. Marco Riani, Univ. di Parma H0 e H1 • H1 = ipotesi alternativa ipotesi che contraddice H0 H1: ≠ 0 alternativa bilaterale H1: > 0 alternativa unilaterale destra H1: < 0 alternativa unilaterale sinistra La scelta di H1 è di tipo logico e non dipende dai dati • In pratica si osserva lo specifico valore T=t Se: • t cade nella zona di rifiuto si ritiene H0 falsa (e H1 vera) • t cade nella zona di accettazione non si può ritenere H0 falsa (“accetto” H0) 1 16/04/2013 Approccio “diretto” Conclusioni (p. 89) Realtà H0 è vera Accetto H0 Decisione corretta H0 è falsa Errore di seconda specie Rifiuto H0 Errore di prima specie Decisione corretta • si fissa sufficientemente piccolo (ad es: = 0,05; = 0,01) • si definiscono le corrispondenti zone di rifiuto e di accettazione tramite la distribuzione campionaria della v.a. T Livello di significatività () = probabilità di commettere un errore di prima specie Interpretazione: principio del campionamento ripetuto • si prende una decisione in base al valore osservato nel campione T = t Approccio “inverso” • Livello di significatività osservato (P-value) = probabilità che la v.a. T assuma valori più estremi di quello osservato nel campione (tobs) quando H0 è vera. P - value • H1 unilaterale destra H1: > 0 P-value = P{T tobs, dato che = 0}. f(t) P-value Pr(T>tobs) tobs P - value • H1 unilaterale sinistra H1: < 0 P-value = P{T tobs, dato che = 0}. P - value • H1 bilaterale: H1: ≠ 0 • P-value = P{T |tobs|, dato che = 0} + P{T |tobs|, dato che = 0} f(t) Pr(T<tobs) Pr(T<-|tobs|) Pr(T>|tobs|) tobs -|tobs| Marco Riani, Univ. di Parma +|tobs| 2 16/04/2013 TEST SULLA MEDIA (grandi campioni) Significato P-value: evidenza campionaria contro H0 se il P-value è piccolo rifiuto H0 H0: = 0 (0 = valore prefissato, in es. confezioni 0 =200 g) Consideriamo come statistica-test la media campionaria che, sotto H0, gode delle seguenti proprietà: E( X ) 0 V. Pag. 92 VAR ( X ) 2 Z(X ) n X 0 n ~ N (0,1) Quindi la media campionaria standardizata secondo H0 è distribuita secondo N(0,1). Rifiutiamo H0 quando osserviamo medie campionarie lontane da 0 → medie campionarie standardizzate lontane da 0→ sulle code della distribuzione → legate a probabilità basse. Ad esempio: H1: ≠ 0 • Calcolo sui dati di: Scostamento standardizzato: x 2 s cor s( X ) s cor n x 0 z( x ) s cor n Se α/2 1-α α/2 1-α α/2 -z(α/2) Rifuto 0 Accetto H0 α/2 Se +z(α/2) accettazione Rifiuto -z(α/2) 0 Rifuto 2 approcci H1: ≠ 0 +z(α/2) accettazione Rifiuto Rifiuto H0 Esempio 1: macchina riempitrice tarata su 200 g H0: = 200 H1: ≠ 200 • APPROCCIO DIRETTO: si fissa α (livello di significatività) Campione=100 confezioni scor 8g x 199 g • APPROCCIO INVERSO: si fornisce il p value Marco Riani, Univ. di Parma z( x ) x 0 s cor n z( x ) s( X ) 0,8g 199 200 1,25 0,8 3 16/04/2013 Approccio inverso: P-value Approccio diretto si fissa = 0,05 1,96 0,025 z(0,025) = 0,025 -1,96 -1,25 0 z( x ) 199 200 1,25 0,8 +1,96 -1,25 non è un valore estremo cade infatti nella zona di accettazione il campione non dà evidenza per rifiutare H0 e non possiamo dire che il processo è fuori controllo -1,25 H0: = 6,3 giorni H1: < 6,3 si riduce l’assenteismo x 0 s cor s( X ) = 0,25 5,5 6,3 z( x ) 3,2 0,25 n +1,25 H1: < 6,3 si fissa = 0,05 z( x ) Campione =100 dipendenti: x = 5,5 giorni, scor = 2,5 0 Approccio diretto Esempio 2: valutazione orario flessibile z( x ) Pvalue alto (molto maggiore di 5% o 1%) differenza tra media campionaria =199g e 0 = 200g non è significativa il processo di produzione è sotto controllo 5,5 6,3 3,2 0,25 -z(0,05) = -1,64 0,05 -3,2 -1,64 -1,64 00 -3,2 è un valore estremo cade infatti nella zona di rifiuto rifiutiamo H0 e concludiamo che con l’orario flessibile l’assenteismo si riduce Approccio inverso Calcolo del P-value H1: < 6,3 • P-value = P{Z( X ) ≤ -3,2} = F(-3,2) = 0,00069 valore molto basso (molto minore dell’ 1%) differenza tra X =5,5 giorni e 0 = 6,3 giorni è significativa l’orario flessibile porta a una riduzione dell’assenteismo -3,2 -1,64 TEST SULLA MEDIA piccoli campioni 0 Marco Riani, Univ. di Parma 4 16/04/2013 TEST SULLA MEDIA (piccoli campioni) Assunzione: distribuzione Normale dell’universo TEST SULLA MEDIA (piccoli campioni) • Valutare assunzione che il fenomeno considerato presenti nell’ universo distribuzione Normale. H0: = 0 (0 = valore prefissato, in es confezioni 0 = 200g) Consideriamo come statistica-test la media campionaria che, sotto H0, gode delle seguenti proprieta’: Z( X ) E( X ) 0 , VAR ( X ) 2 n , X 0 scor / n ~ t(n 1) oppure Z(X ) X 0 / n ~ N(0,1) Esempio 1: macchina riempitrice tarata su 200 g H0: = 200 (valore standard) H1: ≠ 200 (valore fuori controllo) Campione=12 confezioni x =207,75g, scor = 11,14g, X 0 Z( X ) scor / n z( x ) • Se invece σ non è noto e lo si stima con scor , la media campionaria standardizzata si distribuisce secondo t(n1). Le zone di rifiuto e di “accettazione” devono quindi essere definite con riferimento alla v.a. t(n 1) (NON z) calcolo t(): F[-t(/2)] = /2 Rifiutiamo H0 quando osserviamo medie campionarie lontane da 0 → medie campionarie standardizzate lontane da 0→ sulle code della distribuzione → legate a probabilità basse. Approccio diretto = 0,05 t0,025 (11)= 2,201 oppure = 0,01 t0,005(11) = 3,106 Nel campione: s(X ) =3,22 z( x ) 207.75 200 2,41 3.22 Distribuzione normale dei pesi assunzione ragionevole • Se si vuole test con = 0,05 z( x ) = 2,41 è un valore estremo cade infatti nella zona di rifiuto rifiutiamo H0 e concludiamo che il processo è fuori controllo; • Se si vuole test con = 0,01 z( x ) = 2,41 NON è un valore estremo cade infatti nella zona di accettazione non possiamo rifiutare H0 e NON possiamo concludere che il processo è fuori controllo. Marco Riani, Univ. di Parma • Se σ2 è noto la media campionaria standardizzata secondo H0 è Normale. -3,106 -2,201 0 207,75 200 2,41 3,22 2,201 +3,106 Approccio inverso: P-value P-value = P{ Z (X ) +2,41} + P{ Z (X ) 2,41} = 2P{ Z (X ) +2,41} Dalle tavole della t con 11 gradi di liberta’: 0,02 < P-value < 0,05 Discreta (ma non fortissima) evidenza contro H0 decisione incerta 5 16/04/2013 Esercizio Soluzione • Il contenuto di nicotina di una certa marca di sigarette è 0,25 milligrammi con una deviazione standard di 0,015. Un’associazione di consumatori sostiene che il contenuto di nicotina dichiarato è al di sotto di quello effettivo. Si effettui il test opportuno sapendo che in un campione casuale di 20 sigarette si è osservata una media campionaria pari a 0,264 milligrammi. • Si ponga α=0,01 • Si calcoli il relativo p-value H1: > 0,25 α=0,01 F(2,33)=0,99 Densità della v.c. normale standardizzata H0: = 0,25 milligrammi H1: > 0,25 contenuto superiore a quello dichiarato x 0,264 σ=0,015 noto a priori n=20 Ip. di distribuzione normale Z(X ) Z(x) X 0 ~ N (0,1) / n 0,264 0,25 4,17 0,015 / 20 Calcolo del p-value P-value = P{ >4,17} = 1-F(4,17) = 0,00002 valore molto basso (molto minore dell’ 1%) 0,01 Zona di accettazione 0,264 0,25 Z(x) 4,17 0,015 / 20 2,33 Zona di rifiuto tobs= = 4,17 cade nella zona di rifiuto Esercizio • Da una sperimentazione geologica vengono estratte 10 piccole porzioni di roccia che vengono successivamente sottoposte ad analisi per verificare il contenuto percentuale di cadmio. Si osserva una percentuale media di 17,4 di cadmio con scor=4,2. L’estrazione del minerale è economicamente conveniente se il contenuto medio percentuale di cadmio è maggiore di 15. Marco Riani, Univ. di Parma P-value = P{ >4,17} Esercizio (continua) • Si definiscano l’ipotesi nulla e l’ipotesi alternativa • Si stabilisca se le osservazioni campionarie supportano la convenienza economica dello sfruttamento del giacimento (si utilizzi α=0,01) • Si calcoli e si commenti il p-value del test 6 16/04/2013 Soluzione H1: > 15 α=0,01 Ft(9)(2,821)=0,99 H0: 0 = 15 (percentuale di cadmio) H1: 0 > 15 casi in cui è conveniente estrarre il minerale scor=4,2 n=10 x 17,4 Densità della v.c. T di Student con 9 gradi di libertà 0,01 Ip. di distribuzione normale Z(X ) Z(x) X 0 ~ t(9) scor / n 17,4 15 17,4 15 1,807 1,3282 4,2 / 10 Approccio inverso: P-value P-value = P{ Z (X ) +1,807} Dalle tavole della t con 9 gradi di libertà: Ft(9)(1,833)=0,95 Zona di accettazione Z(x) 17,4 15 1,807 4,2 / 10 2,821 Zona di rifiuto tobs= = 1,807 cade nella zona di accettazione Esercizio • Con riferimento all’esercizio precedente si determini la probabilità dell’errore di seconda specie assumendo α=0,01 e µ=16 P-value leggermente superiore a 0,05 Il valore esatto del p-value è 0,052 ottenuto tramite Excel e la funzione distrib.t =distrib.t(1,807;9;1) Soluzione Errore di prima specie (α) errore seconda specie (β) e potenza del test (1-β) • Con riferimento all’esercizio precedente si determini la probabilità dell’errore di seconda specie assumendo α=0,01 e µ=16 • Errore di seconda specie = accettare un’ipotesi nulla falsa • Obiettivo: calcolare la probabilità di accettare l’ipotesi nulla quando µ=16 xα = valore soglia che separa la zona di accettazione dalla zona di rifiuto Marco Riani, Univ. di Parma 7 16/04/2013 Qual è il valore soglia xα che separa la zona di accettazione da quella di rifiuto in termini di valori originari? 0,01 Accetto 2,821 x 15 2,821 4,2 / 10 Densità della v.c. T di Student con 9 gradi di libertà Prob. di accettare l’ipotesi nulla quando µ=16 = prob. di commettere un errore di seconda specie =β prob. di trovare un valore più piccolo di 18,7467 quando µ=16 Che probabilità è associata all’area in verde? Devo calcolare Ft(9) ((18,75-16)/1,3282) =Ft(9) (2,07)=0,966 Rifiuto Il valore soglia xα è 18,7467 In Excel Prob. di accettare l’ipotesi nulla quando µ=16 prob. di trovare un valore più piccolo di 18,7467 quando µ=16 =1-DISTRIB.T(2,07;9;1) Esercizio • Un fornitore di pneumatici sostiene che la durata media di un certo tipo di pneumatici per camion è di 45000 Km. Un’impresa sottopone a test l’affermazione del produttore osservando un campione di 56 pneumatici utilizzati dai propri veicoli. • Qual è la conclusione a cui giunge l’impresa se trova una durata media di 43740 con un scor=2749 km (si ponga α=0,01) • Si calcoli il p-value H1: < 45000 α=0,01 F(-2,33)=0,01 0,01 -2,33 Accetto Rifiuto Il valore osservato del test (-3,43) cade nella zona di rifiuto Soluzione H0: = 45000 Km H1: < 45000 la durata effettiva dei pneumatici è inferiore a quella dichiarata scor=2749 n=56 x 43740 Teorema centrale del limite Z(X ) Z(x) X 0 ~ N(0,1) scor / n 43740 45000 3,43 2749 / 56 Esercizio • Per una generica voce di inventario di una determinata impresa, sia X la differenza tra il valore inventariato ed il valore certificato. Da un campione di 120 voci un certificatore contabile ha ottenuto x=25,3 s2cor=13240 • Si sottoponga a test l’ipotesi che l’inventario non sia gonfiato specificando opportunamente l’ipotesi alternativa (si ponga α=0,01) • Si calcoli il p-value • Si calcoli la prob. di rifiutare l’ipotesi nulla nel caso in cui la vera media di X fosse pari a 30 p-value = F(-3,43) = 0,0003 Marco Riani, Univ. di Parma 8 16/04/2013 H1: > 0 α=0,01 F(2,33)=0,99 Soluzione H0: = 0 H1: > 0 l’inventario è gonfiato x 25,3 scor=115,065 p-value = n=120 1-F(2,41)=0,008 0,01 Teorema centrale del limite Z(X ) Z(x) X 0 ~ N(0,1) scor / n Zona di accettazione 25,3 0 2,4086 115,065 / 120 Z(x) Soluzione (continua) • Si calcoli la prob. di rifiutare l’ipotesi nulla nel caso in cui la vera media di X fosse pari a 30 • Pr che il valore del test cada nella zona di rifiuto quando µ=30 Qual è il valore soglia che xα separa la zona di accettazione da quella di rifiuto in termini di valori originari? 2,33 Zona di rifiuto 25,3 0 = 2,41 cade nella 2,4086 tobs= 115,065 / 120 zona di rifiuto Qual è il valore soglia che xα separa la zona di accettazione da quella di rifiuto in termini di valori originari? 0,01 Accetto x 0 2,33 115,065 / 120 2,33 Rifiuto Il valore soglia xα è 24,474 Prob. di rifiutare l’ipotesi nulla quando µ=30 prob. di trovare un valore più grande di 24,474 quando µ=30 Distribuzione media campionaria quando è vera µ=0 Distribuzione media campionaria quando è vera µ=30 Z(X ) X 0 Z(X ) ~ N(0,1) scor / n X 30 ~ N(0,1) scor / n Esercizi da svolgere per LUN 22 aprile 0,01 24,474 24,474 Area rossa = prob. di rifiutare l’ipotesi nulla quando µ=30 (potenza del test = 1-β)) 24,474 30 1 F 0,70 115,065 / 120 Marco Riani, Univ. di Parma 9 16/04/2013 Esercizio • Una moneta viene lanciata 80 volte, ottenendo 45 volte l’esito «testa». • Al livello di significatività del 5% vi è sufficiente evidenza per ritenere che la moneta sia truccata? Esercizio L’Istituto Superiore di Sanità ha stimato che le spese a carico del Sistema Sanitario Nazionale per la riabilitazione di un paziente che ha avuto un ictus è di 42372 euro. L’amministrazione di una ASL, per verificare se i costi nella ASL sono in linea con la media nazionale, ha raccolto le informazioni sul costo della riabilitazione di 64 pazienti. Il costo medio è risultato pari a 44143 euro con uno scarto quadratico medio (campionario) corretto di 9156 euro. • (a) Calcolare l'intervallo di confidenza al livello del 99% per la vera media dei costi nell’ASL considerata. • (b) Dopo aver impostato l'ipotesi nulla e l'ipotesi alternativa, si testi se la differenza tra il costo medio nazionale e il costo medio stimato nell’ASL è significativa al livello di significatività dell'1%. Commentare i risultati ottenuti. • Come sarebbero cambiate le conclusioni se il livello di significatività fosse stato del 10%? Esercizio • Si consideri la verifica di ipotesi sulla media di una popolazione normale. Si definisce la potenza di un test la probabilità di rifiutare un’ipotesi nulla falsa (ossia la probabilità di non commettere un errore di seconda specie) • Si considerino le seguenti ipotesi nulla e alternativa • H0: =0 • H1: = 1 (con 1 > 0) Marco Riani, Univ. di Parma Esercizio • Di seguito sono riportati i dati di durata (in migliaia di Km) di un convertitore catalitico in un campione di 15 osservazioni. • 115,4 85,2 89,1 118,3 88,4 109,3 104,3 69,3 105,5 106,8 103,1 101,6 102,9 89,6 109,3 • Si verifichi l’ipotesi che la durata media sia pari a 100 contro l’alternativa che essa sia minore. Si assuma un livello di significatività α=0,05. Si calcoli il p-value del test. Esercizio Si assuma che la pressione sistolica media di un adulto sano sia 120 (mm Hg) e lo scarto quadratico medio 5,6. Assumendo che la pressione abbia una distribuzione normale calcolare la probabilità che: • selezionando un individuo sano scelto a caso questi abbia una pressione sistolica superiore a 125; • scegliendo a caso 4 individui, la media della loro pressione sistolica sia superiore a 125; • scegliendo a caso 25 individui, la media della loro pressione sistolica sia superiore a 125; • selezionando 6 individui sani quattro di essi abbiano una pressione inferiore a 125. Errore di prima specie (α) errore seconda specie (β) e potenza del test (1-β) xα = valore soglia che separa la zona di accettazione dalla zona di rifiuto 10 16/04/2013 Quesiti • Si dimostri che la potenza del test (1-β) è – Funzione crescente della dimensione campionaria (n) – Funzione crescente della differenza tra 1 e 0 – Funzione decrescente di σ (standard deviation dell’universo) – Funzione crescente di α (probabilità di commettere errore di prima specie) Esercizio • Nel processo di controllo del peso delle confezioni di un determinato prodotto l’azienda esamina un campione di 800 confezioni e trova che 15 di esse hanno un peso fuori norma. • Si determini l’intervallo di confidenza al 97% della proporzione di pezzi fuori norma. • Si testi, al livello di significatività dell'1%, l'ipotesi che la proporzione di pezzi fuori norma sia pari a 1,25%. • Se la proporzione di pezzi fuori norma nell'universo fosse uguale a 1,5%, effettuando cinque estrazioni – si calcoli la probabilità di trovare esattamente due pezzi fuori norma; – si scriva l'espressione che consente di calcolare la probabilità di ottenere un numero di pezzi fuori norma compreso tra due e quattro (estremi compresi). Esercizio Esercizio • Un ricercatore desidera stimare la media di una popolazione che presenta una deviazione standard σ con un campione di numerosità h in modo tale che sia uguale a 0,90 la probabilità che la media del campione non differisca dalla media della popolazione per più dell'8% della deviazione standard. Si determini h. • Sia X1 X2 X3 un campione casuale estratto dalla distribuzione normale N(2,9). Si calcoli • P(X1+4X2-4X3>8) • P(2X1+4X2-4X3>8) Esercizio Quesiti Un tipo di componente viene fornito in confezioni da 400 pezzi. Ne testiamo un campione di 16 per stimare la frazione di difettosi: vogliamo fare un test al livello di significatività α del 5% che ci permetta di rifiutare l’intera partita se vi è evidenza statistica che i pezzi difettosi (nella confezione) sono più del 15% Marco Riani, Univ. di Parma • Qual `e il parametro incognito su cui basare il test? Come vanno scelte ipotesi nulla e alternativa? Se nel campione si trovano 3 difettosi, cosa si decide? Quanti difettosi si possono accettare al massimo nel campione senza rifiutare la fornitura? • Se una confezione ha il 25% di difettosi, con che probabilità questo test la rifiuta? 11 16/04/2013 Esercizio Esercizio • Si consideri un dado a 20 facce tutte uguali • Qual è il valore atteso? • Quante volte è necessario lanciarlo affinché la probabilità di ottenere almeno un 20 sia maggiore o uguale a 0.5? • Lanciandolo 20 volte, qual è il numero medio di 20 ottenuti? • Pr di ottenere almeno una volta la faccia 20 in 20 lanci? • Nel gioco del lotto un numero ha una probabilità p di uscire ad ogni estrazione. • Si scriva la densità della v.c. che descrive il tempo di attesa dell’uscita del numero all’estrazione k-esima (v. casuale geometrica), k=1, 2, 3, …. • Si dimostri che la somma delle probabilità è 1 • Si calcoli il valore atteso • Si calcoli l’espressione che definisce P(X>k) Esercizio • Dimostrare che nel gioco del lotto la probabilità che siano necessari i+j tentativi prima di ottenere il primo successo, dato che ci sono già stati i insuccessi consecutivi, è uguale alla probabilità non condizionata che almeno j tentativi siano necessari prima del primo successo. • Morale: il fatto di avere già osservato i insuccessi consecutivi non cambia la distribuzione del numero di tentativi necessari per ottenere il primo successo Esercizio • Sia X una v.c. definita nell’intervallo [0 +∞) • Calcolare il valore di c affinché fX(x) sia effettivamente una densità • Rappresentarla graficamente la funzione di densità • Calcolare la funzione di ripartizione e rappresentarla graficamente • Calcolare P(X>x) Marco Riani, Univ. di Parma Soluzione • X = numero di tentativi prima di ottenere il primo successo. • p = prob di successo • Dobbiamo dimostrare che • P(X>i+j | X>j) = P(X>i) • P(X>i+j | X>j) = P(X>i+j ∩ X>j) / P(X>j) • = P(X>i+j) / P(X>j) • = qi+j/qj=qi=P(X>i) Esercizio • Un gioco a premi ha un montepremi di 512 Euro. Vengono poste ad un concorrente 10 domande. Ad ogni risposta errata il montepremi viene dimezzato. Alla prima risposta esatta il concorrente vince il montepremi rimasto. Se non si fornisce alcuna risposta esatta non si vince nulla. Un certo concorrente risponde esattamente ad una domanda con probabilità p, indipendentemente dalle risposte alle altre domande. 12 16/04/2013 Richieste Esercizio • Sia X la vincita di questo concorrente. Scrivere la legge di X in forma compatta e determinare la sua densità p(x) • Verificare che la somma delle probabilità sia 1 • Calcolare il valore atteso della vincita Un modello per le variazioni del prezzo delle azioni assume che ogni giorno il prezzo di un’azione salga di una unita con prob. p o scenda di un’unita con prob. 1-p. Si assume che le variazioni del prezzo in giorni diversi siano indipendenti. Richieste Si formalizzi la v.c. che descrive la variazione del prezzo dell’azione nel giorno i-esimo e si calcoli il valore atteso. Calcolare la probabilità: 1.che il prezzo dell’azione torni a quello di partenza dopo 2 giorni; 2.che il prezzo dell’azione sia salito di una unita dopo 3 giorni; 3.che il prezzo dell’azione fosse salito il primo giorno, sapendo solo che dopo 3 giorni è salito di una unita. Marco Riani, Univ. di Parma 13