1 La verifica di ipotesi Il test statistico e le ipotesi Regione di accettazione e rifiuto Test con ipotesi nulla semplice Il p-value Errori di I e II tipo Funzione di potenza Contenuti: Capitolo 13 libro di testo 2 Le procedure di Inferenza Statistica 1)La stima puntuale si identificano stimatori e si caratterizzano in termini di proprietà ottimali 2) La stima per intervallo gli si costruiscono gli intervalli di confidenza 3) La verifica d’ipotesi Questo tipo di inferenza è complementare alle due precedenti tecniche di stima. Di grande rilevanza applicativa, tale metodologia consente di fare inferenza sui parametri della Popolazione alla luce dell’analisi delle differenze tra i risultati che osserviamo (la statistica campionaria) e quelli che ci aspetteremmo di ottenere se una qualche ipotesi sulla Popolazione fosse vera 3 Il processo inizia con una ipotesi sulla “natura” (parametri) di una Popolazione. L’ipotesi deve essere stabilita in modo chiaro e comporta “due opzioni” (ipotesi); una statistica test, calcolata con i dati di un campione casuale, ci aiuterà a selezionarne una. ESEMPI 1.Un’azienda produttrice di barrette alimentari, afferma che mediamente, il peso di ognuna è di 20 gr. Per verificare l’affermazione si può estrarre un campione casuale di barrette e calcolarne il peso medio. 2.Un fabbricante di pezzi di ricambio per auto, vuole monitorare il processo produttivo per assicurarsi che il diametro dei pistoni soddisfi le specifiche richieste dalla casa automobilistica. A tal fine si possono estrarre campioni casuale, ogni due ore dalla linea produttiva ed usarli per accertare che gli standard siano rispettati. 3.Un’azienda farmaceutica vuole verificare se un nuovo farmaco è efficace nell’abbassare la pressione sanguigna; a tal fine vengono due gruppi di pazienti (campioni), che vengono trattati uno con un placebo, l’altro con il farmaco al fine di stabilire se il farmaco produce diminuzioni significative nell’abbassamento della pressione. 4 Logica concettuale di base Per verificare le ipotesi si utilizzano statistiche campionarie; poiché queste seguono una distribuzione campionaria, la decisione a favore di una delle due viene presa sulla base di variazioni aleatorie dovute al campione per la scelta tra due alternative servono chiare regole di decisione. Il modo di procedere ha un’analogia diretta con le regole del processo penale. In tale ambito vale sempre la presunzione di innocenza (è cautelativo!) ed è la giuria a decidere se l’imputato è colpevole sulla base di una forte evidenza empirica contro l’ipotesi iniziale (l’innocenza). Nel processo penale, per scegliere tra colpevolezza ed innocenza ci sono: 1.procedure rigorose per presentare e valutare le prove; 2.un giudice che fa rispettare le regole; 3.un processo decisionale che presume l’innocenza fino a prova contraria, ossia a meno che ci sia evidenza di colpevolezza oltre ogni ragionevole dubbio. In tal modo è vero che si potranno lasciar liberi degli imputati che in realtà sono colpevoli, ma se e quando si rifiuta la presunzione di innocenza e si ritiene l’imputato colpevole, significa che si ha concreta evidenza della sua colpevolezza. 5 Il test statistico e le ipotesi Ipotesi sulla Popolazione Se l’ipotesi riguarda uno o più parametri della distribuzione di probabilità della popolazione, si parlerà di test parametrico. Le due opzioni a confronto L’impostazione data da J.Neyman e E.S.Pearson, nota come test d’ipotesi, prevede la formulazione di un’ipotesi nulla e un’ipotesi alternativa. Obiettivo: Attraverso un campione di osservazioni stabilire, con un certo grado di attendibilità, se poter rifiutare o meno l’ipotesi nulla a favore dell’ipotesi alternativa. 6 Formulazione delle ipotesi ipotesi statistica : una congettura riguardante (il valore di) un parametro θ della popolazione (es. µ,σ2 oppure π). Nell’approccio di Neyman-Pearson si distinguono due ipotesi contrapposte: • ipotesi nulla, indicata con H 0 • ipotesi alternativa, indicata con H1 ESEMPIO Secondo il costruttore di un certo tipo di batterie per autovetture, la durata media è di 3400 ore. Un cliente, per verificarne la durata, osserva un campione di 30 batterie: H 0 : le batterie hanno durata media di almeno 3400 ore H1 : le batterie hanno durata media inferiore a 3400 ore L’ipotesi nulla è preesistente all’osservazione dei dati campionari ed è ritenuta vera fino a prova contraria (ossia a meno che non ci sia una prova evidente contro la sua veridicità). In genere è l’ipotesi verso la quale si hanno dubbi e contro la quale si cerca una evidenza empirica; quella alternativa è quella che si contrappone alla nulla e che potrebbe essere considerata più verosimile sulla base delle risultanze campionarie. 7 Indicando con Θ lo spazio parametrico, ossia l’insieme di tutti i possibili valori che il parametro θ, su cui si fanno congetture può assumere, l’ipotesi nulla e quella alternativa individuano una partizione di Θ; a titolo esemplificativo: Se si rifiuta l’ipotesi nulla, sarà accettata l’ipotesi alternativa. Se non si rifiuta l’ipotesi nulla non necessariamente ciò significa che essa sia corretta: in tal caso infatti possono essere vere o H0 o H1, ma la tecnica di verifica che si usa non è abbastanza potente per permetterci di rifiutare l’ipotesi nulla. Sarebbe più corretto dire “non si rifiuta l’ipotesi nulla H0” 8 Formulazione delle ipotesi Θ è lo spazio parametrico, ossia l’insieme di tutti i possibili valori che può assumere θ Θ0 e Θ1 sono i sottospazi che formano una partizione dello spazio parametrico. Indichiamo le due ipotesi con il seguente sistema: H 0 : θ ∈ Θ0 H1 : θ ∈ Θ1 Ad esempio: H 0 : µ ≥ 3400 H1 : µ < 3400 9 Formulazione delle ipotesi Un’ipotesi può essere: • semplice, quando specifica completamente la popolazione • composta, quando non specifica completamente la popolazione Sia X ~ N ( µ , σ 2 = 9) allora H 0 : µ = 5 è un’ipotesi semplice, mentre H 0 : µ > 5 è un’ipotesi composta. Un’ipotesi composta può essere: • unidirezionale, quando specifica un intervallo di valori • bidirezionale, quando specifica due intervalli di valori H 0 : µ > 5 è unidirezionale, mentre H0 : µ ≠ 5 bidirezionale. 10 Formulazione delle ipotesi I sistemi di ipotesi più frequentemente utilizzati sono i seguenti: H 0 : θ = θ0 H1 : θ > θ 0 H 0 : θ = θ0 H1 : θ ≠ θ 0 H 0 : θ = θ0 H1 : θ < θ0 dove θ0 è un valore fissato del parametro. La formulazione delle ipotesi dipende dalla natura del problema 11 Esempi La Toyota dichiara che il suo nuovo modello di auto, in autostrada otrà percorrere in medi 23 km per litro di benzina. Se doveste sottoporre a verifica tale affermazione, quale ipotesi nulla e quale alternativa scegliereste? H 0 : µ = 23 (km per litro) H1 : µ ≠ 23 (km per litro) In passato l’età media degli assicurati presso la XXX Compagnia di Assicurazioni è stata di 48 anni. Poiché a società si è espansa ed ha differenziato la propria offerta di polizze, il direttore dell’ufficio finanziario ritiene che l’età media possa essere cambiata. Se doveste condurre una indagine sulla base di un campione di assicurati, per verificare tale considerazione, quali sarebbero le ipotesi a confronto? H H 0 : 1 : µ = 48 anni µ ≠ 48 anni 12 Esempio Il manager operativo dell’azienda di cereali sceglie come ipotesi nulla: H0 : (peso medio) µ=368 gr. Procede all’estrazione di un campione di scatole e ne determina il peso medio x . La media campionaria è uno stimatore della corrispondente µ della intera popolazione di scatole; ed è una statistica di cui è nota la distribuzione campionaria. Se l’ipotesi nulla fosse vera, ossia che il peso medio della intera produzione di scatole è di 368 gr, è vero che da un lato è probabile che la statistica differisca dal vero valore del parametro (che ipotizziamo pari a 368 gr) per effetto del caso o di un errore campionario, ma è d’altronde pur vero che ci aspettiamo (che pur differendo) sia “vicina” al valore vero del parametro che ipotizziamo essere 368. Se ciò succede non ci sarebbero prove sufficienti a rifiutare tale ipotesi. Ad es. se risultasse che la media campionaria fosse 367.9, è plausibile concludere che la media della popolazione coincide con quanto specificato dall’azienda: è molto probabile ottenere una media campionaria di 367.9 da una popolazione la cui media è 368. Non altrettanto si potrebbe concludere se fosse risultata una media campionaria di 320: non altrettanto probabile ottenere una media campionaria di 320 da una popolazione la cui media è 368! 13 La decisione di scegliere l’una o l’altra delle ipotesi segue uno schema rigoroso: il processo decisionale usa una statistica test costruita sulla 2 base di un campione casuale (es. X , S o p p u re Pˆ ). La statistica test avrà una distribuzione campionaria nota, basata sulle tecniche di campionamento e sul valore del parametro specificato dall’ipotesi nulla. Dalla distribuzione della statistica si determineranno i valori della statistica test che avrebbero bassa una bassa probabilità di verificarsi se l’ipotesi nulla fosse vera. Se la statistica test relativa al campione considerato assume uno tra questi valori, rifiuteremo l’ipotesi nulla ed accetteremo quella alternativa, altrimenti non rifiuteremo l’ipotesi nulla. Ciò comporta la definizione delle cosiddette 14 Regione di accettazione e di rifiuto •Un test statistico è una regola che permette di discriminare i campioni che portano all’accettazione dell’ipotesi nulla da quelli che portano al suo rifiuto. •Il test si basa sul valore assunto da una statistica test. •La statistica test è una statistica campionaria la cui distribuzione deve essere completamente nota sotto l’ipotesi nulla. •L’insieme dei valori della statistica test che portano all’accettazione dell’ipotesi nulla è chiamata regione di accettazione. •L’insieme dei valori della statistica test che portano al rifiuto dell’ipotesi nulla è chiamata regione di rifiuto. 15 Regione di accettazione e di rifiuto Esempio: Supponiamo che la popolazione sia Normale con media µ incognita e varianza σ 2 nota. Si vuole verificare: H 0 : µ = µ0 H1 : µ ≠ µ0 Considerando come statistica test la media campionaria X sappiamo che sotto l’ipotesi nulla questa si distribuisce come una Normale con media µ = µ0 e varianza σ 2 n . 16 Dalla figura si può vedere che i valori critici definiscono la zona di accettazione e che dipendono dal livello di significatività α : maggiore è il suo valore, più ampia sarà la regione di rifiuto. Ad es. se 1- α è 0.90 e l’ipotesi nulla è vera, la probabilità di osservare una media campionaria “vicina” a µ0 è 0.90, mentre la probabilità di osservare un valore “distante” è piccola, complessivamente 0.1. Tale considerazione è alla base del funzionamento del TEST: . 17 Una volta estratto il campione ed osservato in tal caso, il valore della media campionaria x , si va a verificare in quale zona si colloca. Se il valore ottenuto è distante da µ0 l’ipotesi nulla di partenza (µ=µ0) verrà “messa in dubbio”, poiché (sotto l’ipotesi nulla, vera!) valori di questo tipo sono complessivamente poco probabili. Ciò comporta per l’appunto la suddivisione del campo di variazione della media in due regioni: di accettazione e di rifiuto (critica). La regione di rifiuto rappresenta l’insieme di tutti i valori della statistica test che non è probabile si verifichino quando l’ipotesi nulla è vera, mentre è invece probabile che si verifichino quando è falsa. Il valore critico separa la regione di accettazione da quella di rifiuto: la determinazione di tale valore dipende dall’ampiezza della regione di rifiuto. α E la “ dimensione” di tali regioni dipende dal valore scelto (livello di significatività del test): maggiore il suo valore più ampia è la regione di rifiuto. A sua volta ciò è legato al rischio che comporta prendere una decisione su un parametro alla luce delle sole informazioni campionarie. 18 Test con ipotesi nulla semplice In corrispondenza dell’ipotesi alternativa si possono configurare diverse regioni di rifiuto: H 0 : θ = θ0 H1 : θ ≠ θ0 19 Esempio In un paese è noto che la statura media degli abitanti è 175 cm. Sulla base di cambiamenti nello stile di vita un ricercatore ipotizza una sua variazione in 178 cm. Assumendo che la v.c. 2 statura sia distribuita come una normale, X N ( µ , σ ) con varianza nota ed utilizzando la statistica media campionaria consideriamo sotto l’ipotesi nulla la statistica test: X − 175 N (0,1) σ / n a seco n d a d ella ip o tesi altern ativa si h an n o le seg u en ti reg io n i d i rifiu to : H 1 : µ > 175 Z ≥ zα Z = H 1 : µ < 175 Z ≤ − zα H 1 : µ ≠ 1 7 5 | Z |≥ z α / 2 es. p er σ 2 = 300 e p er n = 2 0 avessim o x = 1 7 7 ,5 1 1 7 .5 − 1 7 5 = 0 .6 4 5 300 / 20 co n u n livello α = 0 .0 5 i valo ri critici sareb b ero z α = 1 .6 4 5 e z α / 2 = 1 .9 6 . z = In n essu n o d ei casi si p o treb b e rifiu tare l'ip o tesi n u lla. 20 L’approccio del p-value alla verifica di ipotesi Per l’ampia diffusione dei pacchetti statistici è venuto affermandosi un altro modo per evidenziare il risultato del test: quello di calcolare il p-value. Poiché il valore di α è arbitrario una ipotesi rifiutata al livello α=0.1 potrebbe invece essere accettata con α=0.01 p-value : rappresenta la probabilità di osservare un valore della statistica test uguale o più estremo del valore ottenuto a partire dal campione, quando l’ipotesi nulla H0 è vera. Viene anche chiamato livello di significatività osservato, poiché coincide con il più piccolo livello di significatività in corrispondenza del quale H0 è rifiutata. Non è una quantità fissata come α, ma che misura l’evidenza fornita dai dati contro l’ipotesi nulla: minore è il valore del p-value, più è forte l’evidenza contro l’ipotesi nulla. In pratica la regola decisionale: •se p-value ≥ •se p-value < α non rifiuto H0 α rifiuto H0 21 Nell’esempio precedente piuttosto che rifiutare o accettare l’ipotesi che µ=175 ad un prefissato valore di α e preferibile riportare un p-value che misuri l’evidenza contro l’ipotesi H0. Poiché z=0.645 se l’ipotesi alternativa fosse H1:µ>175 risulterebbe: P-value=p(Z>0.645)=1-Φ(0.645)=0.26 Non c’è una forte evidenza nei dati contro l’ipotesi nulla: poiché il test è unilaterale l’ipotesi nulla sarà rifiutata per valori di α maggiori di 0.26! Vantaggio: il p-value può essere confrontato con diversi possibili valori di α 22 Errori di I e II specie Quando si usa una statistica campionaria per prendere una decisione su P, si corre sempre il rischio di prendere una conclusione sbagliata. errore del I tipo: si rifiuta l’ipotesi nulla mentre questa è vera. errore del II tipo: si accetta l’ipotesi nulla mentre questa è falsa Decisione Accetto H 0 è vera H0 Corretta 1−α H 0 è falsa Errore del II tipo β •α Rifiuto H 0 Errore del I tipo α Corretta 1− β è la probabilità di commettere l’errore del I tipo. E’ detto livello di significatività del test. • 1 − α è detto coefficiente di confidenza del test. • β è la probabilità di commettere l’errore del II tipo. E’ detto rischio del test. • 1 − β viene detto potenza del test e corrisponde alla probabilità di rifiutare l’ipotesi nulla quando questa è falsa. 23 α: livello di significatività ≈ errore di prima specie: rifiuto H0 quando è vera e quindi non dovrebbe essere rifiutata. Tale errore viene controllato fissando il livello di rischio α che si è disposti a tollerare se si rifiuta l’ipotesi nulla quando è vera. Poiché il livello di significatività è specificato prima di condurre la verifica di ipotesi tale rischio è sotto il controllo da chi compie l’analisi. Generalmente α è piccolo es. 0.05 e dipende dai costi che derivano dal commettere un errore di prima specie. Una volta specificato il valore di α si conosce anche la dimensione della regione di rifiuto essendo questi la probabilità che la statistica test cada nella regione di rifiuto quando l’ipotesi nulla è vera. 1-α α: coefficiente di confidenza (complemento ad 1 della probabilità dell’errore di prima specie: rappresenta la probabilità che l’ipotesi nulla non sia rifiutata quando è vera – quindi quando non dovrebbe essere rifiutata) moltiplicato per 100% coincide con il livello di confidenza. Questo coefficiente nella verifica delle ipotesi rappresenta la probabilità di concludere che il valore del parametro individuato dall’ipotesi nulla è plausibile, quando di fatto questa è vera 24 β: il rischio; a differenza dell’errore di prima specie che viene controllato fissando α, la probabilità di commettere un errore di seconda specie dipende dalla differenza tra il valore ipotizzato ed il vero valore del parametro di P. Se la differenza tra la statistica campionaria ed il corrispondente parametro di P è grande, è probabile che β, la probabilità di commettere l’errore di seconda specie (non rifiuto H0 quando è falsa) sia piccolo; mentre se è piccola la differenza, la probabilità di commettere un errore di seconda specie è grande. 1-β β: potenza del test; complemento ad 1 del precedente rappresenta la probabilità di rifiutare l’ipotesi nulla quando è falsa – e quindi dovrebbe essere rifiutata. Un modo di controllare e ridurre β consiste nell’aumentare n. Una elevata dimensione campionaria in genere permette di individuare anche piccole differenze tra la statistica campionaria ed il parametro di P: per un dato valore di α un aumento di n determina una riduzione di β e quindi un aumento della potenza del test per verificare se l’ipotesi nulla è falsa. Se invece per “problemi di risorse” l’ampiezza campionaria non può essere aumentata, per un dato n c’è da considerare il trade-off tra i due possibili tipi di errore: possiamo controllare il rischio di un errore di primo tipo, scegliendo un valore piccolo di α, ma al diminuire di α, β aumenta. 25 Nell’esempio del processo di produzione si compie un errore di primo tipo se si conclude che il peso medio delle scatole prodotte non è uguale a quanto specificato dall’azienda, 368 gr, ed invece in realtà lo è; un errore di seconda specie quando si conclude che il peso medio è 368 gr , ed invece non lo è. La scelta di α e β dipende da costi che ciascuno dei due errori comporta: un cambiamento del processo produttivo potrebbe essere più costoso rispetto al costo di “una perdita d’immagine” ad esempio. Viceversa si dovrebbe per limitare il secondo dovremmo dare un valore più elevato ad α. Nel processo penale: “E’ più costoso moralmente lasciare a piede libero un colpevole di reato oppure un tenere innocente in galera?! “ 26 Errori di I e II tipo I diversi errori che si possono commettere: Si vede chiaramente come traα e β sussiste una relazione inversa: minore è il valore di α , maggiore è il valore di β . Le probabilità di commettere gli errori corrispondono a delle aree. 27 Passi da seguire nella verifica d’ipotesi • Definizione del sistema d’ipotesi • Scelta della statistica test • Scelta del livello di significatività e della numerosità campionaria • Definizione della regione di rifiuto • Estrazione del campione • Calcolo della statistica test • Decisione 28 Esempio - passi da seguire Si vuole verificare se dopo una campagna pubblicitaria il fatturato medio di un’azienda, aumentato rispetto a quello dell’anno precedente pari a µ = 2500 . 2 Il fatturato è una v.c. Normale con varianza nota pari a σ = 1296 1. Definizione del sistema d’ipotesi H 0 : µ = 2500 contro H1 : µ > 2500 2. Scelta della statistica test ( Z = ( X − 2500 ) 36 ) n ~ N (0 ,1) 3. Scelta del livello di significatività e della numerosità campionaria fissiamo α = 0,05 (e quindi un valore critico pari a zα 2 = 1,645 ) e una numerosità n = 81 4. Definizione della regione di rifiuto R = {z > 1,645} 5. Estrazione del campione si estrae un campione casuale di 81 clienti 6. Calcolo della statistica test la media campionaria risulta essere x il valore della statistica test z = 2 ,51 − 2500 36 9 = 2 ,5 ( )( ) = 2,51 e 7. Decisione Poiché il valore della statistica test cade nella regione di rifiuto (2,5>1,645) rifiutiamo l’ipotesi nulla. 29 Funzione di potenza Corrisponde alla probabilità di rifiutare H0 quando questa è falsa (e dovrebbe essere rifiutata) dovrebbe essere la più elevata possibile; se l’ipotesi alternativa H1 è composta non abbiamo un singolo valore per β ma una funzione: Si chiama funzione di potenza del test la funzione che descrive la probabilità, al variare di θ di rifiutare H 0 e viene indicata con π (θ ) Ad esempio, per un test sulla media con ipotesi nulla: H 0 : µ = 175 La funzione di potenza è: N.B. per µ=175, ossia sotto l’ipotesi nulla, la probabilità di rifiutare H0 coincide con la probabilità di commettere l’errore del I tipo ossia: π (175) = α