Schede riassuntive di Statistica inferenziale TEST D’IPOTESI Gli obiettivi della statistica inferenziale sono: Stima puntuale di un parametro. Stima per intervalli. Test statistici per verificare l’ipotesi su un parametro o su un’assunzione. Effettuare un test statistico significa verificare un’IPOTESI. Ad esempio 1. si vuole verificare se la media della durata di una lampadina supera le 1000 ore 2. si vuole verificare se il genere e l’essere fumatori sono indipendenti. Cosa é necessario per effetturare un test? 1. Formulare le ipotesi H0: ipotesi principale H1: ipotesi alternativa 2. Stabilire il livello del test. 3. Utilizzare i dati campionari per stabilire se si accetta o non si accetta l’ipotesi H0. Analizzeremo 4 tipi di test 1. 2. 3. 4. Test Test Test Test sulla media. dell’uguaglianza delle medie di due campioni indipendenti. dell’ugualglianza delle medie di due campioni appaiati. d’indipendenza. 1. Test sulla media Esempio: Supponiamo di voler verificare che il tempo di vita di una lampadina è di 1400 ore. Per poter effettuare questa verifica si hanno a disposizione i dati relativi ad un campione di n=5 lampadine: Lampadina 1 X1 1450 Lampadina 2 X2 1380 Lampadina 3 X3 1460 Lampadina 4 X4 1420 Lampadina 5 X5 1470 Con questi dati si può determinare uno stimatore e una stima puntuale per la media e realizzare un intervallo di confidenza per la media. Attraverso i test parametrici (la media è un parametro) si vuole stabilire se sia ragionevole che il tempo medio di vita sia 1400 ore. La regola di decisione che lega i campioni al parametro su cui si vuole eseguire il test si chiama statistica test. X1 X 2 X 3 X 4 X 5 e 5 1450 1380 1460 1420 1470 x5 1436 5 Lo stimatore della media è X5 è una stima puntuale per la media. Si decide di accettare l’ipotesi che la media sia 1400 se la lontano da 1400, cioè se è piccola la differenza fra x e 1400. stima non è troppo 5 In questo caso H0: la media è 1400. L’ipotesi alternativa può essere H1: la media è diversa da 1400 H1: la media è maggiore da 1400 H1: la media è minore da 1400 A questo punto bisogna scegliere il livello del test , ossia il margine di errore che viene concesso e determinare una regione di rifiuto (che dipenderà dal livello, dalla statistica scelta e dall’ipotesi alternativa, tale che In generale, avremo che per effettuare un test sulla media si sceglie 1. la media campionaria X come statistica test 2. (normalmente 0,05 o 0,01) come livello del test 3. si formulano le ipotesi (principale e alternativa), che determineranno la forma della regione di rifiuto Gli errori che si possono commettere sono RIFIUTARE H0 quando H0 è vera (errore di I specie, viene fissato con probabilità ) ACCETTARE H0 quando H1 è vera (errore di II specie, dipende da ed è difficile da calcolare) Nella seguente tabella vengono riportate le regioni di rifiuto R in relazione all’ipotesi alternativa, quando l’ipotesi principale è H0: (media) = 0 H1: 0 H1: > 0 H1: < 0 R= (-,0-t s s )(0+t ,+) n n s ,+) n s ) R=(-,0-t n R= (0+t Dove s è la deviazione standard campionaria n è la numerosità campionaria t è un coefficiente che dipende da n e da e si ricava da apposite tavole (t di Student) A questo punto per concludere il test, è sufficiente verificare se il valore campionario della statistica test appartiene alla regione di rifiuto. Se x NON appartiene alla regione di rifiuto, si accetta l’ipotesi H0 Se x appartiene alla regione di rifiuto, si rifiuta l’ipotesi H0 e si accetta l’ipotesi H1 Nel caso dell’esempio delle lampadine si ha che H1: 1400 H1: > 1400 H1: < 1400 (-,1354.74)(1445.26,+) (1434.75,+) (-,1365.25) Accetto H0 Rifiuto H0 Accetto H0 Più semplicemente si può concludere il test, calcolandosi il p-value ossia il livello massimo con il quale si accetta l’ipotesi principale considerate le osservazioni rilevate. Il p-value è, quindi, la probabilità di rifiutare l’ipotesi principale quando questa è vera, scegliendo come estremo della regione di rifiuto la stima puntuale della statistica test. Avremo quindi che p-value > p-value < accettiamo l’ipotesi H0 rifiutiamo l’ipotesi H0 Sempre nell’esempio delle lampadine si ha che H1: 1400 H1: > 1400 H1: < 1400 p-value=0.092 p-value=0.046 p-value=0.954 >0.05 <0.05 >0.05 L’output di Minitab per il test con ipotesi H1: 1400 è il seguente: One-Sample T: C1 Test of mu = 1400 vs not = 1400 Variable C1 Dove: N 5 Mean 1436,0 StDev 36,5 SE Mean 16,3 95% CI (1390,7; 1481,3) T 2,21 P 0,092 Stdev è la deviazione standard campionaria SE Mean è il rapporto fra StDev e la numerosità campionaria 95% CI è l’intervallo di confidenza per la media al 95% T è il valore della statistica test standardizzata P è il p-value Osservazione: Questa procedura si può applicare quando la variabile che si studia ha una distribuzione normale (a campana) o sempre quando si lavora con grandi campioni. 2. Test per la differenza di medie per popolazioni di legge normale Consideriamo due campioni estratti da due popolazioni indipendenti e con distribuzione normale (o numerosità campionaria elevata). Ad esempio, si rileva la stessa grandezza su individui appartenenti a due popolazioni diverse e indiependenti. Indichiamo con X 1,…,Xn il primo campione e con Y1,…,Ym il secondo campione. Un problema che si incontra molte frequentemente è quello di stabilire se le due medie X e Y sono uguali oppure no. Nel linguaggio dei test statistici questo equivale ad effettuare un test per verificare H0: X=Y contro una delle tre ipotesi alternative H1: XY H1: X<Y H1: X>Y Siccome X n è uno stimatore per X e Ym è uno stimatore per Y, segue che D= X n Ym può essere usato per stimare X-Y. In questo modo, il problema si riduce a effettuare un test sulla media di D scegliendo come ipotesi H0: D=0 e H1: d=0 H1: D<0 H1: D >0 A questo punto si può seguire la procedura descritta per il test sulla media e concludere il test dal confronto del p-value con il livello scelto. Rimane, comunque, non banale calcolare la varianza campionaria di tale stimatore. Esempio: Si vuole verificare se il peso medio di una specie di cavie è differente per esemplari femmine e maschi. Da un campione di 2205 femmine si ottiene un valore medio di 547g mentre da un campione di 2610 maschi il valore medio è 540g. L’output di Minitab per il test a campioni indipendenti è il seguente: Two-Sample T-Test and CI: PESO_F; PESO_M Two-sample T for PESO_F vs PESO_M PESO_F PESO_M N 2205 2610 Mean 547 540 StDev 962 700 SE Mean 20 14 Difference = mu (PESO_F) - mu (PESO_M) Estimate for difference: 7,6 95% CI for difference: (-40,7; 55,9) T-Test of difference = 0 (vs not =): T-Value = 0,31 3946 Dove: P-Value = 0,757 DF = Estimate for difference è la differenza di medie campionate P-Value = 0,757 è il p-value che porta ad accettare l’ipotesi principale, ossia che abbiano la stessa media. 3. Test di differenza di medie per dati appaiati Un caso particolare del test sulla differenza di media è quello relativo ai dati appaiati, cioè quando vengono rilevati i dati riferiti allo stesso campione (ad esempio, in tempi diversi o con differenti strumenti). Un caso tipico di applicazione di questo test sono le rilevazioni di parametri fisiologici prima e dopo la somministrazione di un farmaco. I dati da esaminare avranno quindi la forma Obs 1 2 … n X X1 X2 … Xn Y Y1 Y2 … Yn Si suppone che la caratteristica studiata abbia distribuzione normale oppure la numerosità del campione sia elevata. Come nel caso precedente, un problema che si incontra molte frequentemente è quello di stabilire se le due medie X e Y sono uguali oppure no. Nel linguaggio dei test statistici questo equivale ad effettuare un test per verificare H0: X=Y contro una delle tre ipotesi alternative H1: XY H1: X<Y H1: X>Y In questo caso non si può usare l’ipotesi d’indipendenza e si deve sempre tener presente che i dati sono appaiati. Per effettuare il test, si deve, quindi, costruire una nuova variabile D=XY come riportato in tabella Obs 1 2 X X1 X2 Y Y1 Y2 D D1=X1- Y1 D2=X2- Y2 … n … Xn … Yn … Dn=Xn- Yn In questo modo, il problema si riduce a effettuare un test sulla media di D scegliendo come ipotesi H0: D=0 e H1: d=0 H1: D<0 H1: D>0 A questo punto si può seguire la procedura descritta per il test sulla media e concludere il test dal confronto del p-value con il livello scelto. Esempio: X e Y sono due variabili quantitative rilevate su un campione di 16 persone in due tempi diversi (prima e dopo). Si vuole verificare che non ci sono state variazioni in media. Obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Prima 334 150 520 95 212 30 1055 300 85 129 40 440 610 208 880 25 Dopo 405 125 540 100 200 30 1200 265 90 206 18 489 590 310 995 75 D -71 25 -20 -5 12 0 -145 35 -5 -77 22 -49 20 -102 -115 -50 L’output in Minitab è il seguente: Paired T-Test and CI: Prima; Dopo Paired T for Prima - Dopo Prima Dopo Difference N 16 16 16 Mean 319,6 352,4 -32,8 StDev 309,6 344,0 55,8 SE Mean 77,4 86,0 13,9 95% CI for mean difference: (-62,5; -3,1) T-Test of mean difference = 0 (vs not = 0): T-Value = -2,35 P-Value = 0,033 Dove: 95% CI for mean difference è l’intervallo di confiodenza per la differenza delle media al 95% T-Value è il valore della statistica test standardizzata P-Value = 0,033<0,05 permette di rifiutare l’ipotesi principale, ossia possiamo affermare che c’è differenza in media. 4. Test del chi-quadro di indipendenza Date due variabili qualitative. Possiamo riassumere i dati in una tabella di contingenza. Indichiamo con fij le frequenze congiunte e fi+ e f+j le frequenze marginali della X e della Y rispettivamente. Si vuole verificare se sono indipendenti. Dalla statistica descrittiva, si sa che se le righe (risp. colonne) del profilo riga (risp. colonna) sono uguali o equivalentemente se fij= fi+ f+j, si può concludere che c’è indipendenza statistica. Questa uguaglianza è difficile che si verifichi con i dati campionari, applicando le tecniche dei test statistici, si vuole verificare se si può accettare l’ipotesi d’indipendenza con un margine d’errore. Le ipotesi del test sono qundi H0: X e Y sono indipendenti H1: X e Y non sono indipendenti Esempio: Si vuole verificare se 4 tipi di farmaci A, B, C e D (X) producono gli stessi effetti terapeutici. A tal fine si somministrano i quattro farmaci a quattro gruppi di pazienti, rilevando la risposta (Y) al trattamento (0=scarsa, 1=media, 2=notevole). I risultati sono riassunti nella seguente tabella (output di Minitab) Rows: X 0 1 2 3 All Columns: Y 0 1 2 All 0 5 2 0 7 2 5 7 0 14 0 4 4 1 9 2 14 13 1 30 Cell Contents: Count Verificare se i due farmaci producono gli stessi effetti terapeutici equivale a verificare se le due variabili X e Y sono indipendenti. Se fossero indipendenti la tabella sarebbe stata 0 A B C D All 1 2 All 0,467 0,933 0,600 2,000 3,267 6,533 4,200 14,000 3,033 6,067 3,900 13,000 0,233 0,467 0,300 1,000 7 14 9 30 7,000 14,000 9,000 30,000 Cell Contents: Expected count Dobbiamo ora verificare quanto la tabella dei dati reali si discosta dalla tabella d’indipendenza. La statistica che si usa per verificare le ipotesi di indipendenza è I J Q n i 1 j 1 (fij fi f j ) 2 fi f j con n la numerosità campionaria, I il numero di classi della variabile X e J il numero di classi della variabile Y. Anche in questo caso per concludere il test è sufficiente confrontare il p-value con il livello scelto. Nel caso dell’esempio farmaci/risposta la realizzazione della statistica Q vale 6,406 e il pvalue vale 0,379278, quindi accettiamo l’ipotesi che siano indipendenti.