Argomenti della lezione 13 dicembre 2012 AVVISO GIOVEDI 10 GENNAIO II PROVA IN ITINERE POSSONO SOSTENERE LA II PROVA n itinere COLORO CHE HANNO SUPERATO LA I PROVA I risultati verranno pubblicati sul sito dell’insegnamento di Statistica Argomenti del giorno - Riepilogo della lezione scorsa…. -Test di significatività: Test z Test t di Student Riepilogo della lezione scorsa Per verificare se, e quanto, una determinata ipotesi (di carattere biologico, medico, economico,...) è supportata dall'evidenza empirica costruiamo il test d’ipotesi SCHEMA TEST DI IPOTESI 1. Si fissa l’ipotesi alternativa (H1) nulla (H0) e l’ipotesi 2. Si fissa il livello di significatività a in cui si vuole eseguire il test 3. In funzione di a si sceglie la regione di rifiuto 4. Dai dati del campione si calcola la statistica studiata nel test (ossia il test statistico) e si vede se appartiene o no alla regione di rifiuto 5. Si prende la decisione: rifiutare o accettare H0 al livello di significatività fissato a priori RAPPRESENTAZIONE GRAFICA DEL TEST DI IPOTESI f (X ) H1 H0 1-b b a m m≠0 valore critico Errore di seconda specie nella verifica di ipotesi L’errore di seconda specie (indicato con β ) si verifica se si accetta l’ipotesi nulla quando è falsa e quindi dovrebbe essere rifiutata. Errori nella verifica di ipotesi LIVELLI DI SIGNIFICATIVITA’ DEL TEST Nella pratica statistica i valori critici di p, detti livelli di signficatività del test sono fissati dalla seguente convenzione. CONVENZIONE Se p ≥0.05, la discrepanza tra dato osservato e valore atteso non è statisticamente significativa (cioè può trattarsi di un effetto casuale del campionamento) e H0 viene accettata. Se p < 0.05, H0 viene, in genere, rifiutata e la discrepanza viene detta - statisticamente significativa se 0.01≤ p ≤ 0.05; - molto significativa se 0.001 ≤ p ≤ 0.01; - estremamente significativa se p < 0.001. Potenza del test La potenza del test, indicata con (1–β), rappresenta la probabilità di rifiutare l’ipotesi nulla quando è falsa (e quindi dovrebbe essere rifiutata) L’aumento della dimensione campionaria determina una riduzione di β e quindi un aumento della potenza del test per verificare se l’ipotesi nulla H0 è falsa COME ACCETTARE O RIFIUTARE L’IPOTESI H0? Per prendere una decisione sull’ipotesi nulla, dobbiamo in primo luogo definire le regioni di rifiuto e di accettazione e questo viene fatto determinando il cosiddetto valore critico della statistica test La determinazione del valore critico dipende dall’ampiezza della regione di rifiuto, che è legata al rischio comportato dal prendere una decisione sul parametro alla luce delle sole informazioni campionarie Una volta specificato il valore di a, si ottiene anche la regione di rifiuto perché è la probabilità che la statistica test cada nella regione di rifiuto quando l’ipotesi nulla è vera. Il valore critico che separa la regione di accettazione da quella di rifiuto viene determinato considerando la statistica test a A differenza dell’errore di prima specie, che controlliamo fissando a, la probabilità di commettere un errore di seconda specie (b) dipende dalla differenza tra il valore ipotizzato e il vero valore del parametro della popolazione: se la differenza è grande, è probabile che β sia piccolo Test statistici Si definisce test statistico lo strumento che consente di decidere circa o meno l’attendibilità dell’ ipotesi (rifiutare o non rifiutare l’ipotesi). In particolare il test è una procedura che, sulla base di dati campionari e con un certo grado di probabilità, consente di decidere se è ragionevole respingere l’ipotesi nulla H0 (ed accettare implicitamente l’ipotesi alternativa H1) oppure se non esistono elementi sufficienti per respingere tale ipotesi. Test statistici Sono molteplici i test a disposizione: Il test appropriato si sceglie in relazione al tipo di campioni che si intendono confrontare (indipendenti, per dati appaiati) e a seconda della variabile su cui si intende svolgere il confronto. • CAMPIONI INDIPENDENTI: i dati sono forniti da soggetti diversi •(ES. Due gruppi diversi, uno sottoposto a trattamento e l’altro no) • CAMPIONI DIPENDENTI (DATI APPAIATI): i dati sono forniti dagli stessi soggetti (ES. Uno stesso gruppo analizzato prima e dopo il trattamento). TEST PARAMETRICI per variabili quantitative a distribuzione nota TEST NON PARAMETRICI per variabili qualitative o quantitative a distribuzione ignota Test Z Test parametrico. Valido a condizione che la variabile sia distribuita normalmente e che la varianza della popolazione sia conosciuta TESTO L’IPOTESI PER UNA POPOLAZIONE CON MEDIA μ e σ2 CONOSCIUTA Test Z: Media campione – media popolazione Z = ___________________________________ Errore standard Utilizzo la varianza della popolazione per calcolare l’errore standard Errore standard = / n Esempio: Test Z per la media della popolazione Si sa, da esperienze passate, che i pesi alla nascita di neonati sono distribuiti in modo normale con deviazione standard pari a 12. Esaminando un campione di 16 bambini si osserva un peso medio di 3550 g. Considerando un a = 0,05 si può accettare l’ipotesi nulla che il peso medio della popolazione sia pari a 3500 g ? SOLUZIONE H0: m=3500 g. H1: m≠3500 g. Calcoliamo il valore standard z per i 16 bambini del campione e guardare sulle tavole la probabilità associata a questo valore: z x - m0 / n 3550 - 3500 Conclusioni: 12 / 16 16,67 -1.96 1.96 Poiché il valore standard 16,67 è esterno all’intervallo -1,96÷1,9,6 rifiutiamo l’ipotesi nulla H0, la probabilità è inferiore del 5%, p<0,05. Esempio: Test Z per la media della popolazione ,X che rappresenta il numero di ore Consideriamo la variabile casuale consecutive che i dipendenti di una certa azienda trascorrono in media ogni giorno davanti al computer. Viene svolta un’indagine dal dipartimento di medicina del lavoro per verificare se i dipendenti non trascorrano in media più di 3 ore consecutive davanti al computer. Viene estratto casualmente un campione di 15 dipendenti le quali dichiarano di trascorrere quotidianamente davanti al computer un numero di ore pari a: 4, 5, 7, 3, 8, 2, 4, 1, 3, 0, 6, 2, 3, 0, 3. Sotto l’ipotesi che ha distribuzione normale con varianza 2 5 • verificare il seguente schema di ipotesi per il parametro media m (livello di significatività del test a 0,05 ) H 0 : m m0 3 H1 : m 3 Test z per la differenza tra due medie (campioni indipendenti) Viene applicato per verificare le ipotesi sulla differenza tra due medie di popolazione, quando le varianze delle due popolazioni sono note. m x -x m1 - m 2 1 2 e 2 1 2 sono note 2 Esempio: Test z per la differenza tra due medie Due campioni di pazienti di ampiezza 70 e 110 sono sottoposti a due trattamenti diversi che producono tempi medi di guarigione rispettivamente di 60 e 57 giorni con deviazioni standard di 8 e 12 giorni. Verificare se i due trattamenti hanno pari efficacia (a=0,05). SOLUZIONE H0: “non c’è differenza fra le medie delle popolazioni”, cioè m1=m2. H1: “non c’è differenza fra le medie delle popolazioni”, cioè m1≠m2. Calcoliamo il valore standard z della differenza delle medie quando m1=m2 perché n1 e n2 sono > 30: z x1 - x2 - 0 12 / n1 22 / n2 60 - 57 64 / 70 144 / 110 3 0,91 1,31 3 2,01 1,49 Il valore standardizzato z cade in una delle due regioni critiche della distribuzione normale standardizzata (z>1,96) e quindi rifiutiamo H0. Test t di Student Supponendo di avere due campioni con medie diverse, ci si chiede se la differenza tra le due medie sia significativa, ovvero se esiste una differenza reale fra le medie delle popolazioni da cui sono estratti i campioni. Quando 1 ed 2 sono ignoti si possono utilizzare le deviazioni standard campionari s1 ed s2 come stima delle vere varianze delle due popolazioni e la differenza tra le medie campionarie è testata calcolando l’indice t di Student, determinato dal rapporto: t t differenza medie campionarie errore s tan dard della differenza delle medie campionarie x1 - x 2 dove: s2 s2 n1 n2 x1 e x1 sono le due medie campionarie se n1 ≠ n2: s 2 p n1 - 1s12 n2 - 1s22 n1 n2 - 2 è la stima combinata della varianza della popolazione Test t di Student per dati appaiati Il test t per dati appaiati può essere utilizzato per verificare l’ipotesi che, mediamente, non ci sia alcuna variazione negli individui a cui è stato somministrato il farmaco oggetto di studio. H0 : mp md Oppure H0 : md = 0 H1 : mp ≠ md Oppure H1 : md ≠ 0 L’indice t è, in questo caso, determinato dal rapporto: d t esd dove : - d è la differenza media dovuta al trattamento - e sd l' errorestandard della differenza media • Il valore di t che ne risulta è confrontato col valore critico di t per n-1 gradi di libertà. • Le condizioni di applicabilità del test prevedono che le variazioni associate al trattamento debbano essere distribuite in modo approssimativamente normale. Esempio Test t di Student per dati appaiati La tabella mostra la pressione sistolica misurata ad 11 pazienti ipertesi dopo la somministrazione di placebo e di idroclorotiazide. In base ai risultati osservati, vi è una qualsiasi evidenza di una differenza nella pressione media sistolica sanguigna a seguito di questi due trattamenti? Paziente Placebo Idroclorot. differenze 1 211 181 30 2 210 172 38 3 210 196 14 4 203 191 12 5 196 167 29 6 190 161 29 7 191 178 13 8 177 160 17 9 173 149 24 10 170 119 51 11 163 156 7 Esempio Test t di Student per dati appaiati d d n Sd i 264 24,0 11 2 d d i n -1 (30 - 24)2 38 - 24 2 ... 7 - 24 2 13,09 10 d d 24 6,08 S 13 , 09 esd d n 11 n - 1 10 t In base al t-test di Student per dati appaiati possiamo notare un abbassamento significativo della pressione sistolica in corrispondenza della somministrazione di idroclorotiazide (p<0,001) FINE DELLA LEZIONE