UNIVERSITA’ DEGLI STUDI DI PERUGIA STATISTICA MEDICA Prof.ssa Donatella Siepi [email protected] tel: 075 5853525 02 dicembre 2014 9° LEZIONE Statistica inferenziale Probabilità Campione Popolazione Statistica inferenziale Basi dei test statistici LA VERIFICA DI IPOTESI: TEST BASATI SU UN CAMPIONE La verifica di ipotesi Verifica di ipotesi: metodologia per fare inferenza sui parametri della popolazione alla luce dell’analisi delle differenze tra i risultati osservati (statistica campionaria) e quelli che ci aspetteremmo se una qualche ipotesi sulla popolazione fosse vera. La verifica di ipotesi ha inizio con la formulazione del sistema di ipotesi sottoposto a verifica. Il sistema di ipotesi fa sempre riferimento a qualche parametro della popolazione. Consiste sempre in due ipotesi contrapposte. Test Z per la media (s noto) Per verificare l’ipotesi che la media della popolazione sia uguale ad un certo valore m, contro l’ipotesi alternativa che la media differisca da tale valore, conoscendo s, si ricorre alla statistica Z: X è distribuita come una normale => sotto H0 Z è distribuita come una normale standardizzata Se Z assume valori vicini allo zero siamo portati ad accettare H0, altrimenti si propende per rifiutare H0 (test a due code). L’approccio del p-value Negli ultimi anni, anche grazie all’ampia diffusione di pacchetti statistici e fogli elettronici, si è affermato un altro approccio alla verifica di ipotesi: l’approccio del p-value. Il p-value è anche chiamato livello di significatività osservato. Regola decisionale: • se il p-value è maggiore o uguale ad a, l’ipotesi nulla viene accettata • se il p-value è minore di a, l’ipotesi nulla è rifiutata ANALIZZARE le FREQUENZE Test Chi-quadrato Confronto tra proporzioni • I TESTS del CHI-QUADRATO sono utilizzati per valutare l’omogeneità, la casualità, l’associazione, l’indipendenza e la bontà di adattamento TABELLE di CONTINGENZA Frequenze di dati nominali raggruppati in categorie sono spesso organizzate in forma di tabella di contingenza. Il caso più semplice implica due variabili casuali dicotomiche; le righe della tabella rappresentano i risultati di una variabile e le colonne i risultati dell'altra, i numeri all'interno della tabella sono le frequenze di una particolare combinazione di categorie. Test Chi-quadrato per la differenza tra due proporzioni Il problema della verifica di ipotesi sulla differenza tra due proporzioni può essere affrontato anche con una procedura basata su una statistica test la cui distribuzione tende ad approssimarsi con una distribuzione chiquadrato (χ2). Se siamo interessati a confrontare le proporzioni di casi che presentano una certa caratteristica in due gruppi indipendenti possiamo costruire una tabella a doppia entrata (o di contingenza) di dimensioni 2×2 nella quale sono riportati il numero (o le percentuali) di successi e insuccessi nei due gruppi • I risultati ottenuti nei campioni non sempre concordano esattamente con i risultati teorici attesi secondo le regole di probabilità, anzi, è ben raro che questo si verifichi. • considerazioni teoriche ci portino ad attenderci 50 teste e 50 croci da 100 lanci di una moneta, è raro che questi risultati siano ottenuti esattamente, ma nonostante questo non si deve per forza dedurre che la moneta sia truccata. • Supponiamo che in un particolare campione si sia osservato che un insieme di possibili eventi E1, E2, …, Ek si presenta con frequenze o1, o2, …, ok dette frequenze osservate, e che, secondo le regole della probabilità, ci si attenda che si presenti con frequenze e1, e2, …, ek dette frequenze teoriche o attese: Lo scopo del test χ² è quello di conoscere se le frequenze osservate differiscono significativamente dalle frequenze teoriche. χ² = (O-E)2 E χ² = (O-E)2 E Test Chi-quadrato per Tabelle 2x2 Si consideri la tabella, che illustra i risultati di uno studio di validità del test da sforzo positivo (ST-2) nel predire eventi cardiovascolari CV nei 5 anni seguenti in soggetti non sintomatici(1). Esito Eventi CV Nessuno Totale I dati si riferiscono ad un campione casuale di 514 soggetti sani arruolati in uno studio eseguito nel CPA di Milano. SFORZO Negativo ST-2 13 21 366 114 379 135 Totale 34 480 514 CV: (morte improvvisa,infarto mortale, infarto semplice, angina) ST-2:Presenza di anomalie nel tratto ST dell’ECG eseguito sotto sforzo 514 soggetti sono stati arruolati nello studio 135 soggetti hanno avuto esito positivo; 379 soggetti hanno avuto esito negativo; Dei 379 con esito negativo, 13 svilupparono eventi CV e 366 no; Dei 135 con esito positivo, 21 svilupparono eventi CV e 114 no. SFORZO Esito Negativo ST-2 Totale Eventi CV 13 21 34 Nessuno 366 114 480 Totale 379 135 514 I numeri all'interno della tabella 13 21 366 e 114 sono le frequenze osservate IL TEST D'IPOTESI: Scopo: valutare capacità predittiva della risposta ST-2 al test da sforzo H0: la frazione di soggetti ST-2 all’ECG da sforzo che sviluppano eventi CV è uguale alla frazione di soggetti che sviluppano eventi CV essendo NEGATIVI all’ECG da sforzo H1: la frazione di soggetti ST-2 all’ECG da sforzo che sviluppano eventi CV è diversa dalla frazione di soggetti che sviluppano eventi CV essendo NEGATIVI all’ECG da sforzo Il livello di significatività è posto α=0,05 Si calcolano le frequenze attese sotto l’ipotesi nulla H0: La proporzione di soggetti con eventi CV = 34/514 = 6.61% Tra i 135 esiti positivi, ci aspettiamo che gli eventi CV • Presenza di eventi CV nel 6.61% dei casi 135 (0.0661) = 8.93 • Assenza di eventi CV nel 93.39% dei casi 135 (0.9339)= 126.07 Tra i 379 esiti negativi, ci aspettia-mo • Presenza di eventi CV nel 6.61% dei casi 379 (0.0661) = 25.05 • Assenza di eventi CV nel93.39% 379 (0.9339) = 353.95 LE FREQUENZE ATTESE La frequenza attesa per una della tabella è calcolata dal prodotto dei totali di riga e di colonna diviso dal totale di tabella. SFORZO Esito Eventi CV 379 ( 34/514)= 25.07 Nessuno 379 (480/514)= 353.93 135 (480/514) = 126.07 Totale Negativo 13 ST-2 135 ( 34/514) = 8.93 21 366 114 379 135 I conteggi osservati erano 13 21 366 e 114 Totale 34 480 514 IL TEST CHI-QUADRATO Il test chi-quadrato confronta le frequenze osservate in ciascuna categoria, rappresentate da O, con le frequenze attese sotto l'ipotesi nulla, indicate con E. Il test saggia se le differenze (O-E) tra frequenze osservate e attese siano troppo grandi perché siano attribuite al caso. Il test controlla le differenze in tutte le celle. Per eseguire il test per una tabella di contingenza con (r) righe e (c) colonne, si calcola la somma: 2 (O -E ) i i 2 χ = Ei i=1 r×c dove rc è il numero di celle nella tabella. La distribuzione di probabilità di questa somma è approssimata una distribuzione chi-quadrato con gradi di libertà (gdl)= (r-1)(c-1). Importante calcolare i gradi di libertà test chi quadrato Si intende uno dei test di verifica d'ipotesi usati in statistica che utilizzano la variabile casuale Chi Quadrato per verificare se l'ipotesi nulla è probabilisticamente compatibile con i dati. A seconda delle ipotesi di partenza usate per costruire il test, tali test vengono considerati a volte parametrici e altre volte non parametrici Affinché si possa utilizzare il chi quadro e' indispensabile: a) che i dati siano indipendenti, cioe' nessun soggetto puo' apparire in piu' di una cella della tabella; b) che non piu' del 20 % delle frequenze attese nella tabella puo' essere < 5 (altrimenti si deve usare il test esatto di Fisher); c) nessuna cella deve avere una frequenza attesa < 1 (altrimenti si deve usare il test esatto di Fisher). d) Non c’è alcuna ipotesi di normalità sulla distribuzione della popolazione di provenienza del campione. Per questo fa parte della famiglia dei test non parametrici