*PDF da scaricare Università degli Studi di Pavia Dipartimento di Scienze Sanitarie Applicate Via Bassi 21- 27100 PAVIA INDIRIZZO ONLINE http://nfs.unipv.it/ >Didattica Statistica Medica >Materiale didattico >Medicina e Chirurgia Statistica #1 (Grassi) Statistica #2 (Grassi) Mario Grassi Università di Pavia [email protected] Sommario Disegno della ricerca 1. Disegno di studio 2. Distribuzioni di frequenza Raccolta dei dati 3. Misure di posizione/variabilità 4. Misure di occorrenza/effetto 5. Test di significatività Analisi dei dati 6. Intervalli di confidenza Interpretazione dei risultati Eventuale pubblicazione 1 Disegni di ricerca Trial clinico randomizzato CASE-REPORT CASE-SERIES DESCRITTIVI ECOLOGICO Hanno lo scopo di studiare l’efficacia di un trattamento (un farmaco, un procedura chirurgica, ecc.) su un campione di soggetti affetti da una determinata patologia. Disegno randomizzato: TRASVERSALE OSSERVAZIONALI CASO-CONTROLLO Efficacia ANALITICI Trattamento S COORTE n Efficacia Trattamento N CLINICAL TRIALS SPERIMENTALI Non efficacia Non efficacia FIELD TRIALS COMMUNITY TRIALS Esempio 1 Trial clinico appaiato Tabella 2x2 di un trial clinico sull’efficacia (+=successo; − = insuccesso: frequenza di ricaduta) di una nuova procedura radioterapica rispetto alla procedura standard in pazienti affetti di tumore di Wilms’s (tumore renale): Hanno lo scopo di studiare l’efficacia di un trattamento (un farmaco, una procedura chirurgica, ecc.) su un campione di soggetti affetti da una determinata patologia. Disegno appaiato: Trattamento Efficacia Esito Nuovo Standard Prima (S) Totale n − 1=y1 6=y0 7=y+ + 24=n1−y1 19=n0−y0 43=n − y+ Totale 25=n1 25=n0 50=n Non efficacia Efficacia Dopo (N) Non efficacia 2 Studio di coorte Esempio 2 Tabella 2x2 di un trial clinico sull’efficacia (+=successo; − =insuccesso) di due analgesici: un gruppo di pazienti con sintomi da "dolore“ persistente vengono trattati inizialmente con il farmaco A; finito l'effetto farmacologico, dopo un certo periodo di tempo, sono trattati con B: Hanno lo scopo di determinare la frequenza di una malattia in una popolazione di persone sane suddivise in base all’esposizione ad un fattore di rischio: Malati Prima Sani Malati Non Esposti Sani Malati N − + Totale − 12=e 7=f 19=m1 + 5=g 16=h 21=m0 17=n1 23=n0 40=n Dopo Totale Esposti Sani R E Direzione dell’indagine Direzione causa-effetto P M Esempio 3 Studio caso-controllo Tabella 2x2 di uno studio per coorte retrospettivo con un follow-up di 25 anni (Boice & Manson, J. Natl. Cancer Inst. 1977) sulla relazione tra carcinoma del seno e esposizione a raggi x in donne esposte e non esposte a fluoroscopie multiple ai raggi-x: Hanno lo scopo di determinare la frequenza di un fattore di rischio di una certa malattia in una popolazione suddivisa in base alla presenza della malattia: Esposti Esposizione Casi N Casi Si No Totale 41=y1 15=y0 56=y+ Non casi 1080=n1−y1 746=n0−y0 1826=n+ −y+ Totale 1121=n1 761=n0 1882=n R E Non esposti Esposti Controlli Non esposti Direzione dell’indagine Direzione causa-effetto P M 3 Esempio 4 Tabella 2x2 studio caso-controllo (Rothman et al. Am. J. Epidemiol. 1979) sulla storia di uso di clorodiazopoxide prima della gravidanza in madri con figli nati con difetti congeniti al cuore e in madri con figli normali: Uso clordiazopoxide Madre Si No Totale Caso 4=a 386=b 390=m1 Controllo 4=c 1250=d 1254=m0 Totale 8=n1 1636=n0 1644=n Questioni • Come valutare le informazioni raccolte ovvero come confrontare i due gruppi indagati? • R: Statistica descrittiva • Le differenze riscontrate sono reali o possono essere anche dovute a fluttuazione casuale? • R: Test di significatività • E’ possibile (e come) generalizzare le considerazioni tratte dai risultati ottenuti? • R: Stima ad intervallo Matrice dei dati Distribuzioni di frequenza Unità statistica: la minima unità da cui si raccolgono i dati relativi alle singole unità e possono essere raggruppati ma non suddivisi in unità più specifiche. Variabile: la caratteristica (attributo o misura) osservata sulle unità statistiche. Matrice dei dati: una tabella dove le righe rappresentano le unità statistiche e le colonne le variabili osservate in ciascuna unità statistica. 4 Tipo di variabili CONTINUE QUANTITATIVE DISCRETE NOMINALI QUALITATIVE BINARIE ORDINALI Distribuzioni di frequenza 1 Se la variabile è qualitativa, ordinale o discreta: Modalità variabile Frequenza assoluta Frequenza relativa x1 f1 p1 x2 f2 p2 … … … xj fj pj … … … xC fC pC Totale n 1 •fj = numero di osservazioni modalità j •pj =numero di osservazioni modalità j /n Distribuzione di frequenza “qualità dell’assistenza” di un servizio ginecologico giudicato da un campione di 144 donne utenti: Qualità assistenza Frequenze assolute Frequenze relative A - Scadente 8 0,06=8/144 B - Sufficiente 25 0,17=25/144 C - Discreta 50 0,35=50/144 D - Buona 43 0,30=43/144 E – Ottima 18 0,12=18/144 Totale 144 1 5 La distribuzione di frequenza del sintomo pessimismo” (punti 0-3) della tavola 2.3 è la seguente diagramma a barre orizzontale: Qualità assistenza A prima trattamento Modalità Freq Freq assoluta relativa B C D dopo trattamento Freq Freq assoluta relativa E 0 10 20 30 40 50 60 Frequenza diagramma a barre verticale: 2 2/15=0,13 13% 7 7/15=0,47 47% 1 4 4/15=0,27 27% 4 4/15=0,27 27% 2 4 4/15=0,27 27% 2 2/15=0,13 13% 3 5 5/15=0,33 33% 2 2/15=0,13 13% Totale 15 1,00 100% 15 1,00 100% Diagramma a barre verticali 60 50 Frequenza 0 40 30 20 10 0 A B C D E Qualità assistenza Distribuzioni di frequenza 2 Se la variabile è quantitativa (continua): Classi xj fj pj Fj Pj [x1; x2) x1 f1 p1 F1 P1 [x2; x3) x2 f2 p2 F2 P2 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ [xc;xc+1) Totali xc fc pc n 1 Fc=n Pc=1 fj= numero osservazioni (Frequenza assoluta) pj= fj/n (Frequenza relativa) Fj=Σ fj (Frequenza cumulata assoluta) Pj=Σ pj (Frequenza cumulata relativa) La distribuzione di frequenze di livelli di acido urico serico (in mg/100ml) osservati su 267 maschi sani donatori di sangue, risulta: Classi Valore centrale f F [3,0 ; 3,5) 3,25 2 2 [3,5 ; 4,0) [4,0 ; 4,5) [4,5 ; 5,0) [5,0 ; 5,5) 3,75 4,25 4,75 5,25 15 33 40 54 17 50 90 144 [5,5 ; 6,0) [6,0 ; 6,5) [6,5 ; 7,0) [7,0 ; 7,5) [7,5 ; 8,0) [8,0 ; 8,5) [8,5 ; 9,0) Totale 5,75 6,25 6,75 7,25 7,75 8,25 8,75 47 38 16 15 3 1 3 267 191 229 245 260 263 264 267 6 Poligono di frequenze relative: x=valore centrale di classe y=frequenze relative Poligono di frequenze cumulate (ogiva): x=valore superiore di classe y=frequenze cumulate 70 0,90 50 0,80 frequenza relativa cumulata frequenza assoluta 1,00 60 40 30 20 10 0,70 0,60 0,50 0,40 0,30 0,20 0 2,75 3,25 3,75 4,25 4,75 5,25 5,75 6,25 6,75 7,25 7,75 8,25 8,75 0,10 0,00 acido urico (mg/100ml) 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5 9 acido urico (m g/100m l) Si consideri la seguente distribuzione per classi di età delle vittime di incidenti stradali avvenuti nel 1985 a Londra nel quartiere di Harrow Classi Età [0 ; 5) Frequenza assoluta 28 La lettura dei due istogrammi seguenti: a) rettangoli con altezze proporzionali alle frequenze: suggerisce l'idea errata che le vittime più frequenti siano in età adulta yj = f j 350 [5 ; 10) [10 ; 16) [16 ; 17) [17 ; 18) [18 ; 20) [20 ; 25) [25 ; 60) [60 e oltre] Totale 46 58 20 31 64 149 316 103 815 300 250 200 150 100 50 0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 età 7 Numero/ampiezza classi b) rettangoli con aree proporzionali alle frequenze: evidenzia la realtà del fenomeno ovvero che i soggetti in età tra 16 e 24 anni sono i più colpiti. 35 Si calcola il NUMERO di classi come: c = 1+ 10 ⋅ log10 n 3 Da cui si ottiene l’AMPIEZZA delle classi: y j = f j hj h= 30 25 (x(n ) − x(1) ) c 20 Oppure si calcola L’AMPIEZZA delle classi: 15 10 h = 3,5 × s / 3 n 5 0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 Da cui si ottiene il NUMERO delle classi: età c= (x(n ) − x(1) ) h Statistica descrittiva Misure posizione/variabilità • MISURE DI POSIZIONE: indici capaci di sintetizzare in un singolo valore numerico gli aspetti di costanza dei dati numerici (quantitativi) • MISURE DI VARIABILITÀ: indici capaci di sintetizzare in un singolo valore numerico gli elementi di eterogeneità dei dati numerici (quantitativi) • MISURE DI OCCORENZA: indici capaci di sintetizzare in un singolo valore numerico la frequenza di eventi binari (qualitativi) • MISURE DI EFFETTO: indici capaci di sintetizzare in un singolo valore numerico la relazione causa-effetto tra due eventi binari (qualitativi) 8 Misure di posizione Misure di posizione (mediana) •media: x + x 2 +⋯ + x n x = 1 = n n ∑ xi = i =1 n se n è dispari x(n+1) 2 M = x(n / 2) + x(n / 2+1) se n è pari 2 •moda: La moda m corrisponde al valore che si presenta con maggior frequenza. N.B. La mediana non è influenzata dalla variabilità dei dati o da valori estremi o anomali Se i dati sono raggruppati in classi di frequenza, la moda coinciderà con il valore centrale della classe con la massima frequenza. Dalla matrice dei dati dei pazienti affetti da sindromi depressive, calcolati e ORDINATI i valori della variabile "differenza prima-dopo il trattamento" del colesterolo totale (in mg%), si ottiene la serie di dati: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 x -95 -70 -70 -40 -35 -29 -20 +24 +85 +125 +128 +133 +135 +155 +160 Misure di posizione (Quantili) Estendendo il concetto di mediana è possibile suddividere i dati in q parti (quantili): •i quartili Q1, Q2, Q3 vengono definiti come quei valori che, in una seriazione ordinata, separano il primo quarto, la metà, i primi tre quarti delle osservazioni; ovviamente Q2 =M •I decili (D1, D2,…,D9) e i centili (C1, C2,…,C99) si definiscono e si calcolano in maniera analoga dividendo la seriazione rispettivamente in 10 e 100 parti. La mediana è il valore x di rango 8: M=x(8) =+24 9 Diagramma quantile Se la variabile è numerica un diagramma cartesiano di particolare utilità è il diagramma quantile che è una rappresentazione delle singole unità statistiche così costruita: Dalla matrice dei dati dei pazienti affetti da sindromi depressive, calcolati e ORDINATI i valori della variabile "differenza prima-dopo il trattamento" del colesterolo totale (in mg%), si ottiene: •si ordinano le n osservazioni della variabile x in senso crescente: x(1), x(2),...., x(n); • ad ogni osservazione i=1,...,n si associa il rango relativo definito da: (i−1/2)/n ; • si riportano sull'asse delle ascisse i valori di x(i) e sull'asse delle ordinate i valori del rango, (i−1/2)/n che possono anche essere espressi in valori percentuali ed interpretati come frequenze relative cumulative; rango rango •si uniscono infine con una spezzata i punti così rappresentati 1,00 0,95 0,90 0,85 0,80 0,75 0,70 0,65 0,60 0,55 0,50 0,45 0,40 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0,00 -100 -50 0 50 100 differenze colesterolo (in mg%) 150 X=x(i) -95 -70 -70 -40 -35 -29 -20 +24 +85 +125 +128 +133 +135 +155 +160 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Y=(i− −1/2)/15 0,03 0,10 0,16 0,23 0,30 0,36 0,43 0,50 0,56 0,63 0,70 0,76 0,83 0,90 0,96 1,00 0,95 0,90 0,85 0,80 0,75 0,70 0,65 0,60 0,55 0,50 0,45 0,40 0,35 0,30 0,25 0,20 0,15 0,10 0,05 0,00 -100 -50 0 50 100 150 differenze colesterolo (in mg%) 10 Misure di variabilità 1 • L’intervallo di variazione (range): (x(n) − x(1)) • La differenza interquartile: Q3−Q1 Misure di variabilità 2 • Distanza dei punti da un punto di riferimento detto polo o centro • Distanza tra tutte le possibili coppie di punti (mutua variabilità) • L’intervallo tra il 10° ed il 90° centile (C90 − C10) C Misure di variabilità (varianza) •varianza: Su 7 soggetti si è rilevata la serie dei valori di temperatura corporea (misurata in gradi,°): 38 35,5 38,5 37 40,5 39 40 n s2 = ∑ (x i =1 − x) 2 i n −1 35,5 37 38 38,5 39 40 40,5 x = ( 38 + 35,5 + 38,5 + 37 + 40,5 + 39 + 40) / 7 = 38,4° •2×varianza: n −1 n ∑ ∑ (xi − x j )2 2 ⋅ s2 = dopo un ordinamento crescente si ottiene la seriazione: i =1 j = i +1 n (n − 1) 2 M = x( 7 +1) 2 = x( 4 ) = 38,5° m = non definibile misure di posizione 11 i 1 j 2 3 4 5 6 1 0 2 1,5 3 2,5 1 0 4 3 1,5 0,5 0 5 3,5 2 1 0,5 0 6 4,5 3 2 1 1 0 7 5 3,5 2,5 1,5 1,5 0,5 7 Misure di variabilità 3 0 Deviazione standard s = varianza 0 Differenza media quadratica s ⋅ 2 s2 = (35,5 − 38,4 )2 + (37 − 38,4 )2 + ... + (40,5 − 38,4 )2 7 −1 = 2 ,976 Coefficiente di variazione v = s x 1 (1,52 + 2 ,52 + ... + 0,52 ) s2 = ⋅ = 2 ,976 2 21 Varianza Misure ponderate s = 2,976 = 1,725° v = 1,725/ 38,36° = 0,04(4%) 2s = 2 ⋅1,725 = 2,44° •media: x= x1 f1 + x2 f 2 + ⋯ + x J f J = f1 + f 2 + ⋯ + f J J = ∑xj fj j =1 I valori di temperatura corporea si distribuiscono attorno alla media (38,36°) con una deviazione standard di 1,725° e con una variabilità relativa del 4%; tra di loro, inoltre, i valori hanno una differenza media quadratica (mutua variabilità) di 2,44°. J ∑ fj j =1 •varianza: J ∑ (x j − x )2 f j s2 = j =1 J ∑ f j −1 j =1 12 La distribuzione di frequenza del peso (Kgp) in una casistica di 310 soggetti affetti da diabete manifesto raggruppati in J=9 classi con ampiezza h=3, risulta: Classi peso Valore Frequenza Frequenza centrale assoluta cumulata [69,5 ; 72,5) [72,5 ; 75,5) [75,5 ; 78,5) [78,5 ; 81,5) [81,5 ; 84,5) [84,5 ; 87,5) [87,5 ; 90,5) [90,5 ; 93,5) [93,5 ; 96,5) Totale 71 74 77 80 83 86 89 92 95 3 4 22 53 92 71 46 15 4 310 3 7 29 82 174 245 291 306 310 •media: x= = x1 f1 + x2 f 2 + ⋯ + x J f J = f1 + f 2 + ⋯ + f J 71 ⋅ 3 + 74 ⋅ 4 + ⋯ + 95 ⋅ 4 = 83,99 310 •varianza: J ∑ (x j − x )2 f j s2 = j =1 J ∑ j =1 = = f j −1 (71 − 84) 2 + ⋯ + (71 − 84) 2 = 4,35 310 − 1 1,00 frequenza cumulata Misure occorrenza/effetto 0,75 0,50 0,25 0,00 72,5 75,5 78,5 81,5 84,5 Q1 M 87,5 90,5 Q3 93,5 96,5 peso (Kg) x = 83,99 kg M = 83,88 kg Q1 = 80 kg Q3 = 86 kg s = 18,89 = 4,35 kg 2 ⋅ s = 6,15 kg 13 Probabilità condizionale Se una prova ha un insieme di risultati ugualmente possibili, la probabilità di un evento E sarà data dal rapporto fra il numero di casi favorevoli e il numero di casi possibili: n (E ) Pr (E ) = n (Ω ) Misure di occorrenza (Rischio) Il rischio (incidenza cumulativa) R = probabilità di un individuo di sviluppare la malattia durante l'intervallo di tempo [t0;t1) data la condizione che l'individuo sia sano all'inizio di tale intervallo: R = Pr ( malato in t0 → t1 sano in t0 ) Operativamente il rischio si calcola come: Pr( E1 | E2 ) Dati due eventi compatibili E1 ed E2 dicesi PROBABILITÀ CONDIZIONALE di E1 DATO E2, la probabilità dell’evento E1 dato che si è verificato l’evento E2 R= y n •y = numero casi che si sono verificati nel follow-up t0 → t1 •n = numero di soggetti sani all’inizio dello studio in t0 Misure di occorrenza (Odds) Come leggere l’odds? L’odds O = rapporto tra la probabilità che un individuo sano all'istante t0 sviluppi la malattia durante il periodo di osservazione t0→ t1 e la probabilità che lo stesso rimanga sano: O :1 = Pr (malato in t0 → t1 sano in t0 ) :1 Pr (sano in t0 → t1 sano in t0 ) Operativamente si calcola come: O= y n− y •y = numero casi che si sono verificati nel follow-up t0 → t1; •n−y = numero di sani alla fine dello studio 4,32 1 0,19 4,32 : 1 1 :1 1 : 5,26 Interpretazione 1: a) La probabilità di ammalarsi è 4 volte superiore a quella di rimanere sano b) La probabilità di ammalarsi = probabilità di rimanere sano c) La probabilità di ammalarsi è 5 volte inferiore a quella di rimanere sano 14 Esempio 5 Come leggere l’odds? 4,32 1 0,19 La tabella seguente mostra per ciascuna classe d’età (osservata alla prima rilevazione) il numero di maschi che sviluppano una malattia coronarica cardiaca (Coronary Heart Disease: CHD) durante un follow-up prospettivo di 12 anni condotto a Framingham, Massachusetts (USA): 4,32 : 1 1 :1 1 : 5,26 Età (in anni) Interpretazione 2: a) Su 5 persone 4 sono malate e 1 è sana b) Su 2 persone 1 è malata e 1 è sana [30;40) [40;50) [50;60) affetti da CHD 40 88 130 non affetti da CHD 749 654 526 Totale 789 742 656 c) Su 6 persone 1 è malata e 5 sono sane Misure di occorrenza (Tasso) Età (in anni) Rischio [30;40) [40;50) [50;60) 40/789= 0,051 (5,1%) 88/742= 0,119 (11,9%) 130/656= 0,198 (19,8%) Il tasso (incidenza istantanea) r = rapporto tra la probabilità che un individuo sano all'istante t, sviluppi la malattia nell'intervallo di tempo [t;t+∆t) e l'intervallo ∆t: r= Pr (malato in t → t + ∆t sano in t ) ∆t Operativamente si calcola come: Odds 40/749= 0,053 (1:19) 88/654= 0,135 (1:7) 130/526= 0,247 (1:4) r= y y = Σti M •y = numero casi verificatesi in t0 → t1 •ti = tempo di osservazione soggetto (i=1,2,...N) •M = massa delle persone-tempo = il totale dei tempi di osservazione 15 Schema di follow-up (1) Schema di follow-up (2) Soggetti Soggetti • » 1 × » 5 6 7 x 1 2 3 4 5 6 7 Tempo (click) 8 9 9 » 10 » 1 10 3 / 81 3 = = 0,037 × mese−1 1 mese 81 ⋅ 1 mese 100 r= ⋅ 0,037 × mese−1 = 3,7 × 100 persone - mese−1 100 r= • » 2 4 5 • × » 8 x 3 • × » » 1 2 » 4 x ←→ • » 2 3 dt 6 7 8 • 3 9 • 4 5 6 7 Tempo (click) 8 9 10 10 3 / 53 3 = = 0,0566 × mese−1 1 mese 53 ⋅ 1 mese 100 r= ⋅ 0,0566 × mese−1 = 5,66 × 100 persone - mese−1 100 r= Relazione rischio-odds-tasso Età (in anni) 1,00 [30;40) [40;50) [50;60) 40 88 130 0,90 0,80 numero eventi 0,70 persone-anno 9228 8376 7092 Odds 0,60 0,50 0,40 tasso×1000 4,3 10,5 18,3 rischio/12 0,0042 0,0099 0,0165 0,30 0,20 0,10 0,00 0,00 0,20 0,40 0,60 0,80 1,00 Rischio Metodo attuariale calcolo massa, M: M = ( n − y − w ) ⋅ T + ( y + w) ⋅ T / 2 = n ⋅ T − ( y + w) ⋅ T / 2 T= t1−t0= periodo follow-up w= numero “persi di vista” nel follow-up se R < 0.1 : R ≅R 1− R r = − log(1 − R ) / T ≅ R / T O= r ≅ O /T 16 Gruppo Relazione rischio-odds-tasso Esposti farmaco Casi se R < 0.1 : Non casi R ≅R 1− R r = − log(1 − R ) / T ≅ R / T O= Totale y1 y0 y+ n0−y0 n−y+ n1 n0 n Gruppo 40 = 0,051 789 40 O= = 0,053 749 40 r= = 0,00434 9228 R= Esposti farmaco Non esposti placebo Totale Casi y1 y0 y+ Masse M1 M0 M+ Esposti Non esposti Totale a b m1 Gruppo r = − ln(1 − 0,051) / 12 = 0,00436 r ≅ 0,051 / 12 = 0,00424 ≅ 0,053 / 12 = 0,00442 Misure di effetto assoluto •differenza di tassi (Incidence Difference, ID) Totale n1−y1 r ≅ O /T •differenza di rischi (Risk Difference, RD) Non esposti placebo y y R1 − R0 = 1 − 0 n1 n0 y y r1 − r0 = 1 − 0 M1 M0 •differenza di medie Σy Σy y1 − y0 = i1 − i0 (Mean Difference, MD) n1 n0 N.B. Si calcola se i dati nei 2 gruppi sono quantitativi Casi Controlli c d m0 Totale n1 n0 n Misure di effetto relativo •rapporto fra rischi (Risk Ratio, RR) •rapporto fra tassi (Incidence Ratio, IR) •rapporto fra odds (Odds Ratio, OR) R1 y /n = 1 1 R0 y 0 / n0 r1 y / M1 = 1 r0 y 0 / M 0 O1 a ⋅ d = O2 b ⋅ c 17 Esempio 6 (continua) Esempio 6 Valutazione efficacia trattamento (ciclosporina) in pazienti che hanno subito un trapianto del rene. Sperimentazione clinica controllata policentrica; follow-up 6 mesi; 1 centro 49 pz = 24 pz standard e 25 pz farmaco. I tempi di risposta positivi (in giorni) dei 49 pz sono riportati nella tabella: Standard 1 8 39 50 71 Ciclospn 1 50* 126* 130*(2) 140*(2) tasso di arresto del rene gruppo 1 (standard) 6 = 0,00172 ⋅ giorni −1 = 3487 365 = ⋅ 0,00172 ⋅ giorni −1 = 365 0,62805 6,3 casi = = 1 ⋅ anno 10 persone−anno r1 = tasso di arresto del rene gruppo 2 (ciclospn) 1 = 0,00026 ⋅ giorni −1 = 3900 365 = ⋅ 0,00026 ⋅ giorni −1 = 365 0,09359 0,9 casi = = 1 ⋅ anno 10 persone−anno r2 = 78 152* 180* (18) 162* 169* 180*(15) Esempio 7 Esempio 6 (continua) Differenza di tassi (ID) di arresto del rene Tabella 2x2 studio caso-controllo riguardo relazione tumore all’esofago e consumo di alcool (ultimi 5 anni precedenti l’intervista) ID = 6,3 − 0,9 = +5,4 × 10 persone - anno −1 Consumo di alcool ≥ 80 gr/die < 80 gr/die Totale Casi 96=a 104=b 200=m1 Controlli 109=c 666=d 775=m0 Totale 205=n1 770=n0 975=n Rapporto fra tassi (IR) di arresto del rene IR = 6,3 × 10 persone - anno −1 =7 0,9 × 10 persone - anno −1 INTERPRETAZIONE? … 18 Tabella 2x2 con p e q Totali di colonna dipendono dalle frazioni campionarie p (percentuale casi) e q (percentuale controlli) che sono state definite dai totali di riga dello studio caso-controllo: Esposti Non esposti Totale Casi 96=a 104=b a+b Controlli 109=c 666=d c+d a+c b+d n Totale Esposizione Si No Odds dell’esposizione: odds fra i casi= a/b e fra i controlli= c/d OR = Casi a (p·A) b (p·B) a/b (A/B) a / b a d 96 ⋅ 666 = ⋅ = = 5,64 c / d c b 104 ⋅109 Odds della malattia: Controlli c (q·C) d (q·D) odds a/c (pA/qC) b/d (pB/qD) c/d (C/D) fra gli esposti= a/c fra i non esposti= b/d OR = Esempio 3 (continua) Esempio 7 (continua) Rapporto fra Odds: OR = a × d 96 × 666 = = 5,65 b × c 104 × 109 OR = odds (gruppo 1) = 5,65 odds (gruppo 2) L’odds di tumore all’esofago nei soggetti con alto consumo di alcool è circa 6 volte superiore all’odds di tumore all’ esofago nei soggetti con basso consumo di alcool. a / c a d 96 ⋅ 666 = ⋅ = = 5,64 b / d c b 104 ⋅109 Nello studio di coorte retrospettivo (follow-up di 25 anni) sulla relazione carcinoma al seno e esposizione a radiazioni multiple ai raggi x, sono state calcolate (utilizzando i tempi di ciascun soggetto) le masse nelle 2 coorti: Esposizione Si No Totale Casi 41=y1 15=y0 56=y+ Masse 28010=M1 19017=M0 47026=M+ 19 Esempio 3 (continua) Rapporto fra Tassi (Incidence Ratio): IR = Test di Significatività 41 / 2810 = 1,75 15 / 19017 Differenza fra Tassi (Incidence Difference): 41 15 − = 1,4 − 0,8 = 28010 19017 = +0,67 × 1000 persone - anno -1 ID = Il tasso di carcinoma al seno nelle donne esposte a radiazioni-x multiple è circa 2 volte superiore al tasso nelle donne non esposte a radiazioni-x multiple. Nelle donne esposte rispetto alle donne non esposte avviene circa 1 caso in più su 1000 persone in 1 anno Esempio 8 Test di significatività Scopo: fornire una misura dell’evidenza a sfavore di una ipotesi statistica, H0 riguardo ad una congettura scientifica, per esempio: • un farmaco A è migliore di un farmaco B • l’introduzione di una certa tecnologia biomedica aumenta la sopravvivenza di un dato paziente • L’abitudine fumo aumenta la probabilità di sviluppare il tumore al polmone • pazienti con malattie renali croniche vengono mantenuti in vita mediante dialisi • rischio di formazione di trombi (grumi di sangue) • l’aspirina inibisce la coagulazione del sangue L’aspirina protegge il paziente dializzato dalla formazione di trombi? congettura 20 Passi test di significatività Trattamento Pz con trombi Pz senza trombi Totale Aspirina Placebo Totale 6 18 24 13 7 20 19 25 44 0 Y = 1 Harter et al. (New Eng J Med, 1979) RD = y1 y0 6 18 − = − = −0,404 n1 n0 19 25 RR = y1 n0 6 19 = = 0,439 = 2,278 −1 y 0 n0 18 25 OR = 1.Variabile osservata: y1 /(n1 − y1 ) 6 / 13 = = 0,179 = 5,57 −1 y 0 /(n0 − y 0 ) 18 / 7 D: La discrepanza osservata è reale o può anche essere dovuta al caso? ASSENZA di TROMBOSI PRESENZA di TROMBOSI Si assume che nella popolazione la variabile binaria, x segua un distribuzione di probabilità di Bernoulli: se y = 1 π f ( y ) = π y (1 − π )1 − y = 1 − π se y = 0 Bernoulli(π)=B(π) 2. Popolazioni a confronto: π=0,08 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 Popolazione 1 = dializzati cronici trattati mediante aspirina 0 Popolazione 2 = dializzati cronici trattati mediante placebo 1 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 π=0,50 Ovvero: 0 1 in Popolazione 1 Y ~ Bernoulli (π1) 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 π=0,63 0 1 in Popolazione 2 Y ~ Bernoulli (π0) dove π1 e π0 sono parametri fissi e ignoti interpretati come probabilità di trombosi nella specifica popolazione 21 3. Definizione H0 vs. HA 4. Definizione test statistico H0: nessuna reale differenza fra le due popolazioni: la differenza osservata è dovuta al caso, ovvero nel nostro problema: Per verificare l’ipotesi nulla si può utilizzare il test-z, che nella sua formula generale, è pari a: z= H0: π1 = π0 oppure: OR=1 HA: esiste una differenza reale fra le due popolazioni: la differenza osservata non è dovuta al caso, ovvero nel nostro problema: H1: π1 ≠ π0 oppure: OR ≠ 1 H2: π1 > π0 oppure: OR > 1 H3: π1 < π0 oppure: OR < 1 dove: θˆ = stima statistica di una misura di “diversità” θ0 = valore atteso della stima statistica sotto H0 SE(θ)= errore standard (“standard error”) di θˆ Test chi-quadrato=test-z Considerando come misura di diversità: Odds trombosi nel gruppo “aspirina” ln OR = ln Odds trombosi nel gruppo “placebo” Date le precedenti assunzioni, si dimostra: θˆ − θ 0 SE (θˆ) TABELLA FREQUENZE “OSSERVATE”=O: Trattamento Pz. con trombi Pz. senza trombi Totale Aspirina 6 13 19 Placebo 18 7 25 Totale 24 20 44 TABELLA DELLE “FREQUENZE ATTESE”=E: z= ln OR − ln 1 1 1 1 1 + + + y1 y 0 ( n1 − y1 ) ( n 0 − y 0 ) per cui dai dati osservati: ln 0,17949 − ln 1 z= = − 2,58 1 1 1 1 + + + 6 18 13 7 Trattamento Pz. con trombi Pz. senza trombi Totale Aspirina 10,36 8,64 19 Placebo 13,64 11,36 25 Totale 24 20 44 E=totale riga × totale colonna / totale generale X2 = ∑ (O − E )2 = E (6 − 10,36) 2 (13 − 8,64) 2 (18 − 13,64) 2 (7 − 11,36) 2 = + + + = 10,36 8,64 13,64 11,36 = 7,102 X 2 = 7,102 = 2,67 22 Valore-P (P-value) Campioni ripetuti Il valore–P è la probabilità di ottenere i) il valore del test statistico osservato o addirittura di valori più estremi, ii) in una lunga serie di campioni nelle medesime condizioni del campione in studio, iii) supposto che sia vera l’ipotesi nulla, H0: C 1: z 1 È vera H0 C 2: z 2 ⋮ • due code, se H1 : θ1 ≠ θ 2 P = Pr( Z >| z || H 0 è vera ) C r: z r • una coda, se H 2 : θ1 > θ 2 • una coda, se H 3 : θ1 < θ 2 P = Pr( Z < z | H 0 è vera ) z= θˆ − θ 0 SE (θˆ) frequenze P = Pr( Z > z | H 0 è vera ) test-z Distribuzione di campionamento La distribuzione di campionamento del test-z sotto H0 è con una approssimazione di ordine O (1 / n ) la distribuzione Normale Standard: Z ~ N (0,1) 0,005 0,005 Nel nostro caso di un test tW a due code: P = Pr(| Z |>| −2,58 | | H 0 è vera) P = 2*0,00494=0,00988 23 Simulazione Monte Carlo L’approssimazione basata sulla teoria asintotica della distribuzione di campionamento del test-z dell’esempio 7 può essere verificata facilmente con una simulazione Monte Carlo, utilizzando software (script) in R: iter <- 10000 testZ<-NULL for(j in 1:iter) { be1<-rbinom(19, 1, 0.55) #estrazione di 19 soggetti del primo gruppo; probabilità H0= 24/44=0.55 di sviluppare trombi be2<-rbinom(25, 1, 0.55 ) #estrazione di 25 soggetti del secondo gruppo; probabilità H0= 24/44=0.55 di sviluppare trombi OR<-((sum(be1))/(19-sum(be1)))/((sum(be2))/(25-sum(be2))) SE<-sqrt(1/sum(be1)+1/sum(be2)+1/(19-sum(be1))+1/(25sum(be2))) z<-(log(OR)-log(1))/SE testZ<-c(testZ,z) } Interpretazione P-value Un basso valore-P equivale alla seguente disgiunzione logica: “o si è verificato un evento molto raro, o l'ipotesi nulla non è vera” (Fischer R.A., 1935), ovvero: “Un valore-P è supposto un indice della forza dell’evidenza contro l’ipotesi nulla” P-value Evidenza a sfavore H0 >0,10 Nessuna [0,10 – 0,05) Sospetta [0,05 – 0,01) Moderata [0,01 – 0,001) Consistente <0,001 Decisiva x<-rnorm(10000) # genero variabile N(0,1) hist(testZ, freq=FALSE, xlim=c(-4,4)) # istogramma valori test-z curve(dnorm(x), lty=4, add=T) # visualizzo curva N(0,1) Conclusione •Il risultato osservato è statisticamente significativo ovvero è verosimile la presenza di altri fattori (l’efficacia del farmaco?) che determinano la discrepanza rilevata •È da sottolineare il fatto che non si dimostra che l’aspirina è efficace, quello che si dimostra è l’evidenza che: •le frequenze osservate hanno una bassa probabilità di verificarsi se l’effetto dell'aspirina fosse come quello del placebo, ovvero che la discrepanza è dovuta all’effetto del solo caso. (Burdette e Gehan, 1970: Planning and Analysis Clinical Studies, p. 9) 24 Sommario-1 1. Variabile osservata, popolazione di riferimento, modello probabilistico; 2. Ipotesi nulla H0 vs. ipotesi alternativa HA; Esercizio 3.1 1) Uno studio caso-controllo, inteso a studiare l’effetto di condizioni genetiche protrombotiche nell’eziologia del ictus cerebrale, ha generato i seguenti risultati: FV Leiden G 3. 4. Calcolo test statistico, distribuzione di campionamento e calcolo valore P; Interpretazione del valore-P e conclusioni. G202110 A MTHFR TT Casi Controlli 7.8% (14/179) 5.5% (42/763) 2.7% (5/188) 2.4% (18/763) 13.5% (26/193) 9.0% (69/764) Verificare se esiste una evidenza statistica di un effetto della predisposizione genetica sull’ictus cerebrale ESERCIZIO 1-a FV leiden G+ GTotal casi 14 165 179 controlli 42 721 763 Total 56 886 942 1. Variabile osservata, popolazione di riferimento, modello probabilistico: Popolazione 1 Y~ Bernoulli (π1) Popolazione 2 3. Calcolo test statistico, distribuzione di campionamento e calcolo valore-P: 14 × 721 = ln 1,4566 165 × 42 1 1 1 1 SE (ln OR ) = + + + = 0,3225 14 165 42 721 ln OR = ln z= ln 1,4566 − ln 1 = 1,1736 → P = 0,2405 0,3225 Y~ Bernoulli (π0) 4. Interpretazione del valore-P e conclusioni: 2. Ipotesi nulla, H0 vs. ipotesi alternativa, HA: π /(1 − π 1 ) H0 : θ = 1 = 1 (OR = 1) π 0 /(1 − π 0 ) π /(1 − π 1 ) HA : θ = 1 ≠ 1 (due code) π 0 /(1 − π 0 ) Non rifiuto H0, dato che non c’è nessuna evidenza a sfavore dell’ipotesi nulla: l’OR osservato dell’effetto del genotipo sull’ ictus cerebrale potrebbero essere dovuto al caso 25 Stima Statistica Popolazione= N pazienti che manifestano artrite reumatoide ed ammessi ad un particolare ospedale in un periodo di un anno Campione: n<N pazienti estratti in modo casuale dal registro dei casi con artrite reumatoide di quel ospedale Modelli probabilistici Campione=Un gruppo di n pazienti che presentano una endocardite batterica subacuta sottoposti in modo randomizzato a due diversi trattamenti Modello Bernoulli (π) Equazione f ( y ) = π y (1 − π )1− y y = 0,1 Popolazione: Tutti i pazienti che hanno quella malattia con stesse caratteristiche e condizioni del gruppo in studio Poisson (µ) µy exp( − µ ) y! y = 0,1,2,⋯ f ( y) = y! = 1 × 2 × ⋯ × y Gauss (µ,σ2) 1 y − µ 2 exp − σ2 2 σ y = [ −∞;+∞ ] f ( y) ∝ 1 26 Stima statistica • Stima puntuale: θ = θˆ ha come risultato un singolo valore (“Maximum Likelihood Estimate” : MLE)+una sua misura di incertezza (“standard error”: SE) del parametro della popolazione da stimare; • Stima ad intervallo: θ = [θˆ1 ; θˆ2 ] ha come risultato un intervallo di valori (MLE) che, con un dato grado di fiducia, conterrà il parametro della popolazione da stimare Bernoulli(π)=B(π) Gruppo π=0,08 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 Casi Non casi 0 Totale 1 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 π=0,50 0 1 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 π=0,63 0 1 Esposti farmaco Non esposti placebo Totale y1 y0 y+ n1−y1 n0−y0 n−y+ n1 n0 n Popolazione 1 Y~ Bernoulli (π1) Popolazione 2 Y ~ Bernoulli (π0) π 1 − π 0 → RD = π1 → RR = π0 π 1 /(1 − π 1 ) → OR = π 0 /(1 − π 0 ) y1 y 0 − n1 n0 y1 / n0 y 2 / n0 y1 /(n1 − y1 ) y 0 /( n0 − y0 ) 27 Gruppo Prima − Esposti Non esposti Totale Dopo Casi a b m1 − Non casi c d m0 + Totale n1 n0 n Totale n1 Popolazione 1 Y~ Bernoulli (π1) Totale e f m1 g h m2 n2 n Popolazione 1 Y~ Bernoulli (π1 ) Y~ Bernoulli (π0 ) Popolazione 2 + Y~ Bernoulli (π0 ) Popolazione 2 π 1 /(1 − π 1 ) a ⋅d → OR = π 0 /(1 − π 0 ) b⋅c m1 n1 f − g − = n n n π1 − π 0 → Poisson(µ)=P(µ) Gruppo 0,4 µ=1 0,4 µ=4 0,4 0,35 0,35 0,35 0,3 0,3 0,3 0,25 0,25 0,25 0,2 0,2 0,2 0,15 0,15 0,15 0,1 0,1 0,1 0,05 0,05 0,05 0 0 0 0 5 10 15 20 25 0 5 10 15 20 25 µ=15 Esposti farmaco Non esposti placebo Totale Casi y1 y0 y+ Massa M1 M0 M+ Popolazione 1 Y ~ Poisson (µ1=λ1M1) Popolazione 2 Y ~Poisson (µ0=λ0M0) 0 5 10 15 20 25 λ1 − λ0 → ID = λ1 λ0 → IR = y y1 − 0 M1 M 0 y1 / M 1 y0 / M 0 28 Gauss(µ,σ2)=N(µ,σ2) N(0,1.8) N(-5,1.8) Gruppo n Media Varianza Farmaco n1 y1 s12 Placebo n0 y0 s02 N(5,1.8) 0,25 0,2 0,15 0,1 0,05 0 -10 -8 -6 -4 -2 0 N(0,2) 2 4 N(0,1) 6 8 Popolazione 1 Y ~ Normale (µ1 ; σ2) Popolazione 2 Y ~ Normale (µ0 ; σ2) 10 N(0,0.5) 0,8 0,7 0,6 µ1 − µ0 → 0,5 y1 − y0 0,4 0,3 σ 2 → s 2p = 0,2 0,1 0 -5 -4 -3 -2 -1 0 1 2 3 4 ( n1 − 1) s12 + ( n0 − 1) s02 n1 + n0 − 2 5 Stima massima verosimoglianza Gruppo n Media Varianza Dopo n y1 s12 Prima n y0 s02 Popolazione 1 Y ~ Normale (µ1 ; σ2) Y ~ Normale (µ0 ; σ2) Popolazione 2 µ1 − µ0 → y1 − y 0 n ∑ [( y1i − y0i ) − ( y1 − y0 )]2 σ 2 → s 2p = i =1 Definita la popolazione di riferimento, il modello probabilistico associato alla variabile in esame e il parametro di interesse si vuole stimare il valore del parametro. Un metodo di stima è il metodo di “massima verosimiglianza” (Maximum Likelihood Estimate: MLE), che fornisce: •valore più verosimile sulla base dei dati osservati= misura osservata nel campione •errore standard (SE), misura di incertezza (variabilità) della stima MLE Di seguito sono riportate in tabella le stime MLE+varianza (SE2) che si ottengono dai disegni di studio con 2 gruppi (tabelle 2x2): 2( n − 1) 29 Tabella MLE Esempio 3 (continua) Modello Parametro Stima [θˆ] Varianza [ sθ2ˆ ] 2 Bernoulli θ = π1 − π 0 R1 − R0 R1 (1 − R1 ) R0 (1 − R0 ) + n1 n0 2 Poisson θ = λ1 − λ0 r1 − r0 2 Gauss θ = µ1 − µ0 y1 − y 0 σ 2 Esposizione 2 Bernoulli θ = ln(π 1 / π 0 ) R ln 1 R0 1 − R1 1 − R0 + y1 y0 Si No Totale Casi 41=y1 15=y0 56=y+ Masse 28010=M1 a ⋅d ln θ = ln(Ω1 / Ω 0 ) b⋅c 2 Bernoulli 2 Poisson θ = ln(λ1 / λ0 ) r ln 1 r0 Nello studio di coorte retrospettivo (follow-up di 25 anni) sulla relazione carcinoma al seno e esposizione a radiazioni multiple ai raggi x, sono state calcolate (utilizzando i tempi di ciascun soggetto) le masse nelle 2 coorti: r1 r + 0 M1 M 0 1 1 + n1 n0 1 1 1 1 + + + a b c d 1 1 + y1 y0 Esempio 3 (continua) Esposizione Si No Totale Casi 41 15 56 Masse 28010 19017 47026 3. Calcolo test statistico, distribuzione di campionamento e calcolo valore-P: θˆ = y y1 41 15 − 0 = − = +0,000675 y -1 M 1 M 0 28010 19017 SE (θˆ) = 1. Variabile osservata, popolazione di riferimento, modello probabilistico: Popolazione 1 Y ~ Poisson (µ1=λ1M1) Popolazione 2 Y ~Poisson (µ0=λ0M0) 19017=M0 47026=M+ z= r r1 + 0 = 0,000306 y -1 M1 M 0 0,000675 = 2,21 → P = 0,0275 0,000306 4. Interpretazione del valore-P e conclusioni: 2. Ipotesi nulla, H0 vs. ipotesi alternativa, HA: H 0 : θ = λ1 − λ0 = 0 H A : θ = λ1 − λ0 ≠ 0 (due code) Rifiuto H0, dato che c’è una moderata evidenza (P=0,028) a sfavore dell’ipotesi nulla: l’eccesso del tasso degli esposti vs. non esposti potrebbe non essere dovuto al caso 30 Esempio 2 (continua) Tabella 2x2 di un trial clinico sull’efficacia (+=successo; − =insuccesso) di due analgesici: un gruppo di pazienti con sintomi da "dolore“ persistente vengono trattati inizialmente con il farmaco A; finito l'effetto farmacologico, dopo un certo periodo di tempo, sono trattati con B: − + Totale − 12=e 7=f 19=m1 + 5=g 16=h 21=m0 17=n1 23=n0 40=n Totale prima − + 12 7 5 16 17 23 − dopo + totale totale 19 21 40 1. Variabile osservata, popolazione di riferimento, modello probabilistico: Prima Dopo Esempio 2 (continua) 3. Calcolo test statistico, distribuzione di campionamento e calcolo valore-P: f g 7−5 − = n n 40 f +g 7+5 SE (θˆ) = = n2 40 2 θˆ = f −g 7−5 z= = = 0,58 → P = 0,56 7+5 f +g Popolazione 1 Y~ Bernoulli ( π1 ) Popolazione 2 Y~ Bernoulli ( π0 ) 2. Ipotesi nulla, H0 vs. ipotesi alternativa, HA: H 0 : θ = π1 − π 0 = 0 H A : θ = π 1 − π 0 ≠ 0 (due code) Esempio 1 (continua) Tabella 2x2 di un trial clinico sull’efficacia (+=successo; − = insuccesso: frequenza di ricaduta) di una nuova procedura radioterapica rispetto alla procedura standard in pazienti affetti di tumore di Wilms’s (tumore renale): Trattamento Esito Nuovo Standard Totale 4. Interpretazione del valore-P e conclusioni: − 1=y1 6=y0 7=y+ Non rifiuto H0, dato che non c’è nessuna evidenza (P=0,56) a sfavore dell’ipotesi nulla: la differenza osservata dell’effetto fra trattamento A e B potrebbe essere dovuto al caso + 24=n1−y1 19=n0−y0 43=n − y+ Totale 25=n1 25=n0 50=n 31 Esempio 1 (continua) esito nuovo − 1 + 24 totale 25 standard totale 6 7 19 43 50 25 3. Calcolo test statistico, distribuzione di campionamento e calcolo valore-P: θˆ = y1 y 0 1 6 − = − = −0,2 n1 n0 25 25 SE (θˆ) = 1. Variabile osservata, popolazione di riferimento, modello probabilistico: Popolazione 1 Y~ Bernoulli (π1) Popolazione 2 Y ~ Bernoulli (π0) z= R1 (1 − R1 ) R0 (1 − R0 ) + = 0,094 n1 n0 − 0 ,2 = −2,13 → P = 0,0167 0,094 4. Interpretazione del valore-P e conclusioni: 2. Ipotesi nulla, H0 vs. ipotesi alternativa, HA: H 0 : θ = R1 − R0 = 0 H A : θ = R1 − R0 < 0 (una coda) Rifiuto H0, dato che c’è una moderata evidenza (P=0,0167) a sfavore dell’ipotesi nulla: l’eccesso di esito negativo del nuovo vs. standard potrebbe non essere dovuto al caso Stima ad intervallo Intervalli di confidenza La stima ad intervallo di un parametro θ è l’insieme dei valori θ0 che soddisfano la condizione: “tutti i valori θ0 che sono compresi nell’intervallo non sono rifiutati da un test di significatività (test-z) a due code con una soglia del 5%” Formalmente l’intervallo è definito considerando l’insieme θ0 che soddisfa la condizione: θ = {θ 0 : P > 0,05} = = {θ 0 :| Z |<| 1,96 |} 32 Hj multiple frequenze Il valore di z=1,96 si ricava dalla loro distribuzione campionaria= distribuzione normale standard, Z~N(0,1) leggendo il valore 0,025, che ad un test a due code dà P=0,05 H 1 : θ = θ1 frequenze tes t-z H 2 : θ = θ2 te st-z 0,025 0,025 frequenze ⋮ ⋮ H c : θ = θc te st-z -1,96 +1,96 Trattamento Pz con trombi Pz senza trombi Totale Aspirina Placebo Totale 6 18 24 13 7 20 19 25 44 Per ogni ipotesi Hj si calcola test-z e valore-P: ln OR = ln 6 / 13 = ln 0,17949 18 / 7 SE (ln OR ) = zj = 1 1 1 1 + + + 6 18 13 7 ln 0,17949 − ln θ j 1 1 1 1 + + + 6 18 13 7 → Pj da cui si ottiene: θ = {θ 0 : Pj > 0,05}= = {θ 0 :| Z j |<| 1,96 |} zj = θˆ − θ j → Pj SE (θˆ) log(θ ) θ =OR test-z P-value -3,000 0,050 1,929 0,054 -2,700 0,067 1,478 0,140 -2,400 0,091 1,026 0,305 -2,100 0,122 0,575 0,565 -1,800 0,165 0,124 0,901 -1,500 0,223 -0,327 0,743 -1,200 0,301 -0,779 0,436 -0,900 0,407 -1,230 0,219 -0,600 0,549 -1,681 0,093 -0,300 0,741 -2,132 0,033 0,000 1,000 -2,584 0,010 0,300 1,350 -3,035 0,002 0,600 1,822 -3,486 0,000 0,900 2,460 -3,937 0,000 1,200 3,320 -4,389 0,000 1,500 4,482 -4,840 0,000 1,800 6,050 -5,291 0,000 2,100 8,166 -5,742 0,000 2,400 11,023 -6,194 0,000 2,700 14,880 -6,645 0,000 3,000 20,086 -7,096 0,000 33 Risolvendo la disequazione: θ = {θ 0 :| Z |<| 1,96 |} dopo facile algebra, si ottengono i limiti: [θˆ ;θˆ ] = θˆ ∓ 1,96 ⋅ SE(θˆ) 1 2 o se si considera: φ=ln(θ), per cui θ=exp(φ): [θˆ ;θˆ ] = θˆ ÷ × exp(1,96 ⋅ SE (lnθˆ)) 1 2 Dimostrazione della soluzione disequazione: θ = {θ 0 : P > 0,05} = = {θ 0 :| Z |<| 1,96 |} θˆ − θ 0 = θ 0 : <| 1,96 | ˆ SE (θ ) θˆ − θ 0 = θ 0 : −1,96 < < +1,96 ˆ SE (θ ) = {θ 0 : −1,96 ⋅ SE (θˆ) < θˆ − θ 0 < +1,96 ⋅ SE (θˆ)} = {θ 0 : θˆ − 1,96 ⋅ SE (θˆ) < θ 0 < θˆ + 1,96 ⋅ SE (θˆ)} In altri termini: da (MLE− −un certo errore) a (MLE+ un certo errore) = {θ 0 : θˆ ∓ 1,96 ⋅ SE (θˆ)} c.v.d. oppure: da (MLE/ un certo errore) a (MLE× × un certo errore) θ = {θ 0 : exp[ln θˆ ± 1,96 ⋅ SE (ln θˆ)]} [ ] = {θ 0 : θˆ ÷ × exp 1,96 ⋅ SE (ln θˆ) } c.v.d. Tabella MLE Modello Parametro Stima [θˆ] Varianza [ sθ2ˆ ] 2 Bernoulli θ = π1 − π 0 R1 − R0 R1 (1 − R1 ) R0 (1 − R0 ) + n1 n0 2 Poisson θ = λ1 − λ0 r1 − r0 2 Gauss θ = µ1 − µ0 y1 − y 0 σ 2 2 Bernoulli θ = ln(π 1 / π 0 ) R ln 1 R0 1 − R1 1 − R0 + y1 y0 2 Bernoulli a ⋅d ln b⋅c 1 1 1 1 + + + a b c d r ln 1 r0 1 1 + y1 y0 θ = ln(Ω1 / Ω 0 ) 2 Poisson θ = ln(λ1 / λ0 ) r1 r + 0 M1 M 0 1 1 + n1 n0 Trattamento Pz con trombi Pz senza trombi Totale Aspirina Placebo Totale 6 18 24 13 7 20 19 25 44 6 / 13 = ln 0,17949 18 / 7 1 1 1 1 SE (ln OR ) = + + + 6 18 13 7 ln OR = ln ( ( ) ) 1 1 1 1 + + + = 0,05 6 18 13 7 1 1 1 1 OR2 = 0,18 × exp 1,96 ⋅ + + + = 0,66 6 18 13 7 OR1 = 0,18 / exp 1,96 ⋅ Interpretazione? 34 95%=(1-0,05)% CI: 95% CI (Fischer) L’intervallo [θ1;θ2] assume il seguente significato (Fischer): θˆ1 • Valori verosimili P>0,05 [θ1 ; θ2 ]= è l’insieme di tutti i valori del parametro θ che non vengono rifiutati da un test di significatività con un valore-P del 0,05=5%, ovvero si afferma che sulla base dei dati osservati, i valori entro tale intervallo si possono considerare consistenti (o verosimili) con un livello di fiducia pari al 100(1-0,05)% =95% (v. Fischer, 1956; Armitage, 1971) θˆ2 θˆ Valori inverosimili P<0,05 Misure assolute: θˆ1 = θˆ − 1,96 ⋅ SE (θˆ); θˆ2 = θˆ + 1,96 ⋅ SE (θˆ) Misure relative: θˆ1 = θˆ / exp(1,96 ⋅ SE (ln θˆ) ); θˆ2 = θˆ × exp(1,96 ⋅ SE (ln θˆ) ) 95% CI e P-value 95% CI Neyman L’intervallo di confidenza al 95% (95% Confidence Interval: 95% CI) oltre a definire una stima per intervallo permette ovviamente di fare anche un test di significatività. L’intervallo [θ1;θ2] assume il seguente significato (Neyman-Pearson): Considerando un livello di significatività di P=0.05 come soglia per rifiutare (non rifiutare) l’ipotesi nulla, H0: θ = θ0 si può adottare la seguente regola: campione 1 campione 2 campione 3 campione 4 • • • •Se valore parametro H0: θ = θ0 è compreso nel 95% CI = non rifiuto H0 •Se valore parametro H0: θ = θ0 non è compreso nel 95% CI = rifiuto H0 campione m θ = θ0 [θ1 ; θ2 ]= è uno dei possibili intervalli che includono (coprono) il vero valore del parametro con un livello di confidenza pari al 95%. 35 95% CI (Bayes) Conclusione L’intervallo [θ1;θ2] assume il seguente significato (Bayes): h(θ | D ) ∝ f (θ ) ⋅ g ( D | θ ) [θ1 ; θ2 ]= è l’insieme di tutti i valori del parametro θ che sono credibili sulla base dei dati osservati con un livello di probabilità pari al 95%. 3) Nello studio di coorte retrospettivo sull’associazione tra l’insuccesso del vaccino della varicella con uso di steroidi in due HMO (Health Maintenance Organization), Verstraeten et al (in Pediatrics 2003; 112: 98-103) riportano i seguenti dati: N HMO B 1995-1999 80584 8181 21,3 mo; 1 d to 4,6 y 14,7 mo; 1 d to 3,8 y Total follow-up time 142673,85 p-y 10026,3 p-y N of varicella cases 268 97 3 0 N non-cases 3mo after inhaled steroids 1840 13 N cases 3mo after oral steroids 13 5 N non-cases 3mo after oral steroids 1757 139 Mean and range of follow-up time N cases 3mo after inhaled steroids • [0,05 − 0,66] = con un livello di confidenza del 95%, si considera verosimile che l’odds ratio (OR) di trombosi sia compreso tra 0,05 e 0,66, ovvero che l’odds di trombosi nella popolazione dei pazienti cronici trattati con aspirina sia da 0,66-1=1,52 a 0,05-1=20 volte inferiore rispetto all’odds di trombosi nella popolazione dei pazienti cronici trattati con placebo ESERCIZIO 3- tabelle 2x3 Esercizio 4.3 HMO A 1995-1999 •0,18= il valore più verosimile dell’odds di sviluppare trombi nella popolazione dei pazienti cronici trattati con aspirina è circa 0,18-1=6 volte inferiore rispetto all’odds di trombosi nella popolazione dei pazienti cronici trattati con placebo HMO A 1995-1999 3mo after follow-up time=21,3m inhaled oral no Total Cases 3 13 252 268 Non cases 1840 1757 76719 80316 Total 1843 1770 76971 80584 Mass (py) 3268.66 3130.21 136275 142674 1 M 1 = (1843 − 3 − 0) ⋅ 21,3 / 12 + (3 + 0) ⋅ ⋅ 21,3 / 12 = 2 = 3268,7 person - year -1 1 M 2 = (1770 − 33 − 0) ⋅ 21,3 / 12 + (13 + 0) ⋅ ⋅ 21,3 / 12 = 2 = 3130,2 person - year -1 M 3 = 142674 − 3269 − 3130 = 136275person - year -1 Verificare se esiste una evidenza statistica che sostenga l’ipotesi che l’uso di steroidi sia un potenziale fattore di rischio di insuccesso del vaccino della varicella. 36 ESERCIZIO 3: HMO A yes vs. no follow-up time=21,3m HMO A 1995-1999 yes no Total Cases 16 252 268 Non cases 3597 76719 80316 Total 3613 76971 80584 Mass (py) 6399 136275 142674 1. Variabile osservata, popolazione di riferimento, modello probabilistico: Popolazione 1 Y~ Poisson (µ1=λ1M1) Popolazione 2 Y~Poisson (µ0=λ0M0) 2. Scelta parametro di effetto (assoluto o relativo): rapporto fra tassi : θ = λ1 λ0 ESERCIZIO 3: HMO A- inhaled steroids 3. Calcolo Intervallo di Confidenza del (1-0,05)%=95%, ( 95% CI): 16 / 6399 = ln 1,352 252 / 136275 1 1 SE (ln IR ) = + = 0,258 16 252 ln IR = ln IR1 = 1,352 / exp( 1,96 ⋅ 0,258) = 0,816 IR2 = 1,352 × exp( 1,96 ⋅ 0,258) = 2,241 4. Conclusione: con un livello di confidenza del (1-0,05)%=95%, nella zona HMO A, dopo vaccinazione si considera verosimile che il tasso (incidenza) di varicella nei bambini che usano steroidi sia da 0,82 a 2,24 volte superiore rispetto tasso(incidenza) di quelli che non ne fanno uso: ovvero … Sommario-2 1. Qual è la POPOLAZIONE di riferimento e la variabile aleatoria (fenomeno) in esame? 2. Qual è il MODELLO PROBABILISTICO della variabile in esame, ovvero qual è il PARAMETRO di interesse? 3. Inferenza statistica (MLE, SE, test-z e 95%CI) sul parametro di interesse 4. Conclusioni 37