TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico (si-no, vivo-morto, ecc). In questo caso non ha senso presupporre che esso sia ‘distribuito’ in accordo con una curva statistica occorre elaborare dei metodi ‘non-parametrici’. Uno di questi è basato sulla tabelle di contingenza e la statistica del CHI-QUADRO Esempio: Si vuole confrontare l’aspirina con un placebo per verificarne l’efficacia nel prevenire la formazione di trombi. In questo caso la variabile aleatoria è: SI (sviluppa trombi) NO (non sviluppa trombi) e i risultati si possono inserire in una tabella 2 x 2: placebo aspirina SI 18 6 __ 24 NO 7 13 __ 20 |25 |19 __ |44 Calcoliamo le percentuali: su un totale di 44 pazienti, di cui 25 trattati con placebo e 19 con aspirina, 24 sviluppano trombi e 20 no: 24/44 = 55% ha sviluppato trombi IPOTESI NULLA: l’aspirina non è efficace, c’è per tutti la probabilità del 55% di sviluppare trombi. In questo caso posso elaborare una ‘tabella’ teorica placebo aspirina SI 25x55%=13.75 19x55%=10.25 __ 24 NO 25x45%=11.25 19x45%=8.75 __ 20 |25 |19 __ 44 Occorre ora confrontare le due tabelle e vedere se la loro DIFFERENZA è statisticamente significativa. Per farlo si utilizza il test statistico del CHI-QUADRO: si calcola la variabile: c2=S (O-A)2 /A O=valori osservati, A=valori attesi nel nostro caso: c2 =(18-13.75)2/13.75 + (7-11.25)2/11.25 + (6-10.25)2/10.25 + (13-8.75)2/8.75 = 6.75 La variabile c2 è distribuita secondo una legge nota, che dipende dal numero di gradi di libertà v=(num. Righe-1)(num. Colonne - 1) nel ns caso v=1 Confrontando con le tabelle e fissando un livello di confidenza pari a p=0.01 si trova un valore soglia c2 *=6.63 Poiché il valore da noi trovato è superiore, la probabilità che esso sia stato ottenuto per caso è inferiore all’1% Si rifiuta pertanto l’ipotesi nulla! OSSERVAZIONI c2 1) La definizione del data prima vale rigorosamente per il confronto di tabelline di dimensioni maggiori di 2 x 2. Nel caso delle tabelle 2 x 2 è stato dimostrato che esiste un BIAS molto pronunciato legato al fatto che si considerano dati discreti come se fossero continui. E’ stata pertanto suggerita una correzione (CORREZIONE DI CONTINUITA’ O DI YATES) consistente nell’assumere: c2 =S ((O-A) - 1/2 )2 /A y O=valori osservati, A=valori attesi in generale questa correzione riduce leggermente il valore del c2 : nel caso precedente non si rifiuterebbe l’ipotesi nulla. 2) spesso le tabelle di contingenza si utilizzano per valutare i test diagnostici. In questo caso le due righe rappresentano gli esiti T+ e T- del test e le due colonne la presenza D+ o assenza D- della malattia. Es. Si studia la capacità di un test (basato sulla concentrazione serica di digossina) di predire la presenza di intossicazione del paziente. test + T+ test - T- D+(intoss) D-(non intoss) 25 18 __ 43 14 78 __ 92 |39 |96 __ 135 Si definisce SENSIBILITA’ del test la probabilità che un pz malato presenti un test positivo: P(T+|D+) nel ns caso: SENS = 25/43=.58 Si definisce SPECIFICITA’ di un test la probabilità che un paziente sano presenti test negativo: P(T-|D-) nel ns caso: SPEC=78/92 = .85 Si definiscono poi i VALORI PREDITTIVI positivi e nagativi attraverso le altre probabilità condizionate: valore predittivo di un test positivo = probabilità che, dato un esito positivo del test, il pz sia malato: P(D+|T+) nel ns caso:VP+=25/39=.64 valore predittivo di un test negativo = probabilità che, dato un esito negativo del test, il pz sia sano: P(D-|T-) nel ns caso. VP- = 78/96 = .81 3) Negli studi di ‘cohorte’ si è interessati a valutare il rischio di malattia conseguente all’esposizione ad un certo agente. Si scelgono pertanto ‘a posteriori’ soggetti sottoposti o meno ad un dato fattore di rischio che hanno presentato una malattia (casi) e che non l’hanno presentata (controlli). Esempio: studio dell’influenza dell’uso di contraccettivi orali sull’insorgenza del cancro alla mammella esposti non esposti casi 537 639 ___ 1176 controlli 554 622 ___ 1176 |1091 |1261 ____ 2352 Si definiscono: i rischi di sviluppare la malattia per la popolazione esposta e non esposta: R( E o NE) = casi/(casi + controlli) e il RISCHIO RELATIVO: RR = R(E)/R(NE) Nel ns caso: R(E)= 537 /1091=.49 R(NE)=639/1261=.51 RR= .49/.51=.96 Si definiscono gli ‘odds’ di un evento come il rapporto tra la probabilità del verificarsi di un evento e la probabilità del non verificarsi dell’evento. Es: considerati i soli malati, l’odds di essere stato esposto è 537/639; considerati i soli sani l’odds di essere stato esposto è 554/622 quindi l’ODDS RATIO sarà OR=537x622/ 554x639 = 0.94 : c’è una leggera probabilità che i malati non siano stati esposti . N.B. OR = 1 significa che i casi hanno avuto la stessa probabilità di esposizione dei controlli ANALISI MULTIVARIATA Immaginiamo ora di considerare una variabile dipendente Y dicotomica ma più variabili indipendenti (dicotomiche o continue). L’idea di eseguire una regressione multipla continua ad essere valida, ma per sua natura una retta di regressione, per ogni insieme di valori di x, è caratterizzata da un valore di Y che varia nell’insieme dei numeri reali. Se la ns Y assume soltanto i valori ‘0’ e ‘1’, occorre pertanto innanzitutto definire una nuova variabile che vari tra - e + inf. Se si considera l’ ‘odds’ di Y, ossia Y / (1-Y), avremo valori tra 0 e l’inf positivo. Se poi ne prendiamo il logaritmo, avremo esteso i valori a tutto l’asse reale... Regressione logistica ln ( Y/(1-Y) )= a0 + a1x1 + a2x2 + …. NB. Si studia come varia l’ ODDS di Y al variare delle x ! Talvolta l’equazione viene scritta in forma esponenziale: Y = 1 / (1 + exp(-(a0 + a1 x1+…)) che è perfettamente equivalente. Come interpretare i coefficienti del modello? Per semplicità consideriamo un caso di ‘ esposizione’ ( ‘0’ per non esposto, ‘1’ per esposto) e sia CI0 il rischio di malattia per i non esposti e CI1 quello per gli esposti. Allora: x=0 a0 = ln ( CI0/(1-CI0)) a0 rappresenta cioè il logaritmo dell’odds di malattia per i non esposti. Vediamo adesso il significato di a1: se x=1 a1 = ln ( CI1/(1-CI1)) - ln (CI0 /(1-CI0)) = ln ( CI1/ (1-CI1) / CI0/(1-CI0))) è cioè il logaritmo dell’ ODDS RATIO . La semplice stima del coefficiente a1 permette dunque di ottenere informazioni utili in tutti i casi in cui si lavora con dati casicontrolli. Come nel caso della regressione, si può dimostrare che, quando si utilizzano più variabili indipendenti, i coefficienti a esprimono il logaritmo della probabilità che si verifichi un evento al variare di una unità in x AL NETTO della variazione delle altre variabili indipendenti. Come esempi si possono considerare gli stessi di prima, immaginando per esempio che una data malattia possa essere correlata a più fattori di rischio indipendenti: es: cancro della bocca vs esposizione al fumo e all’alcool, ecc.