TEST STATISTICI PER SCALE NOMINALI,
TASSI E PROPORZIONI
Non sempre la variabile aleatoria (risultato sperimentale) è un
numero
ma è spesso un esito dicotomico (si-no, vivo-morto, ecc).
In questo caso non ha senso presupporre che esso sia
‘distribuito’
in accordo con una curva statistica
occorre elaborare dei metodi ‘non-parametrici’.
Uno di questi è basato sulla tabelle di contingenza e la
statistica del CHI-QUADRO
Esempio:
Si vuole confrontare l’aspirina con un placebo per verificarne
l’efficacia nel prevenire la formazione di trombi.
In questo caso la variabile aleatoria è:
SI (sviluppa trombi)
NO (non sviluppa trombi)
e i risultati si possono inserire in una tabella 2 x 2:
placebo
aspirina
SI
18
6
__
24
NO
7
13
__
20
|25
|19
__
|44
Calcoliamo le percentuali: su un totale di 44 pazienti, di cui 25
trattati con placebo e 19 con aspirina, 24 sviluppano trombi e 20 no:
24/44 = 55% ha sviluppato trombi
IPOTESI NULLA: l’aspirina non è efficace,
c’è per tutti la probabilità del 55% di sviluppare trombi. In questo caso
posso elaborare una ‘tabella’ teorica
placebo
aspirina
SI
25x55%=13.75
19x55%=10.25
__
24
NO
25x45%=11.25
19x45%=8.75
__
20
|25
|19
__
44
Occorre ora confrontare le due tabelle e vedere se la loro DIFFERENZA
è statisticamente significativa.
Per farlo si utilizza il test statistico del CHI-QUADRO:
si calcola la variabile:
c2=S (O-A)2 /A
O=valori osservati, A=valori attesi
nel nostro caso:
c2 =(18-13.75)2/13.75 + (7-11.25)2/11.25 +
(6-10.25)2/10.25 + (13-8.75)2/8.75 = 6.75
La variabile c2 è distribuita secondo una legge nota, che
dipende dal numero di gradi di libertà
v=(num. Righe-1)(num. Colonne - 1)
nel ns caso v=1
Confrontando con le tabelle e fissando un livello di confidenza
pari a p=0.01 si trova un valore soglia c2 *=6.63
Poiché il valore da noi trovato è superiore, la probabilità che esso sia
stato ottenuto per caso è inferiore all’1% Si rifiuta pertanto l’ipotesi
nulla!
OSSERVAZIONI
c2
1) La definizione del
data prima vale rigorosamente
per il confronto di tabelline di dimensioni maggiori di 2 x 2.
Nel caso delle tabelle 2 x 2 è stato dimostrato che esiste un BIAS
molto pronunciato legato al fatto che si considerano dati discreti
come se fossero continui.
E’ stata pertanto suggerita una correzione (CORREZIONE DI
CONTINUITA’ O DI YATES) consistente nell’assumere:
c2 =S ((O-A) - 1/2 )2 /A
y
O=valori osservati, A=valori attesi
in generale questa correzione riduce leggermente il valore del
c2 : nel caso precedente non si rifiuterebbe l’ipotesi
nulla.
2) spesso le tabelle di contingenza si utilizzano per valutare i test
diagnostici. In questo caso le due righe rappresentano gli esiti T+ e
T- del test e le due colonne la presenza D+ o assenza D- della
malattia.
Es. Si studia la capacità di un test (basato sulla concentrazione serica di
digossina) di predire la presenza di intossicazione del paziente.
test + T+
test - T-
D+(intoss)
D-(non intoss)
25
18
__
43
14
78
__
92
|39
|96
__
135
Si definisce SENSIBILITA’ del test la probabilità che un pz malato
presenti un test positivo: P(T+|D+)
nel ns caso: SENS = 25/43=.58
Si definisce SPECIFICITA’ di un test la probabilità che un paziente
sano presenti test negativo:
P(T-|D-)
nel ns caso: SPEC=78/92 = .85
Si definiscono poi i VALORI PREDITTIVI positivi e nagativi
attraverso le altre probabilità condizionate:
valore predittivo di un test positivo =
probabilità che, dato un esito positivo del test, il pz sia malato:
P(D+|T+)
nel ns caso:VP+=25/39=.64
valore predittivo di un test negativo =
probabilità che, dato un esito negativo del test, il pz sia sano:
P(D-|T-)
nel ns caso. VP- = 78/96 = .81
3) Negli studi di ‘cohorte’ si è interessati a valutare il rischio
di malattia conseguente all’esposizione ad un certo agente.
Si scelgono pertanto ‘a posteriori’ soggetti sottoposti o meno
ad un dato fattore di rischio che hanno presentato
una malattia (casi) e che non l’hanno presentata (controlli).
Esempio:
studio dell’influenza dell’uso di contraccettivi orali
sull’insorgenza del cancro alla mammella
esposti
non esposti
casi
537
639
___
1176
controlli
554
622
___
1176
|1091
|1261
____
2352
Si definiscono:
i rischi di sviluppare la malattia per la
popolazione esposta e non esposta:
R( E o NE) = casi/(casi + controlli)
e il RISCHIO RELATIVO: RR = R(E)/R(NE)
Nel ns caso:
R(E)= 537 /1091=.49
R(NE)=639/1261=.51
RR= .49/.51=.96
Si definiscono gli ‘odds’ di un evento come il rapporto tra la
probabilità del verificarsi di un evento e la probabilità del non
verificarsi dell’evento.
Es: considerati i soli malati,
l’odds di essere stato esposto è 537/639;
considerati i soli sani
l’odds di essere stato esposto è 554/622
quindi l’ODDS RATIO sarà
OR=537x622/ 554x639 = 0.94 : c’è una leggera probabilità che i malati non siano stati esposti .
N.B. OR = 1 significa che i casi hanno avuto la stessa probabilità di
esposizione dei controlli
ANALISI MULTIVARIATA
Immaginiamo ora di considerare una variabile dipendente Y
dicotomica ma più variabili indipendenti (dicotomiche o continue).
L’idea di eseguire una regressione multipla continua ad essere
valida, ma per sua natura una retta di regressione, per ogni
insieme di valori di x, è caratterizzata da un valore di Y che
varia nell’insieme dei numeri reali.
Se la ns Y assume soltanto i valori ‘0’ e ‘1’, occorre pertanto
innanzitutto definire una nuova variabile che vari tra - e + inf.
Se si considera l’ ‘odds’ di Y, ossia Y / (1-Y), avremo valori tra
0 e l’inf positivo. Se poi ne prendiamo il logaritmo, avremo
esteso i valori a tutto l’asse reale...
Regressione logistica
ln ( Y/(1-Y) )= a0 + a1x1 + a2x2 + ….
NB. Si studia come varia l’ ODDS di Y al variare delle x !
Talvolta l’equazione viene scritta in forma esponenziale:
Y = 1 / (1 + exp(-(a0 + a1 x1+…))
che è perfettamente equivalente.
Come interpretare i coefficienti del modello?
Per semplicità consideriamo un caso di ‘ esposizione’
( ‘0’ per non esposto, ‘1’ per esposto)
e sia CI0 il rischio di malattia per i non esposti e CI1 quello
per gli esposti.
Allora:
x=0
a0 = ln ( CI0/(1-CI0))
a0 rappresenta cioè il logaritmo dell’odds di malattia per i
non esposti.
Vediamo adesso il significato di a1:
se x=1 a1 = ln ( CI1/(1-CI1)) - ln (CI0 /(1-CI0)) =
ln ( CI1/ (1-CI1) / CI0/(1-CI0)))
è cioè il logaritmo dell’ ODDS RATIO .
La semplice stima del coefficiente a1 permette dunque di ottenere
informazioni utili in tutti i casi in cui si lavora con dati casicontrolli.
Come nel caso della regressione, si può dimostrare che,
quando si utilizzano più variabili indipendenti,
i coefficienti a esprimono il logaritmo della probabilità
che si verifichi un evento al variare di una unità in x
AL NETTO della variazione delle altre variabili indipendenti.
Come esempi si possono considerare gli stessi di prima,
immaginando per esempio che una data malattia possa
essere correlata a più fattori di rischio indipendenti:
es: cancro della bocca vs esposizione al fumo e all’alcool,
ecc.