Prefazione I precedenti capitoli rispondono a

Prefazione
I precedenti capitoli rispondono a domande che spesso possono esser formulate da operatori
sanitari che intendano avere una conoscenza di tipo scientifico e razionale dei fenomeni che stanno
studiando o della gestione dei reparti che stanno conducendo.
Si puo’ dire che nei precedenti capitoli si trovano le risposte a domande di questo tipo:

come posso descrivere lo stato di fatto dell’ambiente nel quale sto
operando in modo rapidamente comprensibile e comunicabile a
qualunque altro operatore?
Es: l’età media dei degenti di un reparto, la frequenza delle varie patologie in un reparto o in
una popolazione…


Sapendo che un certo esame di laboratorio è indice di malattia quando
si altera, per fare diagnosi di malattia c’è bisogno di conoscere i valori
che tale esame assume nella popolazione sana (o per lo meno nel
95% della popolazione sana. Come determinarli?
Sapendo che in un reparto è inevitabile un certo numero di infezioni
ospedaliere, come valutare se quelle verificatesi nel reparto che
gestisco sono eccessivamente numerose (dovrò rivedere le mie
tecniche di asepsi) o molto meno numerose di quelle che in media si
verificano (dovrò esaminare in dettaglio le mie tecniche di asepsi e
magari suggerire ad altri di adottarle). In ogni caso c’è bisogno di
conoscere i valori di frequenza con i quali tale spiacevole evento si
presenta nella generalità dei reparti, almeno nel 95% dei casi. Come si
fa?
Capitolo 1°,
statistica
descrittiva
Capitolo 2°,
procedimenti di
stima
Es.: come fu valutato a suo tempo che i valori normali di emoglobinemia sono variabili da 14 a
16 g/cc nell’uomo?
Come verificare che un nosocomi abbia le infezioni ospedaliere “sotto controllo”?



A fianco di tutti gli esami di laboratorio vi sono sempre dei valori di
riferimento che indicano che chiunque presenti valori inferiori o
superiori a quelli puo’ esser considerato malato. Quanto posso fidarmi
di questi esami?
Come ridurre i possibili errori diagnostici?
Come vengono scelti, in alcuni casi, i valori di “cut-off” fra valori
normali e non normali?
Capitolo 3°
affidabilità dei
test diagnostici
Es.: se un test viene negativo, qual è l’effettiva probabilità che il paziente sia sono?
Analogamente, se una radiografia segnala una qualche anomalia, qual è l’effettiva probabilità
che il paziente sia malato?





Quanto è frequente una malattia nella popolazione, dato che malattie
rare sono poco probabili e malattie frequenti sono molto probabili?
Tale informazione mi aiuterebbe nel formulare una diagnosi.
Come dimostrare che certi comportamenti di vita, certi tipi di lavoro
possono esser nocivi alla salute, mentre altri comportamenti
allontanano il rischio di malattia?
Quanto in fretta si diffonde una infezione ?
Quanto è importante ridurre un fattore di rischio in una popolazione
esposta?
Quanto sono validi gli studi di epidemiologia?
Capitolo 4°
elementi basilari
di epidemiologia
Es.: è corretto dire ai pazienti che frutta e verdura riducono il rischio oncologico o si tratta di
una vecchia diceria?
1
Si tratta quindi di un primo nucleo di informazioni che doverosamente debbono far parte delle
competenze di tutti coloro che si occupano di salute.
Certamente queste informazioni non esauriscono la statistica medica né l’epidemiologia. Molte altre
sono le domande che un medico, giovane o anziano che sia, potrà porsi durante la sua carriera, sia
che si occupi di ricerca (e tutti i medici dovrebbero essere anche ricercatori almeno come
atteggiamento mentale, altrimenti si corre il rischio di diventare aridi burocrati) sia che si limiti a
aggiornare le proprie competenze sulla letteratura scientifica (che deve esser sempre letta non con
un atteggiamento acritico e fideistico nella carta stampata ma con l’occhio critico e attento di un
“addetto ai lavori”).
Nei capitoli che seguono si troverà l’aiuto per rispondere ad altre, non meno importanti domande:



Come esser ragionevolmente sicuri (almeno al 95%) del fatto che una
terapia riesca a salvare più pazienti di un’altra?
Come esser ragionevolmente sicuri (almeno al 95%) del fatto che una
popolazione esposta a certi rischi si ammali più di un’altra?
Come esser ragionevolmente sicuri (almeno al 95%) del fatto che una
terapia sia miglior di altre due o tre terapie possibili?
Es.: L’antibiotico A fa guarire più spesso dalla polmonite batterica rispetto all’antibiotico B?

In epidemiologia si studia spesso l’OR tra esposti e non esposti per
comprendere quanto un fattore di rischio sia patogeno. L’esito della
malattia però spesso non dipende soltanto da quel solo fattore di
rischio ma anche dalle condizioni del paziente (età giovane, media o
avanzata… lavoro sedentario o lavoro di fatica…)
Tavole di
contingenza
(oltre che OR,
RR, Rattribuibile,
tassi, già
esaminati al
capitolo 4)
OR secondo
Mantel Haenszel
Es.: Come depurare l’OR “grezzo” da questi fattori confondenti?


Come esser ragionevolmente sicuri (almeno al 95%) che la differenza
di variazioni di un certo esame di laboratorio indice di malattia che si
hanno con due terapie diverse siano imputabili ai diversi effetti
terapeutici e non al campionamento?
Come confrontare gli effetti positivi o gli effetti collaterali più di due
terapie?
Es.: l’antidiabetico X in media fa diminuire la glicemia di 30 mg%cc, mentre l’antidiabetico Y la
fa diminuire in media di 10. Pertanto X va usato nei diabetici più gravi e Y in quelli lievi?


Come esser ragionevolmente sicuri (almeno al 95%) che la differenza
di variazioni di un certo esame di laboratorio indice di malattia che si
hanno con una terapia nel corso di due controlli in tempi diversi siano
dovuti alla terapia e non al caso?
Come fare più di due confronti nel tempo?
Es.: la diminuzione di glicemia ottenibile con il farmaco Y è totalmente imputabile alla maggiore
efficacia del farmaco o, per errore, durante la precedente sperimentazione Y fu somministrato
ai diabetici meno gravi e più reattivi a una qualsiasi terapia?

Dimostrata l’efficacia di un farmaco, come si deve modulare la
posologia in funzione della gravità della malattia?
Es. quali dosaggi dare per ottenere un aumento di Hb di 2 gr: quali invece sono consigliati se è
necessario un aumento di 4 gr…

Spesso l’effetto di un farmaco non dipende soltanto dalla posologia ma
T di student per
dati non appaiati
o anova fattoriale
Mann Witney U
test o Kruskall
Wallis test
T di student per
dati appaiati o
anova per misure
ripetute
Wilcoxon test
Friedman test
Correlazione di
Pearson
Correlazioni non
parametriche
regressione
lineare semplice
Correlazione e
2
anche da altre variabili (ad es. l’età del paziente, il livello di linfociti,
….). Questa situazione si verifica sempre nella realtà in medicina.
Occorre valutare come si modifica l’effetto del farmaco anche in
presenza di variabili indipendenti dalla malattia.
regressione
lineare multipla
Correlazione
multipla di
Kendall
Es.: il tempo di guarigione da una malattia dipende dal dosaggio del farmaco, ma anche dall’età
del paziente, dalla misura della sua clearance renale, dal dosaggio degli enzimi epatici….?


Ci sono malattie non guaribili ma curabili. Tante volte in medicina il
successo è semplicemente un prolungamento della sopravvivenza o un
miglioramento della qualità di vita (più lunghi spazi di tempo liberi dal
dolore o dalle metastasi). Sotto questo importante aspetto, come
paragonare tra loro gli effetti di due o più diverse terapie?
Come depurare tali risultati da effetti confondenti quali età,
funzionalità epatica o renale ecc.?
Analisi di
sopravvivenza
Regressione di
Cox
Es.: nonostante due antiblastici differenti si verifica comunque una mortalità del 20%. Il fatto
che con l’antiblastico W la morte si verifichi dopo 3 anni di terapia e con l’antiblastico Z si
verifichi dopo 6 dipende soltanto dal tipo di tumore o dalla stadiazione o dall’età del paziente?

Nella realtà la presenza di una malattia o la sua assenza dipendono da
moltissimi fattori (alcuni si esprimono con scale di misura, altri con
scale ordinali e altri ancora con semplici modalità) Come capire quale
dei vari fattori è il più importante nel determinismo della malattia?
(significherebbe capire la eziopatogenesi della malattia nella sua
interezza!!!!)
Regressione
logistica
Es.: per prevenire, in un certo paziente, la cardiopatia ischemica è più importante abolire il
fumo o abbassare il livello di colesterolo?

Le variabili che possono influire su un evento clinico sono veramente
troppo numerose. Molte di loro interagiscono (esempio: consumo di
fumo e alcol spesso vanno di pari passo) Come sintetizzare alcuni di
questi fenomeni (esempio: eccesso di fumo + eccesso di alcool =
errato stile di vita)?
Analisi fattoriale
Es.: come comprendere meglio le interazioni tra i vari determinanti delle malattie?

Spesso gli studi clinici su nuovi farmaci portano a risultati contradditori
(questo è dovuto al fatto che raramente i nuovi farmaci sono così
potenti quanto lo fu all’epoca la penicillina e per scoprire piccole
differenze di esito occorrono enormi numerosità campionarie. Resta il
fatto che magari per una decina di anni i medici devono decidere se
utilizzare o meno un dato farmaco e spesso sono nel dubbio né
possono passare tutto il loro tempo a leggere tutti i lavori
sull’argomento (ivi inclusi quelli scritti in giapponese, in tedesco, in
spagnolo, in cinese….). Esiste il modo di avere una sorta di “riassunto”
dei dati della letteratura che serva almeno temporaneamente a non
perdere la bussola… ovviamente senza avere una fede cieca nei
risultati e accettandoli salvo prova contraria?
Metanalisi
Es.: Il grande clinico Tizio asserisce che il farmaco Q è inutile. L’altrettanto illustre clinico Caio
asserisce il contrario. Come si deve comportare un meno illustre ma altrettanto importante (per
i suoi pazienti) medico di base?
Naturalmente non si esaurisce con questo lo strumentario possibile in statistica medica ed
epidemiologia! Tanti altri strumenti verranno messi a punto nei prossimi anni. Ci si augura che
questo testo possa essere almeno propedeutico a comprendere anche tutti gli altri metodi che
verranno o che sono attualmente impiegati.
3
Capitolo 1: Test di ipotesi tra informazioni in scala nominale o ordinale
Uno dei problemi che più facilmente il medico si trova a dover affrontare è valutare se
un certo trattamento migliora le condizioni dei malati che vi si sottopongono in
maniera statisticamente significativa.
È importante che tale differenza sia basata sull'evidenza (evidence based), cioè sull'esperienza
effettuata da altri e valutata in base all'esame sistematico della letteratura scientifica o in base alla
propria esperienza parimenti valutata in maniera statisticamente ineccepibile.
A tale problema si puo' trovare soluzione impostando una sperimentazione sui pazienti ammalati di
una data patologia trattati con diverse tecniche terapeutiche (qualsiasi esse siano: chirurgiche,
farmacologiche, psicologiche) o sottoposti a diversi iter diagnostici (per verificare quale di essi dia
risultati più soddisfacenti) o a diversi programmi di follow up (per verificare in quale caso si
abbiano minor recidive). Generalmente si paragonano una nuova e una vecchia tecnica o una
nuova tecnica e un placebo, quando è eticamente possibile.
Un esempio pratico puo' essere dato dalla comparazione dell'effetto di un antibiotico nuovo (A)
rispetto a un vecchio farmaco (B) su pazienti ammalati di broncopolmonite di origine batterica
Ecco i passi principali da compiere:
•
trovare un campione sufficientemente numeroso di pazienti disponibili a dare il loro
consenso informato alla sperimentazione
•
stabilire a priori con chiarezza l'obiettivo della sperimentazione:
• ottenere la guarigione clinica (guariti/non guariti), ottenere un miglioramento (ottimo,
buono, discreto, lieve, sufficiente, invariato), ottenere la risoluzione radiologica della
broncopolmonite (sì/no)…..
• stabilire la probabilità ritenuta accettabile di sbagliare dicendo che A non è uguale a B
(ma è migliore o peggiore). Questo tipo di errore viene detto errore alfa e di solito lo
si accetta al 5%=0,05 di probabilità.
• stabilire la probabilità ritenuta accettabile di sbagliare dicendo che A non è né migliore
né peggiore di B nel particolare contesto. Questo tipo di errore viene detto errore beta
e di solito lo si accetta al 10%=0,10. Un errore beta di 0,10 corrisponde a una potenza
dello studio del 90%=0,9.
Potenza dello studio o del test è la probabilità di rilevare differenze quando vi sono.
•
nell'ambito del campione che ha dato il consenso informato si deve assegnare in modo
probabilistico (casualmente) il trattamento con il nuovo antibiotico (A) o con il vecchio
antibiotico (B) a due gruppi più o meno equivalenti di pazienti.
•
nell'essere umano sono spesso molto sfumati i confini tra reazioni biologiche e psichiche, per
tale motivo, al fine di evitare influenze inconsce sugli esiti del trattamento, si applica il
trattamento in modo che né il medico né il paziente sappiano con esattezza si sta usando il
farmaco A o il B: le scatole dei farmaci infatti sono contrassegnate soltanto da un numero di
codice. Questo metodo viene detto "in doppio cieco".
In un apposito registro, che né il medico né il paziente devono vedere fino alla fine
dell'esperimento, è indicato il tipo di farmaco che corrisponde a quel numero, il momento in cui
è stato prodotto, la scadenza ecc.
•
Si effettua la terapia per il tempo prescritto
4
•
Si constata l'effetto avuto nei vari pazienti e soltanto a questo punto si puo' consultare il
registro e sapere quale paziente ha preso il farmaco A e quale ha preso il farmaco B
•
Verosimilmente sia con il farmaco A che con il B alcuni pazienti saranno guariti e altri no.
•
Si costruisce una tabella di contingenza.
In italiano contingenza significa possibilità di essere o di non essere (Devoto Oli). Quando
si parla di quota contingente in termini giuridici si intende la quota spettante (senza ingiustizie,
cioè senza differenze) a ciascun individuo o gruppo …
Uno schema di questo tipo: due trattamenti con due diversi possibili esiti puo’ esser raffigurato in
questa maniera:
A
C
B
D
Se non vi fosse differenza tra i due trattamenti riguardo i loro risultati, dovremmo aspettarci che i
pazienti fossero quasi equidistribuiti nei vari gruppi in questo modo (tutti grigi):
Se invece uno dei due trattamenti fosse notevolmente più efficace dell’altro. dovremmo aspettarci
che i pazienti non fossero affatto equidistribuiti, così come schematizzato qui sotto (una casella
nero intenso e per compensazione, una bianca):
Perché i due trattamenti si possano definire “non uguali” occorre:
1. che vi sia differenza
2. che tale differenza sia tanto grande da divenire statisticamente significativa
Per prima cosa si riporta la situazione effettivamente accaduta, cioè le quote osservate.
Trattamento
A
B
Totale
Non guariti
60
40
100
Guariti
40
60
100
Totale
100
100
200
I termini del problema devono esser posti in maniera chiara e univoca a priori (prima ancora di
iniziare la ricerca).
5
Sono possibili teoricamente due situazioni:
•
•
•
effetti di A = effetti di B
effetti di A<effetti di B in modo
non significativo
effetti di B<effetti di A in modo
non significativo
•
•
effetti di A<effetti di B in
modo significativo
effetti di B<effetti di A in
modo significativo
quindi
quindi
ipotesi nulla molto probabile
ipotesi alternativa poco probabile
ipotesi alternativa molto probabile
ipotesi nulla poco probabile
Differenza non significativa sta per differenza che puo' essersi verificata anche
soltanto per effetto del campionamento e che erroneamente possa venire attribuita
all'effetto del farmaco.
TUTTI I PIÙ COMUNI TEST STATISTICI MISURANO
IL LIVELLO DI PROBABILITÀ DELL'IPOTESI NULLA.
QUANTO TALE PROBABILITÀ SIA BASSA (p<0,05),
ALLORA SI è AUTORIZZATI AD ACCETTARE L’IPOTESI ALTERNATIVA
Osservando i dati raccolti nell’esempio, la prima impressione è che il trattamento B sia il migliore,
ma la statistica richiede una valutazione non impression based, ma evidence based.
Nell'assegnare random i trattamenti, potrebbe esser capitato per caso che abbiano preso il
farmaco A tutte le persone più gravi o più defedate. In altri termini, potrebbe esser stato
soltanto il caso a dare l'impressione di una maggior efficacia dell'antibiotico B.
6
Chi quadro di Pearson
Come misurare la probabilità che la differenza osservata sia dovuta soltanto al caso, cioè la p(H0)?
Con un test inventato da Pearson a metà del secolo scorso e che è alla base di numerosissime
altre valutazioni statistiche: il chi quadro (χ 2).
Data questa situazione osservata sperimentalmente:
Trattamento
A
B
Totale
Non guariti
60
40
100
Guariti
40
60
100
Totale
100
100
200
Se i due farmaci fossero equivalenti, le quote contingenti dovrebbero essere ripartite
in modo equivalente!
Nell'esperimento sopradescritto la probabilità di esser ancora malato dopo aver preso l'antibiotico
(qualunque esso sia) è:
La frequenza, cioè la probabilità empirica di aver preso l'antibiotico A è:
La probabilità di essere e non guarito e trattato con antibiotico A è pari alla intersezione delle due
probabilità:
La quota contingente (spettante quando non vi sono differenze) per i non guariti trattati con
antibiotico A dovrebbe essere pari al 25%=0,25 del campione di 200 persone esaminate.
Analogo procedimento per:
• guariti con antibiotico A
• non guariti trattati con antibiotico B
• guariti con antibiotico B.
Le quote contingenti attese sotto ipotesi che i due farmaci non siano diversi tra loro
sono:
7
Trattamento
A
B
Totale
Non guariti
50
50
100
Guariti
50
50
100
Totale
100
100
200
Quanto è grande la differenza tra le due tabelle di contingenza, quella osservata
nell'esperimento e quella ipotizzata sotto condizione che i due farmaci non abbiano
diversi effetti?
Secondo Pearson si puo' misurare tale differenza con questa formula:
Ove per frequenze (assolute) attese e osservate si intendono le frequenze (assolute) contingenti
osservate e attese nelle 4 caselle corrispondenti a:
•
ancora malati trattati con antibiotico A
•
guariti con antibiotico A
•
ancora malati trattati con antibiotico B
•
guariti con antibiotico B.
Nel nostro caso:
χ2=8 che è secondo Pearson la misura della differenza tra la tavola di contingenza ‘osservata’ e
quella ‘attesa’ se i due farmaci sono equivalenti. Puo' ritenersi una grande differenza o no?
Si puo' stabilire se è grande o no soltanto se si ha una misura di riferimento.
In questo caso la misura di riferimento è la distribuzione di probabilità del chi quadro di
seguito riportata:
8
La curva tende asintoticamente sia all'asse delle y che all’asse delle x. Sono riportati tutti i possibili
valori che il chi quadro puo' assumere per caso in un disegno di ricerca analogo a quello sopra
indicato (due trattamenti e due esiti).
L'area sottesa dalla curva, ovviamente, vale 1=100% di probabilità, perché comprende tutti i valori
che teoricamente si posson verificare per caso. Vale la pena di notare che il massimo di probabilità
si ha per χ2=0, quando i valori osservati siano identici ai valori attesi.
Man mano che il valore del chi quadro cresce, la probabilità che quel valore si verifichi per caso
(ipotesi nulla) diminuisce.
Il valore 3,84 del χ2 viene detto valore critico della funzione discriminante, perché in un
disegno sperimentale come quello sopra descritto, un valore di chi quadro > 3,84 ha una
probabilità di verificarsi per puro caso < 5% che è come dire: p <0,05.
Un valore di chi quadro >6,63 si ottiene per caso in un disegno di quel tipo con una probabilità
inferiore all'1%, come dire p <0,01
In questo studio, avendo scelto un livello di probabilità di errore alfa = 0,05 si puo' dire che il
farmaco B è migliore di A in modo s.s. (=statisticamente significativo), con p<0,05, cioè probabilità
di affermare il falso inferiore al 5%.
9
Tavole di contingenza
Non sempre gli studi sono così semplici: molte volte si cerca di paragonare 3 diversi farmaci (A, B
e C) e,magari, di considerare 3 diversi esiti (guarito, migliorato, invariato).
Non cambia però l’intimo meccanismo del test: uno schema di questo tipo: due trattamenti con tre
diversi possibili esiti puo’ esser raffigurato in questa maniera:
A
D
G
B
E
H
C
F
I
Se non vi fosse differenza tra i due trattamenti riguardo i loro risultati, dovremmo aspettarci che i
pazienti fossero quasi equidistribuiti nei vari gruppi in questo modo:
A
D
G
B
E
H
C
F
I
Se invece uno dei due trattamenti fosse notevolmente più efficace dell’altro. dovremmo aspettarci
che i pazienti non fossero affatto equidistribuiti, così come schematizzato qui sotto:
A
D
G
B
E
H
C
F
I
Per dire che i trattamenti non sono uguali occorre:
• che vi sia differenza in almeno un trattamento
• che tale differenza sia tanto grande da divenire statisticamente significativa
Siano, ad esempio, queste le quote contingenti osservate:
Trattamento
A
B
C
Totale
Invariati
100
50
75
225
Migliorati
150
200
200
550
Guariti
50
50
25
125
Totale
300
300
300
900
Il modello è più complesso del precedente, ma il metodo è identico. Si calcolino:
•
Probabilità di aver effettuato il trattamento A o B o C:
•
Probabilità di esser rimasti invariati dopo una qualsiasi terapia:
•
Probabilità di esser migliorati dopo una qualsiasi terapia:
•
Probabilità di esser guariti dopo una qualsiasi terapia:
10
Con le opportune intersezioni, si riempiano le caselle del disegno dello studio:
Trattamento
Invariati
Migliorati
Guariti
A
B
C
Basta moltiplicare i prodotti delle probabilità qui sopra indicate per 900 e si ottengono le quote
contingenti attese sotto ipotesi che i tre farmaci non agiscano in modo diverso (le cifre sono
approssimate per via dei decimali):
Trattamento
A
B
C
Totale
Invariati
75,0
75,0
75,0
225
Migliorati
183,2
183,2
183,2
549,6
550
Guariti
41,8
41,8
41,8
125,4
125
Totale
300
300
300
900
Si applica la solita formula, ma gli addendi non sono più 4 come nell'esempio precedente, sono
tanti quante le caselle, cioè 9.
Il tipo di studio appena descritto è differente dal primo illustrato in questo capitolo.
Nel primo, avevamo 2 trattamenti e 2 esiti: si trattava quindi di una tabella di contingenza
cosiddetta
; nel secondo studio, abbiamo a confronto 3 trattamenti con 3 possibili esiti: si
tratta di una tabella di contingenza cosiddetta
.
Il valore 33,22 di chi quadro va confrontato con una distribuzione leggermente diversa (non deve
meravigliare più di tanto che si utilizzi uno strumento di misura: il peso dei neonati, degli adulti,
dei carichi dei camion o dei carichi delle navi non si valutano certamente con le stesse bilance!).
Questa sotto indicata è una curva distributiva del chi quadro adatta a una tavola di contingenza
.
11
In un disegno 3 esiti e 3 trattamenti, infatti, i possibili valori del chi quadro che si verificano per
caso sono differenti da quelli che si hanno nel modello due esiti e due trattamenti.
La curva della probabilità cumulativa si modifica e diventa sempre più gaussiana man mano che
aumentano i trattamenti e i possibili esiti.
La forma della curva distributiva e i valori critici della funzione discriminante (chi quadro) cambiano
a seconda dei gradi di libertà. Nell'esempio appena citato (tre trattamenti e tre esiti) i gradi di
libertà sono
.
12
I gradi di libertà sono il numero di variazioni indipendenti che puo' avere un insieme di
misure o di modalità. Il motivo non è banale, ma si puo’ dare la seguente spiegazione intuitiva:
Trattamento Invariati Migliorati Guariti
A
B
C
?????
0,25
?????
Nelle nove caselle qui sopra, i casi si possono disporre in moltissimi modi diversi, fintanto
che non si utilizzano i valori osservati per fare una stima della probabilità di subire il
trattamento A o B o C.
Dato che si stima che il trattamento A abbia probabilità di essere applicato =
trattamento B =
, quale sarà la probabilità di subire il trattamento C? Soltanto
altrimenti la somma non farebbe 1.
La libertà di variazioni indipendenti tra i tre trattamenti, quindi non è 3, ma 2!
e il
…
Analogo il discorso per gli esiti: avendo stimato gli invariati al 25%, cioè 0,25 di probabilità,
che per i migliorati sale allo
, quale potrà mai essere la probabilità di guarire, se non il
complemento a 1 della somma di queste due? Anche in questo caso la libertà di variazioni
indipendenti fra i tre esiti non è 3, ma 2.
In generali, i gradi di libertà (GL) di un test del chi quadro sono sempre così
calcolati:
GL = (N° colonne tabella di contingenza -1) (N° righe tabella di contingenza 1)
Il motivo di quel segno di moltiplicazione, invece, non dovrebbe esser difficile da ricordare:
essere trattato con un certo farmaco e, contemporaneamente, ottenere un certo esito, non
dà forse luogo a una intersezione di probabilità (regola del prodotto)?
Il test ci permette di stabilire che non vi è una uguaglianza tra i tre trattamenti
riguardo l'esito.
Più complesso è stabilire quale sia il trattamento migliore: per individuarlo, bisogna
considerare quale è la casella che ha la massima differenza tra valori osservati e valori
attesi.
Nel caso in esame, il farmaco C appare il meno soddisfacente, infatti fa guarire soltanto 25 pazienti
contro i 42 attesi.
I farmaci A e B fanno guarire molti più pazienti di quanti ci si aspetterebbe, infatti sono 50 pazienti
ognuno rispetto ai 42 attesi
Tra A e B pare migliore il B, perché fa migliorare 200 pazienti contro i 183 attesi (contrariamente al
farmaco A che fa migliorare meno persone di quante ci si aspetterebbe, cioè 150 contro 183)
Di seguito sono riportati alcuni valori critici della funzione discriminante del chi quadro per p<0,05
e p<0,01 a seconda dei gradi di libertà:
13
Gradi di libertà P<0,05 P<0,01
1
3,84
6,63
2
5,99
9,21
3
7,81
11,34
4
9,49
13,28
5
11,07
15,09
6
12,57
16,81
CONTROINDICAZIONI ALL’USO
Vi sono alcune avvertenze da tener presente per l’utilizzo del test χ2, legate soprattutto alla
numerosità campionaria.
•
Quando n<20, e GL <2, è opportuno applicare la correzione di Yates.
Da un punto di vista strettamente matematico non sarebbe corretto indicare il valore assoluto
, perché il teorema di Yates prevede una correzione fissa (sia che le frequenze
osservate siano maggiori delle attese sia che siano inferiori alle attese). In biologia e in medicina,
però, si preferisce utilizzare questo accorgimento , che è un banale accorgimento per rendere più
conservativo (meno facilmente s.s.) il test, proprio in considerazione della scarsa numerosità:
riducendo il numeratore in tutti gli addendi logicamente il valore del chi quadro si abbassa.
•
Quando in una casella vi è anche un solo valore atteso <5, conviene usare un test ben più
difficile da spiegare, il test esatto di Fisher.
Generalmente i software statistici riportano la correzione di Yates ed il calcolo del test di Fisher in
modo automatico in caso di tabelle 2x2.
14
Test esatto di Fisher
Il test di Fisher si basa sulla distribuzione binomiale e sulla probabilità condizionata di
avere una certa situazione di frequenze osservate "dati costanti i valori marginali di
una tavola di contingenza", secondo questa formula:
Gli elementi della formula sono indicati nella tavola di contingenza qui sotto riportata.
Evento +
Evento -
Trattamento +
a
c
C1
Trattamento b
d
C2
R1
R2
N
Eseguire manualmente il test esatto di Fisher non è proprio cosa semplice, comunque:
•
Si calcola una volta per tutte
, che è costante.
Sperando di non complicare inutilmente il discorso, si ricorda che il numero di combinazioni
(cioè dei gruppi di n elementi che si possono combinare in modo che siano diversi almeno
per un elemento considerando che ci debbano esser determinati marginali di riga e di
colonna) sarebbe
•
Si sceglie la casella con la numerosità minore (poniamo sia a)
•
Si considerano tante tavole di contingenza:
con a = 0
con a = 1
………..
con a = a, valore osservato nella realtà
con a sempre crescente, fino a che diventi a=C1 , che è il massimo valore possibile
(visto che C1 deve essere costante, per a = C1 si avrà c=0)
•
Per ogni tavola di contingenza si calcola la probabilità che si verifichi casualmente la situazione
osservata in funzione delle possibili variazioni di a (che puo’ esser al minimo =0 e, al massimo
= C1, quando c sia =0)
•
Per ogni combinazione si calcola il corrispondente valore di probabilità
•
La somma delle varie probabilità deve fare ovviamente 1, se si sono considerati tutti i valori di
a teoricamente possibili.
15
•
Poniamo siano questi i valori di probabilità ritrovati con C1=9, “a” potrà variare tra 0 e 9 e nei
vari casi l’ipotesi nulla avrà questa probabilità:
possibili valori di a
Probabilità della combinazione Probabilità cumulativa code
a=0, quindi c= C1
0,0046
a=1
0,0339
a=2
0,1110
a=3
0,2119
a=4
0,2600
a=5
0,2128
a=6
0,1160
a=7
0,0407
a=8
0,0083
a=9, quindi c=0
0,0008
Probabilità cumulativa
1
0,0385
0,0091
0,0476
•
Si valuta, per tentativi (fatti dal calcolatore) il limite delle due code con p cumulativa simile a
0,05 (area grigia)
•
Se la nostra particolare combinazione si trova all'esterno dei limiti, è significativa, altrimenti no

Per semplificare ulteriormente, di potrà accettare l’ipotesi alternativa quando: a=0, a=1, a=8 o
a=9
Questo tipo di test è più conservativo del chi quadro, ma è il solo idoneo a piccoli campioni.
16
Calcolo della numerosità campionaria richiesta
Vale la pena di soffermarsi un momento su questa situazione generale, che vale per tutti i test
statistici.
I test statistici sono un tentativo di misura della probabilità di eventi, non danno certezze.
Sono sempre possibili teoricamente due situazioni:
NEL CASO CHE L’IPOTESI ALTERNATIVA SI RIVELI FALSA
test con p<0,05
test con p>0,05
Errore di 1° tipo o errore
alfa accettato con
p<0,05 e lo si commette
Errore di 1° tipo o errore
Confidenza
nell'ipotesi
alfa accettato con p<0,05 e
alternativa p<0,95
non lo si commette
Ipotesi alternativa Confidenza
nell'ipotesi
accettata
alternativa p>0,95
Ipotesi nulla
accettata
L'errore alfa o errore di primo tipo è quello che si commette credendo vera l'ipotesi
alternativa, che invece è falsa
NEL CASO CHE L’IPOTESI ALTERNATIVA SI RIVELI VERA
test con p<0,05
test con p>0,05
Errore di 1° tipo o
Confidenza
nell'ipotesi errore alfa accettato
Ipotesi alternativa accettata
alternativa p>0,95
<0,05 e non lo si
commette
Errore di 1° tipo
non si commette,
Confidenza
nell'ipotesi
Ipotesi nulla accettata
ma si commette
alternativa p<0,95
l'errore di 2° tipo
o errore beta
L'errore beta o errore di secondo tipo è quello che si commette credendo vera l'ipotesi
nulla, che invece è falsa
Qualsiasi decisione si prenda, dunque, si puo' sempre sbagliare.
Gli errori più frequenti sono imputabili a
• un campione scelto in maniera "viziata"
• un campione non sufficientemente numeroso
La numerosità minima indispensabile del campione va valutata di volta in volta e stabilita in
funzione:
a. del tipo di fenomeno che si valuta
17
b.
c.
d.
e.
della minima differenza che abbia una qualche rilevanza clinica
della variabilità del fenomeno in relazione ad eventuali errori di stima
dell'errore di 1° tipo che si accetta in funzione dell'importanza della ricerca
dell'errore di 2° tipo che si accetta in funzione dell'importanza della ricerca
Si devono fare le seguenti considerazioni, punto per punto:
a.
Il tipo di fenomeno che si valuta in un chi quadro è sempre una modalità o categoria
(guarito/non guarito).
b.
Se finora con i vecchi trattamenti guarivano circa il 40% delle persone, quando ci si dichiara
soddisfatti della differenza con nuovi trattamenti? Per una guarigione di almeno il 50% dei
trattati, di almeno il 51%, di almeno il 55% dei trattati? È il ricercatore medico a stabilire
questo sulla base delle sue competenze. Poniamo che si consideri significativo un
miglioramento in termini di guarigioni del 2%=0,02
c.
Quanto puo' essere imprecisa la stima del fenomeno? Dipende dall'errore standard della
stima della frequenza media. Se finora erano guariti circa il 40% dei pazienti (limiti di
confidenza compresi tra 35% e 45%).
Questo significa che l'errore standard di tale frequenza (dal 35 al 45%) sarà:
d.
L'errore alfa che si accetta ha di solito p=0,05, ma puo' variare a giudizio del ricercatore
medico
L'errore beta che si accetta ha di solito p=0,1, che corrisponde a una potenza dello studio
di 0,9, cioè del 90%, ma puo' variare a giudizio del ricercatore medico. Se una ricerca fosse
molto costosa o anche pericolosa (a volte si prevede per tutti i pazienti arruolati una
angiografia o una biopsia!), occorrerebbe prevedere una potenza molto alta.
e.
A questo punto si è in grado di prevedere il numero minimo indispensabile di persone da
coinvolgere nello studio utilizzando questi valori fissi in funzione di alfa e beta scelti:
β=0,05
β=0,1
β=0,2
β=0,5
10,8
13,5
15,8
17,8
8,6
10,5
13
14,9
6,2
7,9
10
11,7
2,7
3,8
5,4
6,6
α=0,1
α=0,05
α=0,02
α=0,01
Basta applicare questa formula:
Con circa 36 persone suddivise tra due gruppi, si è certi di avere una numerosità sufficiente per
prendere una decisione utilizzando il minor numero di dosi di farmaco, di risorse umane e
strumentali.
18
Volendo discriminare una differenza di effetto più piccola, ad esempio dell'1%, si avrebbe:
Volendo discriminare una differenza di effetto più grande, ad esempio del 4%, si avrebbe:
In fondo è logico: è più facile vedere una montagna che un sassolino!
Da tale impostazione si puo’ rilevare a priori il numero minimo di soggetti da inserire
nello studio (ed è importantissimo per motivi di economia di tempo, denaro, risorse
umane, stress ai pazienti). Esistono comunque programmi o siti internet che
consentono di calcolare il numero minimo indispensabile fornendo le informazioni
predette.
I soggetti dovranno poi esser scelti in modo da non inficiare la ricerca, specificando quali criteri
hanno portato alla loro inclusione nello studio e evitando di poter influire sui risultati dello studio
stesso, ad esempio assegnando i farmaci in doppio cieco.
Generalmente i programmi di statistica in commercio applicano automaticamente la correzione di
Yates se necessaria e avvertono se in una delle caselle della tavola di contingenza si ha un valore
atteso <5. Qualora ciò accadesse,
• se biologicamente, clinicamente razionalmente possibile senza modificare gli scopi e
l’impostazione della ricerca, conviene raggruppare i casi in modo meno dettagliato,
aumentando così la loro numerosità (gli statistici puri non sarebbero d’accordo: ogni
decisione presa a posteriori è un arbitrio)
• applicare il test esatto di Fisher
19
Riassumendo, quando si debba verificare il diverso effetto di due o più terapie (dati non appaiati)
su parametri espressi in scala nominale o ordinale, occorre:
A PRIORI
 Impostare il quesito (ipotesi nulla e ipotesi alternativa)
 Valutare la differenza (di frequenza di guarigioni, ad esempio) definita come clinicamente
significativa, l’errore alfa e l’errore beta che si accetta (potenza dello studio)
 Calcolare il numero minimo di soggetti da campionare
 Decidere i criteri di inclusione e di esclusione dallo studio (eccessiva gravità della situazione
clinica, età…)
 Ottenere il consenso informato dai pazienti selezionati
 Assegnare in modo randomizzato e, ove possibile, in doppio cieco, i vari trattamenti
 Effettuare le misure
A POSTERIORI
 Verificare se, dati i valori marginali osservati, anche in una sola casella della tavola di
contingenza si abbia una frequenza attesa <5
Studio per dati non
appaiati
Modalità o valutazione ordinale
Con frequenze assolute >5
nelle varie caselle
χ2 di Pearson
Modalità o valutazione ordinale
Con frequenze assolute < 5 anche in
una sola casella
Test esatto di Fisher
20
Chi quadro di Mc Nemar
Meno frequentemente puo’ capitare di effettuare valutazioni di modalità o valutazioni ordinali per
dati appaiati.
Immaginiamo ad esempio di effettuare un intervento di educazione sanitaria in una popolazione
con determinate abitudini di vita (ad esempio con un 25% di fumatori cronici).
Dopo



qualche tempo dall’intervento potranno accadere le seguenti situazioni:
alcuni fumatori continueranno a fumare nonostante l’intervento
alcuni fumatori smetteranno di fumare (segno di grande successo dell’intervento)
alcuni non fumatori, disturbati da un intervento espresso in termini poco accattivanti
potranno iniziare a fumare (segno di grande insuccesso dell’intervento)
 alcuni non fumatori continueranno a non fumare.
L’efficacia o meno dell’intervento effettuato non va misurata su coloro che non hanno mutato le
proprie abitudini, ma sulle persone che dopo il nostro intervento si sono comportati diversamente
da come facevano prima (proprio per verificare se siano di più coloro che hanno seguito i buoni
consigli rispetto a quelli che, per reazioni, hanno iniziato ad avere comportamenti nocivi alla
propria salute).
Della tavola di contingenza che si puo’ costruire con i dati osservati, quindi, interessano soltanto
due caselle su quattro:
PRIMA
DOPO
Non fumatori
Fumatori
Fumatori
18000
2000
20000
Non fumatori
7000
73000
75000
80000
100000
25000
E precisamente le caselle che indicano che 7000 persone delle 250000 che prima fumavano hanno
smesso di fumare, mentre 2000 che precedentemente non fumavano si sono messe a fumare.
Pare che si sia avuto un guadagno verso le buone abitudini di vita… ma è un guadagno
sufficientemente grande per poter dire che il cambiamento di abitudini sia imputabile all’intervento
e non rientri nella variabilità del caso?
Se l’intervento fosse stato del tutto inutile (non efficace né in positivo né in negativo), le 9000
persone che hanno cambiato abitudine dovrebbero esser distribuite equamente nei due gruppi
(9000/2=4500). Il che significa che i valori attesi sotto ipotesi nulla sono in questo caso:
PRIMA
Fumatori
DOPO
4500
Fumatori
Non fumatori
Non fumatori
4500
A questo punto si applica la solita formula del chi quadro (con correzione di Yates) soltanto alle
caselle delle coppie “discordi” (coloro che hanno cambiato abitudine):
21
Per un grado di libertà, la distribuzione del chi quadro indica una significatività elevatissima.
Qualora i controlli fossero più di 2, è possibile con alcuni software calcolare il cosiddetto chi quadro
per trend, che consente di valutare se in più tempi diversi la variazione della prevalenza di
determinate abitudini o di certe malattia cambi in modo statisticamente significativo.
Il test per trend è una applicazione dell’OR secondo Mantel Haenszel e si puo’ trovare qui
l’occasione per approfondire questo argomento a completamento del capitolo 4° della prima parte
del testo.
L’OR secondo Mantel Haenszel è stato studiato per “depurare” un OR grezzo da
eventuali fattori confondenti
Pare accertato che il rischio di cardiopatia ischemica sia maggiore in chi abbia un livello sierico di
catecolamine superiore alla norma. Immaginiamo dei dati di fantasia:
Cardiopatia
ischemica
Non cardiopatia
ischemica
Catecolamine alte
Catecolamine
basse
27
44
71
95
443
538
122
487
609
Una simile situazione prevede: OR=2,86 e χ2=14,98 con p<0,001
È verosimile che tale rischio non sia influenzato anche dall’età del paziente (superiore o inferiore a 55
anni, ad esempio) o dalla presenza di una qualche alterazione della ripolarizzazione verificabile all’ECG?




Il sospetto che l’età e pregresse alterazioni dell’ECG influenzino il rischio è del tutto giustificato e
verosimile. La tecnica di Mantel Haenszel consiste nel valutare l’OR grezzo nei 4 possibili sottogruppi:
età <55 a.; ECG normale
età < 55 a.; ECG alterato
età >=55 a.; ECG normale
età >= 55 a.; ECG alterato
Nel gruppo teoricamente più “a rischio”, quello con età >= 55 a. ed ECG alterato immaginiamo che si
abbia una numerosità ovviamente inferiore e una situazione di questo tipo:
Catecolamine alte
Catecolamine basse
Cardiopatia ischemica
14
5
19
Non cardiopatia ischemica
44
27
71
58
32
90
Una simile situazione prevede: OR=1,72 e χ2=0,46 con p<0,5 quindi non significativo (probabilmente
per errore beta da ridotta numerosità campionaria)
Qualora i 4 OR grezzi fossero molto diversi tra loro, si puo’ supporre che età e ECG pregresso siano
fattori confondenti molto importanti e la tecnica di Mantel Haenszel si imporrebbe… ma la si puo’
comunque adottare per amore di precisione e per evitare errori alfa e beta.
L’aggiustamento dei dati secondo Mantel Haenszel si ottiene con una modifica del χ2di Pearson.
Mentre nel Pearson si fa lo somma di tanti rapporti fra scarti quadratici tra valori osservati e valori attesi
sotto ipotesi nulla rapportati ai valori attesi quante sono le caselle della tavola di contingenza, nel
Mantel Haenszel ci si focalizza sui casi patologici osservati negli esposti al rischio, cioè sulla sola casella
A così come si presenta nei vari strati considerati (nel nostro esempio g=4)
22
Immaginando di costruire una tavola di contingenza per ognuno dei g possibili strati, si otterrebbe per
ogni strato questa tabella:
Esposti
Malati
Non malati
Ag
Cg
n1g
Non
esposti
Bg
Dg
n0g
m1g
m0g
ng
Il chi quadro verrebbe calcolato dallo strato 1 allo strato G in questo modo:
Il denominatore rispecchia le leggi della distribuzione di probabilità binomiale, mentre a numeratore la frazione
non è altro che il modo per calcolare i valori attesi della casella esposti e malati nei vari strati
possibili.
Il vantaggio di procedere in questo modo è l’ottenere un chi quadro aggiustato per fattori confondenti.
In modo analogo è stato possibile aggiustare anche l’odd ratio, ottenendo un valore che è depurato da eventuali
fattori confondenti.
Ovviamente anche l’OR secondo Mantel Haenszel prevede i soliti limiti di confidenza (calcolati in modo
ancora più complesso, con l’ausilio degli esponenziali). Vale sempre la regola che un tale OR è
significativo se i due limiti di confidenza sono entrambe maggiori o minori dell’unità.
Il test del chi quadro per trend prevede di seguire una coorte di persone esposte per un certo
periodo di tempo a intervalli regolari. Questo gruppo si dividerà “eventi” e “non eventi”, cioè in
malati e non malati. Al tempo 0 si ha ovviamente la condizione basale che, per convenzione, ha un
OR = 1. Gli altri OR vengono calcolati come segue:
23
tempo
0
1
2
3
4
5
Malati
a
c
e
g
i
m
Non malati
b
d
f
h
l
n
OR
1 per convenzione
ad/bc
af/eb
ah/gb
al/ib
an/mb
Dopo di che si valuta se gli OR vanno calando o crescendo regolarmente in funzione lineare con il
passare del tempo. Se hanno variazioni irregolari, sopra e sotto l’unità, il fenomeno appare del
tutto casuale e non statisticamente significativo. Non si puo’ in tal caso rifiutare l’ipotesi nulla.
24
Riassumendo, quando si debba verificare nel tempo l’effetto di una terapia (dati appaiati)
parametri espressi in scala nominale, occorre:
su
A PRIORI
 Impostare il quesito (ipotesi nulla e ipotesi alternativa)
 Valutare la differenza (di frequenza di guarigioni, ad esempio) definita come clinicamente
significativa, l’errore alfa e l’errore beta che si accetta (potenza dello studio)
 Calcolare il numero minimo di soggetti da campionare
 Decidere i criteri di inclusione e di esclusione dallo studio (eccessiva gravità della situazione
clinica, età…)
 Ottenere il consenso informato dai pazienti selezionati
 Effettuare le valutazioni
Studio per dati
appaiati
2 valutazioni
χ2 di Mc Nemar
>2 valutazioni
χ2 per trend
25
Capitolo 2: I test di ipotesi per misure non appaiate
Spesso in medicina ci si pone il problema di valutare “di quanto” un trattamento sia in
grado di modificare uno dei tanti parametri che si utilizzano per valutare lo stato di
salute o di malattia dei pazienti.
In questo caso non si utilizzano più le categorie “guarito, migliorato, ammalato, deceduto…”, ma ci
si porta ad un più sofisticato livello di conoscenza utilizzando misure che servono quali indicatori di
esito (ad esempio tutte le valutazioni laboratoristiche, le misure antropometriche, gli esiti valutati
considerando il tempo di guarigione o di ricaduta…)
Lo schema intuitivo di questo tipo di studi puo’ essere così rappresentato, essendo il gruppo A
studiato e valutato contemporaneamente al gruppo B e, ove i test statistici lo consentano, al gruppo
C o D…
I 2 o 3 o più gruppi, costituiti da campioni provenienti dal medesimo universo vengono sottoposti a
trattamenti diversi.
26
A trattamento concluso, si verificano i risultati nei tre campioni. È possibile trarre
conclusioni sull’efficacia dei diversi trattamenti utilizzando ad esempio le variazioni di
altezza di un certo parametro clinico come indicatore di esito della terapia (nelle figure
rappresentato come altezza dei vari ometti).
Se poi l’indicatore scelto sia il più adatto per valutare l’esito della terapia… è problema più medico
che statistico! Certo che la scelta di un indicatore inadatto inficia tutto il lavoro statistico.
27
t di Student per dati non appaiati
Differenze s.s. tra misure di due popolazioni differenti secondo Gosset
La sperimentazione si può impostare nel modo già visto precedentemente. Se dosiamo la
clearance renale a un campione numeroso (500 persone con lievi problemi renali) che seguono
però una dieta appropriata, otteniamo questa curva di distribuzione dei valori del test:
Valutando la clearance renale a 500 nefropatici che seguono una dieta squilibrata e
troppo ricca di proteine, otteniamo questa curva spostata verso i valori più bassi:
Riportandole insieme sugli assi cartesiani si puo’ verificare se vi è differenza tra i 500
nefropatici che seguono una dieta corretta e gli altri 500.
28
Confrontando le medie, cioè i vertici delle due curve pare certamente che la dieta
corretta sia efficace nel migliorare la clearance, ma se si osservano le basi, possono
sorgere dei dubbi. Alcuni pazienti che seguono dieta incongrua hanno valori superiori
(più “normali”) rispetto ad alcuni pazienti che si alimentano in maniera corretta!!!
Per rispondere al quesito: "la dieta prescritta fa migliorare la clearance dei
nefropatici?” è assolutamente importante vedere il fenomeno nel suo insieme:
• rappresentando le due curve contemporaneamente sugli assi cartesiani
• tenendo presenti i limiti di confidenza al 95% delle due popolazioni, che sono 90-110 cc. per
chi segue la dieta corretta e 25-95 cc. per gli altri. I limiti si intersecano, anche se la differenza
tra le medie è rilevante (100cc.-60cc.=40cc.).
La situazione è qui schematizzata in modo diverso:
• i punti centrali più scuri sono le medie e appaiono ben distanti
• le aree grigie comprendono i limiti di confidenza al 95%, quelle bianche i limiti di
confidenza al 99%
• Le aree bianche si intersecano e si sovrappongono, quindi la differenza puo’ esser più
apparente che reale
A
B
Poniamo che
29
•
•
•
•
l’obiettivo dello studio sia valutare se vi è una differenza tra le misure della clearance di chi
segue una dieta appropriata e quelle di chi segue una dieta incongrua
si sia precedentemente valutata la differenza minima clinicamente significativa (ad es.
una clearance che sia superiore di almeno 15 cc/minuto) per cui la numerosità dei due gruppi
sia congrua a quanto si va cercando
si accetti di sbagliare affermando che la dieta è efficace con una probabilità pari a 0,05 (errore
alfa)
si accetti di sbagliare affermando che la dieta è inefficace con una probabilità pari a 0,10
(errore beta), quindi una potenza della studio di 0.9=90%
Per rispondere alla domanda sull’efficacia della dieta è necessario:
• misurare la differenza tra le clearance dei pazienti dei due gruppi
• valutare se la misura di tale differenza è tanto grande da rendere improbabile (p<0,05) il fatto
che si sia potuta verificare per caso.
La differenza tra le clearances dei due gruppi si puo’ calcolare dalla differenza tra i valori medi,
come 100-60=40. E’ o dovrebbe esser noto dai precedenti capitoli che anche per pura casualità si
possono verificare delle differenze anche cospicue tra due diversi campioni del medesimo insieme
(pazienti nefropatici). In altre parole la differenza di 40, pur notevole, potrebbe esser dovuta agli
effetti del campionamento, non a quelli della dieta.
Per valutare la probabilità che una simile differenza si verifichi per caso occorre rapportarla ad un
qualche valore di riferimento (il concetto non dovrebbe risultare particolarmente ostico agli
operatori sanitari: per decidere se una persona è o meno ipertesa, si fa riferimento al valore
desiderabile di pressione arteriosa diastolica, che non dovrebbe superare gli 80 mm. Hg).
Lo strumento per misurare la casualità di fenomeni questo tipo è stato inventato quasi
un secolo fa da William Gosset e si tratta della statistica "t di Student per dati non
appaiati".
A molti verrebbe istintivo valutare semplicemente la differenza fra le medie.
A Gosset venne in mente un concetto più approfondito: che tale differenza poteva essere grande o
piccola a seconda della "variabilità del fenomeno".
Mai intuizione fu più corretta e condivisibile: una cifra di 10 euro è elevata per chi abbia un reddito
giornaliero di 50 euro, mentre puo’ esser risibile per chi abbia un reddito di 300 euro al giorno!
A questa intuizione è seguita una ricerca scientifica (di tipo matematico) che ha portato poi a
valutare la variabilità del fenomeno "differenza fra misure di popolazioni" e a dimostrare che
l'errore standard della differenza tra due medie campionarie è uguale alla radice quadrata della
somma delle varianze delle due popolazioni divisa per il rispettivo effettivo.
Di primo acchito non tutti comprendono perché l’errore standard di una differenza tra medie… si
calcoli con una somma, né questa è la sede per complesse dimostrazioni matematiche.
Intuitivamente, però, si puo’ comprendere perchè la variabilità del fenomeno “differenza tra coppie
di misure” è maggiore della variabilità delle misure di una singola popolazione.
Si veda questo esempio esplicativo:
Popolazione A (range di 20)
110
90
100
95
Popolazione B (range di 20)
50
70
60
55
30
105
65
Se si calcola la differenza di tutte le misure di A con le misure della popolazione B, i valori assoluti
delle misure sono:
60
40
50
45
35
40
20
30
35
45
50
30
40
40
50
55
35
45
30
40
45
45
35
55
Il range della differenza tra due popolazioni di misure è 40 (contro il range di 20 delle singole
popolazioni A e B): del resto sottraendo dalla misura più grande la più piccola, è ovvio che si
ottenga un numero grande e sottraendo dalla più piccola la più grande, invece, un numero molto
piccolo.
Il “funzionamento” del test puo’ esser così schematizzato, con le due popolazioni a confronto
inserite nella reale variabilità o errore standard del fenomeno “differenza tra le misure delle
popolazioni”.
B
A
Gosset decise di valutare la probabilità che una certa differenza tra medie di due popolazioni fosse
puramente casuale rapportandola (cioè misurandola) sulla base dell’errore standard del fenomeno
secondo questa formula:
ove
a numeratore si ha la differenza tra le medie delle due popolazioni (dieta corretta e dieta
non corretta)
• a denominatore la radice quadrata della somma di due frazioni costituite dal rapporto fra le
varianze e gli effettivi di dette popolazioni
Dalla formula suindicata uscirà un certo valore di t.
•
A tale valore di t corrisponderà una probabilità di essersi verificato per caso che si ricava dalla
distribuzione di student (già precalcolata da Gosset stesso).
Nell’esempio presentato, si avrebbe la seguente situazione:
Dieta corretta
Dieta scorretta
m=100
m=30
s=5
s=4
n=500
n=500
Differenza tra le
medie=+70
t=243.414 G.L.=998 P<0.0001
31
La distribuzione di student qui sotto raffigurata è ottenuta dalle distribuzioni di frequenza dei
valori di t che si possono avere estraendo a caso due campioni di misure da un medesimo
universo.
È una curva a campana che assomiglia moltissimo alla curva di Gauss, ma è leggermente più bassa
e larga (più platicurtica). Come la curva di Gauss tende asintoticamente all’asse y ed è simmetrica
I valori di t possibili sono infiniti, alcuni positivi e alcuni negativi, come si puo' immaginare vedendo
la formula:
quando mA<mB, allora t <0, mentre quando mA>mB, allora t >0.
Quanto più "t" è grande (o piccolo, se negativo), tanto meno diviene probabile che la differenza fra
le medie sia avvenuta per caso, infatti ci si avvicina a valori di
che corrispondono a livelli di
probabilità bassissimi sull’asse delle ordinate.
Simmetricamente rispetto allo 0 si distinguono due punti che sono i sono i valori critici
della funzione discriminante, cioè quelli che delimitano una area sottesa dalla curva
uguale al 95% del totale.
Valori di t superiori o inferiori (se negativi) si verificheranno quindi con p<0,05.
Bisogna tenere presente che:
• all'inizio dello studio non si puo’ sempre sapere se mA<mB o mA=mB o mA<mBi. Per questo si
considera come valore critico quello che delimita a destra e a sinistra dell'asse y una p=0,025.
La somma di queste due "code" fa appunto p=0,05.
• I valori critici della funzione discriminante variano a seconda della numerosità dei gruppi in
esame, in funzione dei gradi di libertà
32
I gradi di libertà del t di student per dati non appaiati si calcolano tenendo presente che si fanno in
pratica 2 stime campionarie:
• una della popolazione A, con nA pazienti, i GL saranno quindi in questo settore na-1
• una della popolazione B, con nB pazienti, i GL saranno quindi in questo settore nB-1
• i casi possono appartenere o alla popolazione A o alla popolazione B (unione di probabilità).
I GL del test risultano essere quindi nA-1+nB-1= nA+nB-2
Quando i GL sono molto grandi, la curva di student diventa assolutamente sovrapponibile alla
curva di Gauss standardizzata.
Quando i gradi di libertà sono molti la curva di Student si fa sempre meno platicurtica, finchè, per
effettivi intorno a 200, diventa sovrapponibile alla curva di Gauss normalizzata. In questo caso,
ovviamente, utilizzando il test a due code saranno sufficienti valori di t<-1,96 o >+1,96 per
ottenere la significatività statistica.
Il t di Student puo’ esser utilizzato, eccezionalmente, a una sola coda. Questo è possibile
farlo soltanto quando sia matematicamente certo che il valore di t possa esser soltanto o
negativo o positivo (occorre sapere che un certo fenomeno determina sicuramente o un
aumento o una diminuzione della media e in pratica questo lo si sa con certezza ben di
rado). Ad es., se studiassimo due gruppi di emorragici ciascuno con Hb variabile da 6 a 7
g%cc e somministrassimo al gruppo A emazie concentrate ed al gruppo B del plasma… beh,
è certo che in media il gruppo A presenterà livelli di emoglobina superiori a quelli del gruppo
B! In tal caso la significatività statistica si puo’ raggiungere anche con valori di t<0 ma
inferiori a quelli solitamente richiesti nel test a due code, perché essendo ovvio che la media
di A sia superiore, occorre identificare il punto che racchiuda una superficie del 5% da una
sola parte della curva invece che dalle due parti.
Se ogni gruppo di emorragici comprendesse 100 pazienti, sarebbe sufficiente un t>+1,64 ed
è ovvio che 1,64<1,96. Altrettanto ovvio è o dovrebbe essere che situazioni simili si
presentano eccezionalmente
33
CONTROINDICAZIONI ALL’IMPIEGO DEL TEST:
Eteroschedasticità dei due campioni: in presenza di varianze molto dissimili, il test puo’ esser
inaffidabile. Intuitivamente,
1. osservando il denominatore, che è in termini statistici, il "metro" di misura del fenomeno, si
rileva che il fenomeno stesso viene misurato sulla base della varianza dei due campioni.
Sarebbe auspicabile che tale varianza fosse ben determinata e fissa (è il metro di misura!)
2. osservando il numeratore, che rappresenta il fenomeno da misurare, si rileva che esso è
definito sulla base di due medie stimate, sarebbe auspicabile che fossero stimate con errori
standard (e quindi limiti di confidenza) non troppo diversi tra loro
Anormalità distributiva delle misure dei due campioni, particolarmente per distribuzioni
estremamente asimmetriche
f. Osservando il numeratore, si rileva che esso misura la differenza tra due medie. È ormai noto
che soltanto per distribuzioni di tipo normale, non troppo asimmetriche , la media è un
indicatore di tendenza centrale migliore della mediana. Se la distribuzione fosse troppo
asimmetrica, la nostra stima sarebbe molto poco affidabile. Come sarebbe poi la stima della
differenza tra queste due medie poco affidabili?
g. È stato dimostrato su base matematica con simulazioni che quando la numerosità dei campioni
è almeno >30 (secondo altri autori >100), il vincolo della normalità diventa meno importante.
Numerosità insufficiente puo’ esser causa di errore beta. Anche in questo, come in tutti i test
statistici, la numerosità minima indispensabile andrebbe calcolata a priori, in base:
• alla differenza minima tra le medie che si ritiene clinicamente significativa (per intendersi, una
variazione di 1 nella clearance sarebbe matematicamente significativa, ma clinicamente
irrilevante
• alla variabilità presentata in natura dalla misura che si sta considerando, identificabile
nell’errore standard di quella misura. Non è certo un problema conoscerlo! Basta:
o considerare i “valori normali” che vengono riportati a fianco di ogni determinazione
e che altro non sono che i limiti di confidenza al 95% di tale test nella popolazione
sana. Generalmente si tratta di valutazioni effettuate su vastissimi campioni, quindi
si possono applicare i concetti della normale standardizzata e dei suoi valori
notevoli.
o dividere l’intervallo di confidenza, cioè la differenza tra il valore maggiore e il minore
per il doppio di 1,96
o si ottiene l’errore standard
•
•
ove
al livello di errore alfa e beta che si accetta
applicare la seguente formula:
è un fattore moltiplicativo che varia a seconda dell'errore alfa e beta che si sceglie:
34
α=0,1
α=0,05
α=0,02
α=0,01
β=0,05
β=0,1
β=0,2
β=0,5
10,8
13,5
15,8
17,8
8,6
10,5
13
14,9
6,2
7,9
10
11,7
2,7
3,8
5,4
6,6
Lo si individua dall'incrocio degli errori alfa e beta accettati.
35
Analisi della varianza monofattoriale
Differenze s.s. tra misure non appaiate secondo Fisher
Einstein ha scritto che la massima aspirazione che puo' avere uno scienziato moderno è quella di
fare una scoperta che sopravviva nel tempo come caso particolare di un’ altra scoperta più valida
ed efficace.
E' esattamente quello che è successo a William Gosset, il cui t di Student ha ispirato, ma è stato
superato dalla analisi della varianza di Fisher (uno statistico degli anni '50).
Attualmente qualsiasi farmaco che debba esser introdotto nella farmacopea ufficiale deve
contemporaneamente dimostrare di esser migliore del vecchio farmaco migliore e migliore del
placebo: sono quindi necessari almeno tre confronti.
Il problema che puo’ nascere dall’utilizzo del t di Student per confronti multipli è detto “inflazione
dell’errore alfa” e rappresenta un problema che puo’ verificarsi in generale in caso di applicazione
non corretta delle tecniche statistiche.
Nel caso specifico, dovendo confrontare tra loro tre gruppi, accadrebbe quanto sintetizzato nella
figura seguente:
A
p=0,05
p=0,05
B
p=0,05
C
Confrontanto A e B si accetta un errore alfa con p=0,05….idem nel confronto fra B e C e in
quello fra C ed A. l’errore alfa totale diventa così con p=0,15!!!
Teoricamente si potrebbe adottare il t di Student applicando una teoria geniale nella sua semplicità
che deriva dal teorema di Bonferroni (un professore universitario italiano: 1892-1960).
Tale applicazione consente di rimediare al problema accettando per ogni confronto un livello di
probabilità di errore alfa pari a
. Semplice come l’uovo di Colombo! Nel caso su
riportato la correzione di Bonferroni consiste nell’accettare per ogni confronto un errore alfa con
p<
36
A
p<
B
p<
p<
C
In tal caso l’errore alfa totale è pari a
Se i gruppi fossero più numerosi, questo modo di procedere potrebbe esser molto disagevole,
perché i test da eseguire diventerebbero troppo numerosi.
Se i gruppi fossero anche solo 5, i confronti sarebbero:
.
Per evitare l'inflazione dell'errore di prima specie ogni test sarebbe accettato solo per
, in modo che l'errore totale sia ≤0,05. Si finirebbe per accettare un errore alfa
molto piccolo e questo potrebbe portare al rischio di un errore beta che tende ad aumentare ogni
volta che si richiede un errore alfa molti piccolo!
Il test di Bonferroni viene solitamente applicato subito dopo l’analisi della varianza (che puo’
arrivare a dimostrare che è altamente improbabile che tre o più gruppi siano uguali tra loro) per
indagare tra quali di questi gruppi si trovi la differenza (o meglio la non-uguaglianza) maggiore.
Quando i gruppi siano maggiori di 10, il test di Bonferroni diventa troppo conservativo e si utilizza
allora il test di Tuckey che è analogo, ma è formulato in modo tale da risentire meno della
numerosità dei gruppi considerati.
Per questo per confronti fra più di due gruppi di valori in scala di misure è opportuno utilizzare
l’ANOVA di Fisher.
L’anova di Fisher rapporta fra loro due misure di variabilità o dispersione:
– La varianza delle medie campionarie dalla stima dell’universale (TRA)
– La variabilità totale dei campioni considerata all’interno dei singoli gruppi (INTRA).
La formula di questo test è ben più complicata di quella del t di Student, ma per fortuna il calcolo è
affidato ai computer e qui si cercherà soltanto di comprendere il concetto che sta alla base del
test.
Intanto si osservi un fatto certamente già noto dagli studi liceali: la distanza tra due punti si calcola
facilmente:
37


, basta fare la differenza fra la posizione di un soggetto e quella del
secondo.
Non è per nulla immediato, invece, dire quanto siano distanti quei tre soggetti sotto indicati!



Occorre prendere un punto di riferimento (la bandierina) e calcolare
la distanza di ognuno dei tre soggetti dalla bandierina, sommare le
tre distanze e, volendo conoscere una distanza media, si divide per
tre.
Immaginiamo che
 i tre ometti rappresentino il valore medio di un certo indicatore in soggetti trattati con
terapia A (valore = 130), con terapia B (valore = 170), e con placebo (valore = 120),
 la bandierina sia la media delle tre medie (la media delle medie dei soggetti trattati con
terapia A, con terapia B e con placebo)
Il ragionamento di Fisher è stato il seguente:
• I tre campioni sono costituiti da esseri umani provenienti dal medesimo universo.
• Le differenze sono soltanto imputabili al fenomeno del campionamento, non ai farmaci
(ipotesi nulla).
• 130+170+120/3=140 si potrebbe considerare una stima della media universale.
Una qualunque misura xa=36, quindi, se viene rispettato quanto sopra detto avrà una distanza dalla
media universale pari alla sua distanza dalla media di gruppo (120) sommata alla distanza della
media di gruppo (120) dalla media delle medie
120
xa=36
13
0
14
0
17
0
Se sono vere le considerazioni di Fisher (sotto ipotesi nulla) la distanza così calcolata non puo’
esser molto diversa da un semplice 140-36=104
38
13
0
xa=36
120
17
0
14
0
120
Ogni elemento dei tre campioni disterà dalla media universale di un intervallo calcolabile in due
diversi modi (somma di distanza intra e distanza tra oppure distanza totale):
Campioni
Distanza
INTRA
Distanza
TRA
Distanza totale
A
(xA - 130) + (130-140)
= xA - 140
B
(xB - 170) + (170-140)
= xB - 140
C
(xC - 120) + (120-140)
= xC - 140
Trasformiamo le distanze o scarti in devianze, così come si è fatto già nelle prime pagine del
capitolo 1°
39
Campioni
Devianza
INTRA
Devianza
TRA
Σ(xA - 130)2
(130-140) 2
A
B
C
Σ(xB - 170)
Σ(xC - 120)
2
2
(170-140)
2
(120-140)
2
Trasformiamo le devianze in varianze, dividendo
 la somma delle devianze intra per i gradi di libertà, che, avendo effettuato tre stime delle
tre medie di A, B e C, saranno pari a

la somma delle devianze tra per i gradi di libertà, che avendo effettuato la sola stima della
media delle medie saranno pari a 3-1.
La formula della F di Fisher, quindi è, per 3 confronti:
Il numeratore della frazione indica le differenze eventualmente imputabili ai diversi trattamenti. Più
grande è il numeratore, più è probabile che l’ipotesi nulla sia falsa
Il denominatore indica invece la variabilità del fenomeno influenzata dal campionamento. Più
grande è il denominatore più probabile è che l’ipotesi nulla sia falsa, a meno che il numeratore
abbia un valore molto molto grande.
Per F intorno a 1, è praticamente sicura l’ipotesi nulla!!!
Anche Fisher, come Gosset prima di lui, ha predisposto uno “strumento di misura” che è la
distribuzione di probabilità F di Fisher, qui sotto disegnata per 1 grado di libertà
40
Anche l’F di Fisher ha infiniti valori, tutti positivi, però. Per tale motivo lo si definisce “test a una
coda”.
La curva è stata costruita calcolando con simulazioni matematiche tutti i possibili valori di F che si
possono ottenere dalla formula estraendo da un insieme k campioni in modo assolutamente
casuale, per cui eventuali apparenti differenze siano imputabili al campionamento, non al
trattamento.
È intuitivo che più grandi sono i valori di F meno probabile è che si siano verificati per caso.
Nella curva di distribuzione di F bisogna ricordare che:
• interseca l'asse delle ordinate (quando le k medie coincidono)
• ha un massimo per F=1 (quando varianza TRA=varianza INTRA)
• sottende un'area di valore 1=100%
• esiste un “valore critico della funzione discriminante” dal quale, innalzando la
perpendicolare, si delimita una coda che ha area uguale al 5% del totale
• se dalla formula esce un F>punto critico della funzione discriminante, il test è significativo.
Il che significa che la probabilità che i k campioni non siano uguali soltanto per effetto del
campionamento è < 0,05
• cambia a seconda dei gradi di libertà della varianza intra e della varianza tra, quindi cambia
anche il valore critico nei vari tipi di studio che possono esser fatti.
Esistono delle tavole cartacee che danno i valori critici, ma il computer in genere le ha
memorizzate nel proprio algoritmo.
La curva di distribuzione cambia a seconda dei gradi di libertà del numeratore e del denominatore
e come si vede tende ad assomigliare alla curva di distribuzione delle medie campionarie quando i
gradi di libertà siano >100.
41
Ricordando che:
varianza totale = varianza tra gruppi + varianza intra gruppi
•
se F=1, significa che VARIANZA TRA = VARIANZA INTRA, quindi la varianza tra gruppi
concorre soltanto per il 50% a formare la varianza totale del fenomeno (poco per poter
affermare che i k gruppi non sono uguali tra loro se non per caso, cioè per effetto del
campionamento).
•
Se F<1, significa che VARIANZA TRA < VARIANZA INTRA, quindi la varianza tra gruppi
concorre soltanto per meno del 50% a formare la varianza totale del fenomeno (è quindi
decisamente poco influente rispetto alla variabilità casuale del fenomeno).
•
Se F>1, significa che VARIANZA TRA > VARIANZA INTRA, quindi la varianza tra gruppi
concorre soltanto per più del 50% a formare la varianza totale del fenomeno (è quindi
decisamente più importante rispetto alla variabilità casuale del fenomeno). Quanto più
grande è il valore di F, tanto più questo è vero. Quanto più grande è il valore di F, tanto più
improbabile è che le differenze riscontrate siano imputabili al caso, cioè che siano effetto
del campionamento, più che del trattamento.
CONTROINDICAZIONI ALL’IMPIEGO DEL TEST:
Eteroschedasticità dei campioni, cioè presenza di varianze molto dissimili, il test puo’ esser
inaffidabile. Intuitivamente,
3. osservando la formula, il "metro" di misura del fenomeno sono proprio le varianze. Sarebbe
auspicabile fossero dei valori stabili (sono il metro di misura!)
Anormalità distributiva delle misure dei campioni, cioè distribuzioni estremamente
asimmetriche
h. per calcolare le varianze, bisogna prima calcolare le medie. È ormai noto che soltanto per
distribuzioni di tipo normale, non troppo asimmetriche , la media è un indicatore di tendenza
centrale migliore della mediana. Se la distribuzione fosse troppo asimmetrica, la nostra stima
sarebbe molto poco affidabile. Come sarebbe poi la stima della media di queste medie poco
affidabili?
42
i.
È stato dimostrato su base matematica con simulazioni che quando la numerosità dei campioni
è almeno >30 (secondo altri autori >100), il vincolo della normalità diventa meno importante.
Numerosità insufficiente, che puo’ esser causa di errore beta. Anche in questo, come in tutti i
test statistici, la numerosità minima indispensabile andrebbe calcolata a priori, in base:
• alla differenza tra le medie minima che si ritiene clinicamente significativa (per intendersi, una
variazione di 1 nella clearance sarebbe matematicamente significativa, ma clinicamente
irrilevante
o alla variabilità presentata in natura dalla misura che si sta considerando,
identificabile nell’errore standard di quella misura.
o al livello di errore alfa e beta che si accetta
43
Differenze s.s. tra misure di due popolazioni differenti secondo Mann-Whitney
In alcuni casi (malattie rare, sperimentazione di farmaci o di trattamenti) non è
possibile avere campioni sufficientemente numerosi per evitare errori beta di notevole
entità
In tali casi trovano indicazione i test di ipotesi non parametrici, come il test di MannWhitney.
Nulla cambia nella fase iniziale di preparazione allo studio, ma al momento di valutare i risultati
ottenuti, vengono applicati ragionamenti totalmente diversi e solo apparentemente grossolani.
Siano questi i valori di clearance renale in 5 nefropatici a dieta corretta e in 5 nefropatici a dieta
scorretta:
Dieta corretta
110
90
100
95
105
Dieta scorretta
50
70
60
55
65
Con solamente 5 misure, certamente le due distribuzioni non sono Gaussiane. Il ragionamento di
Mann-Whitney è stato molto semplice:
Ipotesi da valutare: “i valori delle clearance nei pazienti con diete diverse sono differenti?”
• Se sì, si accetta l’ipotesi alternativa. In tal caso ci si aspetta che nel gruppo a dieta
scorretta si registrino tutti i valori più bassi
• Se no, si accetta l’ipotesi nulla. In tal caso ci si aspetta che nel gruppo a dieta scorretta si
registrino sia valori bassi che valori alti, in modo, appunto, del tutto disordinato e casuale.
•
Nella figura sottostante è schematizzato il “meccanismo del test”:
Se tra i due gruppi vi è una differenza ed è s.s. è verosimile che nel gruppo A si trovino tutte le
misure più grandi e nel B le più piccole o viceversa
A




B
Se invece vi fosse una differenza, ma tanto piccola da non esser significativa, si potrebbe avere
una situazione di questo tipo, con misure grandi e piccole distribuite a caso nei due gruppi:
A
B



 

44
Per eseguire il test si valuta quali siano le misure maggiori mettendole tutte in fila in ordine
crescente
110
105
100
95
90
70
65
60
55
50
Misura massima
Appena più piccola
E così via……
Rango 1
Rango 2
Rango 3
Rango 4
Rango 5
Rango 6
Rango 7
Rango 8
Rango 9
Rango 10
Misura minima
Si verifica il rango delle misure appartenenti ai due gruppi
Ranghi dieta corretta
Dieta corretta
Dieta scorretta
1
5
3
4
2
110
90
100
95
105
50
70
60
55
65
Ranghi dieta
scorretta
10
6
8
9
7
Effettivamente le diete scorrette sono quelle che hanno i ranghi di più basso ordine (da 6 a 10),
quindi si ha l’impressione che la dieta scorretta sia nociva.
Occorre ora trovare uno “strumento di misura” per valutare se tale differenza sia dovuta al
campionamento con probabilità>0.05.
L’Autore ha risolto il problema con questo test che viene detto anche “test della somma dei
ranghi”, sommando tra loro i ranghi osservati nei due gruppi in esame.
Somma dei
ranghi
Ranghi dieta
corretta
1
5
3
4
2
15
Dieta corretta
Dieta scorretta
110
90
100
95
105
50
70
60
55
65
Ranghi dieta
scorretta
10
6
8
9
7
40
Questa è la situazione osservata del nostro esempio.
Quante diverse combinazioni di questi 10 ranghi sarebbero teoricamente possibili (situazione
attesa)?
È sufficiente valutare i possibili ranghi di uno dei due gruppi (se gli effettivi sono diversi, si sceglie
il gruppo meno numeroso)
45
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
…….
6
Possibili ranghi dei componenti di un gruppo
2
3
4
5
2
3
4
6
2
3
4
7
2
3
4
8
2
3
4
9
2
3
4
10
2
3
5
6
2
3
5
7
2
3
5
8
2
3
5
9
2
3
5
10
2
4
5
6
2
4
5
7
2
4
5
8
2
4
5
9
2
4
5
10
…….
…….
…….
…….
7
8
9
10
Somma dei ranghi
15
16
17
18
19
20
17
18
19
20
21
18
19
20
21
22
…….
40
E così via per tutte le possibili combinazioni, che saranno
I possibili valori di somma dei ranghi si distribuiscono in questo modo.
46
Ovviamente l’area dell’istogramma comprende il 100% dei possibili valori di somma dei ranghi e
vale 1=100% di probabilità.
Si identificano due valori critici della funzione discriminante, che sono i 2 punti
(simmetrici rispetto alla media) dai quali si possono innalzare le perpendicolari all’asse
delle x per delimitare un’area di istogramma pari al 95% del totale.
Se la somma dei ranghi ottenuta è superiore o inferiore ai valori critici, la probabilità che una tale
combinazione si verifichi per caso è < 0,05, quindi si puo’ accettare l’ipotesi alternativa.
Ovviamente nei computer i valori critici sono già memorizzati per tutti i vari effettivi dei due
campioni.
Questo metodo non è da considerarsi grossolano o meno valido dei test parametrici per vari
motivi:
• per campioni di effettivo >8, la distribuzione sopra indicata approssima molto bene a una
curva di Gauss standardizzata in cui il valore di z si calcola nel modo seguente:
•
•
•
per cui il test è s.s. quando zT>1,96 o zT <-1,96.
non spaventi la formula: è calcolata in base ai possibili valori dei ranghi per due gruppi di
nA e di nB misure… ed è comunque un algoritmo inserito nei comuni software, non va certo
calcolata di volta in volta!!!
il test in sé è abbastanza conservativo, quindi riduce il rischio di errore alfa
spesso le misure di cui si dispone in medicina sono di base un po’ grossolane e
approssimative, scarsamente riproducibili… è forse errore più grossolano partire da misure
di questo approssimative per arrampicarsi su complessi modelli matematici, che non
utilizzare un test non parametrico.
CONTROINDICAZIONI ALL’IMPIEGO DEL TEST
Numerosità veramente risibile, cioè <7 misure divise in due gruppi
Presenza di molte misure uguali tra loro nei gruppi, per cui diventa problematica l’assegnazione
di tanti ranghi uguali tra loro (il test si basa su una statistica semiqualitativa)
47
test non parametrico per confronti di >2 gruppi di misure non appaiate:
test di Kruskall-Wallis.
Consente di rimediare ai problemi che sorgono quando non è possibile avere campioni numerosi.
Immaginiamo di avere tre gruppi di misure di pazienti sottoposti a tre tipi di ipoglicemizzanti e di
dosare l’emoglobina glicosilata:
Gruppo A
6
7,1
8
8,5
9
GRUPPO B
7,2
7,9
8,2
8,8
7
Gruppo C
10
9,8
9,9
8,9
8,7
Al solito, si assegna un rango al pool delle misure.
Misure
6
7
7,1
7,2
7,9
8
8,2
8,5
8,7
8,8
8,9
9
9,8
9,9
10
ranghi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
48
Si inseriscono i ranghi al posto della misure osservazionali nei rispettivi gruppi, se ne fa la somma
e poi la media aritmetica.
Gruppo A
Misure
Ranghi
6
1
7,1
3
8
6
8,5
8
9
12
Media dei ranghi =30/5=6
GRUPPO B
Misure
Ranghi
7,2
4
7,9
5
8,2
7
8,8
10
7
2
Media dei ranghi =28/5=4,67
Gruppo C
Misure
Ranghi
10
15
9,8
13
9,9
14
8,9
11
8,7
9
Media dei ranghi =62/5=12,4
Si calcola il rango medio generale, che sarà:
1+2+3+4+5+6+7+8+9+10+11+12+13+14+15/15=8
Mimando un po’ quanto si fa nel calcolo della devianza TRA nell’ANOVA, si calcola la somma delle
devianze di ogni gruppo dal rango medio generale
• calcolando gli scarti al quadrato del rango medio di gruppo dal rango medio generale
• moltiplicando tali scarti per gli effettivi di gruppo.
D=5(6-8)2+5(4,67-8)2+5(12,4-8)2=20+33,3+96,8=150,1
Tale valore di D puo’ esser considerato grande o piccolo: dipende da quante misure sono state
effettuate in tutto.
Se si trattasse di 1000 misure (quindi con 1000 diversi ranghi) un valore di 150.1 potrebbe esser
considerato piccolo. Nel caso in esame, con 15 ranghi in tutto…appare una grande differenza.
Kruskall Wallis individuò il sistema per rendere misurabile tale valore D, correggendolo
in funzione del numero di misure effettuate secondo la formula sotto indicata, ove N è
il numero totale di misure:
H= D/N(N+1)/12
Nell’esempio presentato, H = 150,1 / 20 = 7,505
L’altra grande intuizione dell’autore consiste nell’essersi reso conto che, così modificato, il
valore D segue la distribuzione del c2 per un numero di gradi di libertà = k-1, cioè al
numero di gruppi meno uno.
Se il valore di H è superiore al valore critico di c2 tabulato, si potrà dire che i tre gruppi non sono
uguali.
Il test, analogamente all’ANOVA, dice soltanto che la differenza fra i 3 o più gruppi di pazienti è
improbabile che si sia verificata per caso.
Se, come sempre accade, si vuole verificare tra quali gruppi vi è la differenza maggiormente
significativa, si puo’ applicare il Mann-Witeny per confronti multipli con correzione di Bonferroni.
CONTROINDICAZIONI ALL’IMPIEGO DEL TEST
49
Quando si verificano troppe misure simili per problemi di assegnazione dei ranghi
Quando la numerosità totale sia inferiore a 15 per tre gruppi.
50
Riassumendo, quando si debba verificare il diverso effetto di due o più terapie (dati non appaiati)
su parametri espressi in scala di misura, occorre:
A PRIORI
 Impostare il quesito (ipotesi nulla e ipotesi alternativa)
 Valutare la differenza definita come clinicamente significativa, l’errore alfa e l’errore beta
che si accetta (potenza dello studio)
 Calcolare il numero minimo di soggetti da campionare
 Decidere i criteri di inclusione e di esclusione dallo studio (eccessiva gravità della situazione
clinica, età…)
 Ottenere il consenso informato dai pazienti selezionati
 Assegnare in modo randomizzato e, ove possibile, in doppio cieco, i vari trattamenti
 Effettuare le misure
A POSTERIORI
 Verificare se le misure seguano o meno una distribuzione simil-gaussiana
 Verificare se le varianze dei gruppi di misure sonoo meno omoschedastiche
Studio per dati non
appaiati
2 gruppi
>2 gruppi
Misure
in distribuzione similgaussiana
omoschedastiche
t di student per dati non
appaiati
Anova fattoriale
Misure
in distribuzione non similgaussiana
eteroschedastiche
Mann-Witney U test
Kruskall-Wallis H test
51
Capitolo 3: Differenze s.s. tra misure nella stessa popolazione in tempi differenti (appaiate)
Molto spesso in medicina si devono risolvere problemi di questo tipo: valutare se dopo un qualsiasi
trattamento (farmacologico, chirurgico, psicologico…) le condizioni di un paziente, misurate con
certi indicatori di esito (giorni di convalescenza, riduzione della glicemia…) migliorano o no.
Qualora migliorino occorre misurare con quale probabilità questo possa essersi verificato per puro
caso, dato che solo con p<0.05 ci si potrà azzardare a imputare il miglioramento al trattamento
eseguito.
Viene qui schematizzato il tipo di studio:
Tempo 0
 


 

Fine trattamento


 


In questo caso si potrebbe prendere come indicatore di effetto della terapia la
riduzione in altezza di un qualche indicatore (qui simboleggiata come riduzione in
altezza degli ometti) e verificare se quel singolo ometto che si trova in fila al n°6 e che
è stato dipinto di bianco sia diminuito o meno dopo trattamento.
Lo stesso si fa per i 5 ometti che precedono nella fila e per tutti quelli che seguono. In
questo senso di parla di “appaiamento”.
52
T di Student per dati appaiati
In questo tipo di studi anche in perfetta buonafede il ricercatore potrebbe scegliere per il
trattamento persone che sarebbero comunque guarite (o migliorate), anche senza alcuna terapia.
Lo schema di studio per dati appaiati, peraltro, è sotto certi aspetti più corretto di quello per dati
non appaiati, perché il test viene eseguito sulla medesima popolazione a distanza di tempo ( quindi
si rimedia al problema di eventuali eteroschedasticità). Non si puo’ pensare che sia immune dal
rischio che eventuali differenze vengano riscontrate per puro caso a seguito del campionamento.
In questo tipo di studio i 500 pazienti misurati sono sempre gli stessi, ma vengono misurati in due
tempi diversi: prima e dopo la cura. Immaginiamo che somministrando un farmaco supposto
diuretico a 500 pazienti si verifichi quanto indicato nella figura sottostante. La curva continua
indica la distribuzione delle diuresi prima dell’assunzione del farmaco, la curva tratteggiata indica le
diuresi degli stessi 500 pazienti dopo aver assunto il farmaco.
Prima
Dopo
Guardando i valori medi (apici delle curve), il farmaco pare efficace, ma se si osserva la
base delle due curve, sorgono alcuni dubbi.
Alcune diuresi registrate prima di prendere il diuretico sono superiori a quelle
registrate il giorno seguente, dopo aver assunto il diuretico.
Non si deve dimenticare che le 500 persone sono sempre le stesse: quello che conta è soprattutto
se i vari individui hanno visto aumentare la loro diuresi.
Nella figura seguente la misura segnata con asterisco*, appartenente ad un qualunque paziente,
potrebbe appartenere alla popolazione “prima” o “dopo” la cura, ma non significa che il diuretico
non funziona: quello che si deve valutare è se quella misura * il giorno dopo si è spostata nella
posizione con due asterischi**. Nel caso sottoindicato, vorrebbe dire che la diuresi è aumentata, se
53
il doppio asterisco** coincidesse con l’asterisco semplice* sarebbe invariata, se fosse addirittura
più vicino all’asse delle y sarebbe diminuita.
Prima
Dopo
*
**
Ciò che si deve valutare è la differenza (lo scarto, la distanza…) tra le misure prima e dopo in ogni
paziente, definita come d.
Dall'insieme delle 500 differenze si puo' stimare una media campionaria della differenza di diuresi
indotta dal farmaco.
Poniamo che tale media sia 600cc., con errore standard di 30cc.
Valori registrati prima
Valori registrati dopo
Media = 500
Media = 1200
Differenze tra i valori prima
e dopo caso per caso
Media = 600
Errore standard = 30
Teoricamente:
• se il farmaco non funzionasse tale media degli scarti “d” dovrebbe tendere a 0 (alcuni
urinerebbero di più, altri di meno in modo del tutto casuale).
• se il farmaco funzionasse (in senso diuretico o antidiuretico) tale media di d dovrebbe esse
ben diverso a 0 (tutti o quasi urinerebbero di più o tutti di meno)
La media delle differenze potrebbe ugualmente esser diversa da 0 se si fosse scelto per caso un
campione di 500 persone che comunque avrebbero urinato un po’ di più il giorno seguente. Per
ovviare a tale errore si sottrae alla media di d la differenza tra le medie delle diuresi prima e dopo
l’assunzione del farmaco. Tale valore deve restare diverso da 0.
Per decidere se una differenza è s.s. è necessario per prima cosa:
• misurare questa differenza, il che significa
54
•
•
•
calcolarla considerando che se la differenza è<0 il farmaco riduce la diuresi , mentre se
è >0 il farmaco aumenta la diuresi
paragonarla, rapportarla ad una unità di misura. Il metro utilizzato per tale rapporto
non è altro che l'errore standard della predetta media stimata delle differenze di diuresi
nei vari casi.
valutare se la misura di tale differenza è tanto grande da rendere improbabile(p<0,05) il fatto
che si sia potuta verificare per caso. Per questo motivo si utilizza la curva di student.
Come al solito, si paragona il valore uscito dalla formula con i valori critici della funzione
discriminante, cioè quei valori che si verificano per caso con una probabilità <0,05 (anche per dati
appaiati, il test va usato nella stragrande maggioranza dei casi a due “code”).
I valori di t sono diversi a seconda dei gradi di libertà. Non è difficile calcolarli: si è lavorato sulla
stima della media di 500 differenze.
I dati sono stati utilizzati per una sola stima, quindi i gradi di libertà saranno n-1=499
CONTROINDICAZIONI ALL’UTILIZZO DEL TEST
Anormalità distributiva delle misure, soprattutto per distribuzioni estremamente asimmetriche
j. Osservando il numeratore, si rileva che si va a misurare la differenza tra due medie. È ormai
noto che soltanto per distribuzioni di tipo normale, non troppo asimmetriche , la media è un
indicatore di tendenza centrale migliore della mediana. Se la distribuzione fosse troppo
asimmetrica, la nostra stima sarebbe molto poco affidabile. Come sarebbe poi la stima della
differenza tra queste due medie poco affidabili?
k. È stato dimostrato su base matematica con simulazioni che quando la numerosità dei campioni
è almeno >30 (secondo altri autori >100), il vincolo della normalità diventa meno importante.
Numerosità insufficiente puo’ esser causa di errore beta. Anche in questo, come
precedentemente visto, la numerosità minima indispensabile è calcolabile a priori con il solito
metodo.
55
ANOVA per misure ripetute
Quando i confronti siano più di due non è opportuno utilizzare il t di student per i soliti problemi di
inflazione dell’errore alfa e conviene usare l’anova per misure ripetute.
PRIMA DELLA
CURA
         

       
 
      
  
         
        
 
 

DOPO 1
MESE
 
 
 
 
 
 
 
  
DOPO 6
MESI
  
  
  
  
 
 
  

Occorre rispettare l’appaiamento dei dati, quindi seguire, soggetto per soggetto, (ad es. l’ometto
grigio, l’ ometto bianco e l’ometto pendente) i vari cambiamenti.
Non avrebbe senso in questo tipo di studio valutare semplicemente la distanza tra le
medie dei tre tempi nei quali si fa la rilevazione, perché quello che interessa è come
mutino i valori dei singoli individui, analogamente a quanto si fa nel t di student per
dati appaiati: non si calcola la differenza fra le medie delle due rilevazioni, ma si fa la
media delle differenze riscontrate soggetto per soggetto.
Nell’anova il confronto non viene effettuato tra le medie ma tra le varianze e nell’anova per dati
appaiati non si valuta il rapporto tra varianza intra e varianza tra ma il rapporto esistente tra la
varianza spiegabile con il trattamento e la varianza residua (nell’ambito della varianza intra totale.
Varianza intra, perché in questo disegno di studio vi è un solo gruppo).
Quanto più la varianza spiegabile con il trattamento diventa maggiore della varianza residua, tanto
più ci si avvicina alla significatività statistica dell’efficacia del trattamento.
Sarebbe bello poter dare una spiegazione almeno a livello intuitivo di come funziona questo
test. I matematici sconsigliano di farlo perché in questo caso lo sforzo di semplificare le cose
potrebbe portare a scrivere delle corbellerie.
Ricordiamo che ad Einstein venne chiesto di spiegare la teoria della relatività con parole
semplici (ed Einstein la conosceva bene questa teoria). Egli rispose che non poteva farlo
56
adducendo questa giustificazione: una cosa semplice, come la ricetta per la torta di mele, è
possibile spiegarla soltanto a una persona che già conosca le mele, la farina, le uova, il
lievito e lo zucchero….
Ci
si
limita
qui
soltanto
a
dire
che
in
questo
test
la
F
di
Fisher
si
calcola
come
•
se F=1, significa che VARIANZA TRATTAMENTO = VARIANZA RESIDUA, quindi la varianza
nel tempo concorre soltanto per il 50% a formare la varianza totale del fenomeno (troppo
poco per poter affermare che le misure non sono uguali tra loro soltanto per effetto del
trattamento).
•
Se F<1, significa che VARIANZA TRATTAMENTO < VARIANZA RESIDUA, quindi la varianza
nel tempo concorre soltanto per meno del 50% a formare la varianza totale del fenomeno
(è quindi decisamente poco influente rispetto alla variabilità casuale del fenomeno).
•
Se F>1, significa che VARIANZA TRATTAMENTO > VARIANZA RESIDUA, quindi la varianza
nel tempo concorre per più del 50% a formare la varianza totale del fenomeno (quindi
l’efficacia del trattamento è decisamente più importante rispetto alla variabilità casuale del
fenomeno). Quanto più grande è il valore di F, tanto più questo è vero. Quanto più grande
è il valore di F, tanto più improbabile è che le differenze riscontrate siano imputabili al caso,
cioè che siano effetto del campionamento, più che del trattamento.
Anche Fisher, come Gosset prima di lui, ha predisposto uno “strumento di misura” che è la
distribuzione di probabilità F di Fisher, da questo punto in poi, tutto segue la via già
precedentemente descritta.
57
Test di Wilcoxon o della somma dei ranghi con segno
La numerosità dei campioni è uno dei fattori decisivi per l’attendibilità di un test statistico. Spesso
sorge il problema di non avere possibilità di casistiche sufficientemente numerose, ad esempio nel
caso di malattie o di esposizioni poco frequenti, di terapie a livello di iniziale sperimentazione ecc.
In tale caso trovano applicazione i test non parametrici. Il test di Wilcoxon è l’equivalente non
parametrico del test di student per dati appaiati.
Immaginiamo di aver somministrato un nuovo tipo di blando diuretico (o supposto tale) a sei
pazienti e di verificare dopo terapia i suoi effetti sulla diuresi degli stessi soggetti. Ecco i risultati:
Rossi
Neri
Bianchi
Verdi
Viola
Grigioni
Prima della terapia
1000
1380
1200
900
1000
890
Dopo la terapia
1400
1600
1180
1220
1000
1900
In modo analogo al t di student o all’anova per misure ripetute, l’attenzione va puntata paziente
per paziente sulle modificazioni indotte della terapia, indicate nella colonna Δ (differenze)
Rossi
Neri
Bianchi
Verdi
Viola
Grigioni
Prima della terapia
1000
1380
1200
900
1000
890
Dopo la terapia
1400
1600
1180
1220
1000
1900
Δ
+400
+220
-20
+320
0
+1010
Ci si trova di fronte a delle variazioni che posson avere due caratteristiche:
• esser positive o negative
• esser grandi o piccole
è importante valutare se un paziente ha urinato di più o di meno, ma è altrettanto importante
valutare se ha urinato molto o poco di più. Per salvare ambedue le informazioni nel sistema dei
ranghi, si assegna il rango al valore assoluto di Δ, poi si rimette il segno di competenza e si fa la
somma algebrica dei ranghi di Δ.
Rossi
Neri
Bianchi
Verdi
Viola
Grigioni
Δ
Rango in valore assoluto
+400
5
+220
6
-20
1
+320
4
0
2
+1010
3
Somma algebrica dei ranghi con segno
Rango finale con segno
+5
+6
-1
+4
-2
+3
+15
58
Ci si pone poi il quesito dei valori teoricamente possibili: tutti potevano urinare di più, questo
darebbe conferma che il farmaco è effettivamente diuretico; in tal caso la somma dei ranghi con
segno sarebbe stata +18. Tutti potevano urinare di meno, questo darebbe conferma che il
farmaco è efficace, ma come antidiuretico; in tal caso la somma dei ranghi con segno sarebbe
stata -18. Entro tali estremi, tutte le combinazioni sono possibili (ad es. che un paziente urini di più
e 5 urinino di meno: somma dei ranghi con segno =-17…. Si calcolano via via tutte le possibili e
prevedibili somme dei ranghi con segno):
Rango 1
+
+
+
…
Rango 2
+
+
…
Rango 3
+
…
Rango 4
+
…
Rango 5
+
…
Rango 6
+
…
Somma algebrica
+18
-18
-17
-15
…
-
-
-
-
-
-
-18
Riportando i valori su di un asse cartesiano di ottiene la seguente distribuzione di frequenza.
Ovviamente l’area dell’istogramma sottostante rappresenta il 100% dei valori possibili.
Al solito si individuano i due punti critici che delimitano alle estremità il 2,5% di tale area.
Se la somma dei ranghi con segno è, in valore assoluto, superiore a tali valori, la probabilità che
l’evento si sia verificato per caso è piccola, <0,05, tanto piccola da poter accettare l’ipotesi
alternativa salvo errore alfa <0,05.
59
Anche in questo caso, per campioni numerosi la spezzata di cui sopra assomiglia a una curva di
Gauss standardizzata avente i seguenti valori:
Ove:


W è la somma dei ranghi con segno
n è il numero di soggetti esaminati
E il test segue la normale standardizzata diventando s.s. quando zW<-1,96 e zW >1,96
CONTROINDICAZIONI ALL’USO DEL TEST
Numerosità veramente piccola, cioè <6 coppie di dati
Molte misure uguali tra loro nei gruppi, per cui diventa problematica l’assegnazione di tanti
ranghi uguali tra loro (il test si basa su una statistica semiqualitativa)
test di Friedman
Qualora si ponesse il problema di confronti multipli in tempi diversi, si utilizza l’equivalente
dell’ANOVA per misure ripetute, cioè il χ2 di Friedman:
Supponiamo di seguire 5 pazienti affetti da obesità grave controllandone il peso ogni tre mesi.
Rossi
Bianchi
Verdi
Neri
Viola
Prima della cura
120
180
190
160
150
Tre mesi dopo
110
150
170
140
135
Sei mesi dopo
100
120
180
135
110
Ciò che interessa è valutare l’andamento del peso nei singoli pazienti nel tempo.
Pertanto, riga per riga, si valutano i ranghi delle misure nel tempo per ogni singolo paziente :
Rossi
Bianchi
Verdi
Neri
Viola
Prima della
Misure
120
180
190
160
150
cura
Ranghi
3
3
3
3
3
Tre mesi dopo
Misure
Ranghi
110
2
150
2
170
1
140
2
135
2
Sei mesi dopo
Misure
Ranghi
100
1
120
1
180
2
135
1
110
1
Quasi tutti i pazienti sono dimagriti nel tempo, tranne Verdi che dopo n iniziale calo ha ripreso
peso. Si procede quindi a sommare i ranghi registrati nei vari momenti.
Se la terapia dimagrante funzionasse sempre, al tempo 0 dovremmo avere la somma maggiore e
poi, via via, somme sempre minori, di pari passo con la diminuzione dei pesi dei pazienti.
60
Rossi
Bianchi
Verdi
Neri
Viola
SOMME DEI RANGHI
Ranghi prima della cura
3
3
3
3
3
15
Ranghi tre mesi dopo
2
2
1
2
2
9
Ranghi sei mesi dopo
1
1
2
1
1
6
Se invece la terapia non avesse nessun effetto, le somme dei ranghi dovrebbero esser tutte simili,
non ci dovrebbe esser variazione di peso nei tre tempi, quindi i ranghi assegnati nel caso che Rossi
fosse sempre 120 Kg., 120 Kg. e 120 Kg. sarebbe sempre 1… da dividere tra 3 misurazioni. In ogni
casella verrebbe quindi assegnato rango 1/3 = 0,3333. e lo stesso dovrebbe accadere per gli altri
pazienti. La somma dei ranghi nelle varie colonne sarebbe pertanto sempre uguale a 1,667
(1,667=0,33 5).
Si costruisce a questo punto una tabella simile a una tavola di contingenza.
Ranghi prima della cura
Ranghi tre mesi dopo
Ranghi sei mesi dopo
15
9
6
1,667
1,667
1,667
Somma dei ranghi
osservati
Somma dei ranghi
osservati se il
trattamento non avesse
il minimo effetto
Si effettua la sommatoria delle differenze tra valori osservati e valori attesi al quadrato dei 3 diversi
tempi (qualcosa di simile al χ2 di Pearson).
Si ottiene questo valore D:
D=(15-1,667) 2+(9-1,667) 2+(6-1,667) 2=177,769+53,773+18,775=250,1689
Si ripete il discorso già visto per il Kruskall-Wallis. Per rendere paragonabile il valore di
“D”, bisogna dividere per un fattore di correzione, come illustrato nella formula
sottoscritta. Il numero dei pazienti è n, mentre k è il numero delle osservazioni.
Nel nostro esempio, quindi, si avrebbe un χ 2Friedman =250,1689/5=50,033
A questo punto, in modo del tutto analogo a quanto già visto per il test di Kruskall Wallis, si
confronta il valore ottenuto con una distribuzione del χ 2 per k-1 gradi di libertà (ove k è il
numero di misurazioni effettuate nel tempo).
Se, come sempre accade, si vuole verificare tra quali momenti vi è la differenza maggiormente
significativa, si puo’ applicare il Wilcoxon per confronti multipli con correzione di Bonferroni.
CONTROINDICAZIONI AL’IMPIEGO DEL TEST
Le stesse del test di Kruskall Wallis.
61
Riassumendo, quando si debba verificare l’effetto di una terapia in momenti diversi (dati appaiati)
su parametri espressi in scala di misura, occorre:
A PRIORI
 Impostare il quesito (ipotesi nulla e ipotesi alternativa)
 Valutare la differenza definita come clinicamente significativa, l’errore alfa e l’errore beta
che si accetta (potenza dello studio)
 Calcolare il numero minimo di soggetti da campionare
 Decidere i criteri di inclusione e di esclusione dallo studio (eccessiva gravità della situazione
clinica, età…)
 Ottenere il consenso informato dai pazienti selezionati
 Effettuare le misure prima e dopo la terapia
A POSTERIORI
 Verificare se le misure seguano o meno una distribuzione simil-gaussiana
 Verificare se le varianze dei gruppi di misure sono o meno omoschedastiche
Studio per dati
appaiati
2 gruppi
>2 gruppi
Misure
in distribuzione similgaussiana
omoschedastiche
t di student per dati appaiati
Anova per misure ripetute
Misure
in distribuzione non similgaussiana
eteroschedastiche
Wilcoxon W test
χ2 di Friedmann
62
RIASSUMENDO
Ogni volta che un medico voglia verificare se due o più popolazioni sono uguali o diverse, se due o
più trattamenti hanno uguale o diversa efficacia occorre esaminare con attenzione
Il tipo di studio
Il numero di gruppi considerati
La natura dei dati considerati
La distribuzione dei dati di misura considerati
Dati appaiati
Dati non appaiati
=2
>2
Scala nominale o ordinale
Scala di misura
Simil-gaussiana
Non gaussiana
Quindi si puo’ utilizzare questo schema riassuntivo:
Natura dei
dati
Tipo di
studio
Scala
nominale o
ordinale
Non appaiato
Distribuzione
Appaiato
Similgaussiana
Non appaiato
Scala di
misura
Non gaussiana
Similgaussiana
Appaiato
Non gaussiana
1.
2.
3.
4.
Numero gruppi
2
>2
Chi quadro Pearson
Tavola di
Test esatto Fisher 3
contingenza
Chi quadro per
Chi quadro Mc Nemar
trend
T di student dati non
Anova fattoriale
appaiati
Mann Witney1
T di student dati
appaitai
Wilcoxon
2
Kruskall Wallis
4
Anova per misure
ripetute
Chi quadro di
Friedman 4
Almeno 7 misure
almeno 6 coppie di dati
quando vi siano valori attesi <5
sono test molto liberali: le conclusioni vanno valutate con attenzione.
Il problema più grande e pressocchè irrisolvibile resta quello della numerosità dei campioni.
Esistono ora una serie di test della statistica con parametrica che consentono di ottenere delle
significatività anche con numeri relativamente bassi. In alcuni casi le loro formule sono calibrate in
modo da risultare più restrittivi (Mann-Witney e Wilcoxon), in altri casi questo non si è ancora
riusciti ad ottnerlo (Friedman e Kruskall-Wallis).
Occorre sapere queste cose per evitare di essere sviati da informazioni che si rivelino poi fallaci.
Tutti i medici tendono a dire che vi sono malattie tanto rare che non raggiungeranno mai la
numerosità necessaria per la distribuzione di Gauss e che non per questo la ricerca si puo’ fermare.
Tutti i matematici diranno che piuttosto che informazioni false… meglio nessuna informazione.
Sarebbe il caso di dire: ai posteri l’ardua sentenza. Per ora è forse giusto compromesso:
• sforzarsi di misurare fenomeni non semplici perché questo spesso vuole dire arrivare a
conoscerli meglio (chissà quanti errori nei primi dosaggi delle glicemia…. Però la cura del
diabete ha fatto passi da gigante)
63
•
saper riconoscere il reale valore dei test statistici usati, la loro condizione di applicabilità, la
loro liberalità in modo da saper dare il giusto peso alle informazioni provenienti dalla
letteratura medica (il lato “negativo” di questo sta nel fatto che è necessario studiare oltre
alla medicina anche i principi basilari della statistica medica)!
64
CAPITOLO 4 - I TEST DI RELAZIONE
Rispondono alle domande
“che rapporto c’è fra la dose di farmaco somministrato (es. insulina)…e un certo risultato clinico espresso co
una misura (es. glicemia)?
“che rapporto c’è fra la concentrazione di colesterolo ematico di un paziente …e la quantità d
grassi che introduce con la dieta?”
Si possono utilizzare in studi trasversali
Le risposte stanno nei test che valutano l’associazione tra due o più misure di una stessa popolazione i
uno stesso momento. Tali test sono:
• Test di Correlazione si utilizza per verificare che esista una relazione matematica tra l’insiem
di alcune misure e l’insieme di altre misure prese nei medesimi soggetti (salvo errori alfa
beta)
• Test di Regressione si usa per stabilire se tra due grandezze misurate nei medesimi sogget
esiste una relazione matematica lineare in modo da poter calcolare come varia un
grandezza (variabile dipendente) al variare unitario dell’altra (variabile indipendente
Unitario significa che si valuta di quanto aumenta o diminuisce una variabile per ogn
variazione di una unità dell’altra: es. 1 mg.di un composto a base di ferro iniettato endoven
di quanti grammi fa aumentare l’Hbemia nel paziente?
I due test sono differenti ma strettamente collegati l’uno all’altro: è impossibile o comunque concettualment
sbagliato tracciare una retta di regressione tra variabili che non siano tra loro correlate.
Per semplificare le cose, si consideri un caso di correlazione-regressione lineare tra la dose di diuretico assunta
il n° di cc. di urina prodotti in un giorno.
Dato un campione di persone abbia fornito il consenso informato a sperimentare il farmaco,
• si somministrano dosi diverse di farmaco diuretico (sempre sotto la dose tossica) a divers
persone
• si dosa dopo un giorno la diuresi (volume di urina prodotto in un giorno) a tutti i pazienti.
In un asse cartesiano si disegna una serie di punti aventi per coordinate
•
x i dosaggi del farmaco (variabile indipendente)
• y si riportano i valori di diuresi (variabile indipendente)
Si otterrà una serie di punti “sperimentali” con coordinate (x,y= dosaggio,diuresi) chiamato diagramma d
dispersione.
Per semplicità di rappresentazione, vengono riportati qui di seguito soltanto 9 casi (ma sarebbe corretto avern
molti molti di più)
65
Con la sola eccezione del punto in fondo a destra, pare verosimile che al crescere dei dosaggi d
farmaco cresca la diuresi. Verrebbe istintivo interpolare una retta tra quei punti sperimentali.
quello che si fa effettuando una regressione.
Il termine regressione fu coniato da Sir Francis Galton (1822-1911) che rilevò in
ampi campioni di popolazione londinese dell’epoca che l’altezza dei figli non era
direttamente proporzionale all’altezza dei padri, come si sarebbe aspettato.
Capitava che padri più alti della media della popolazione avessero figli maschi
più bassi della media e viceversa. Pertanto dimostrò (o meglio cercò di
dimostrare) che le altezze dei figli regredivano verso la media delle altezze dei
patri.
Alla luce delle conoscenze di oggi, questo studio non ha senso (non si teneva
contro tra l’altro del contributo del DNA femminile!), resta però valido il concetto
che la regressione verso la media si basa su principi matematici di “restrizione”
della media universale tra una media a priori e una stima di massima
verosimiglianza delle varie possibili medie campionarie, che puo' esser spiegato
in modo intuitivo così:
Si immagini per assurdo di conoscere la vera media universale dell’altezza di
tutti i 10000 maschi adulti di una città (poniamo che tale media sia cm. 170)
•
Misurando un campione piccolo, di sole 50 persone, per i noti fenomeni di
possibile errore di stima, la media del campione potrebbe esser anche molto
diversa (poniamo uguale a 150 cm.)
•
Misurando man mano una, due, tre…. persone in più, la nuova media è probabile
che cresca, cioè si avvicini sempre più a cm. 170. Sicuramente una volta che si
siano misurati tutti i 1000 soggetti, annullandosi l’errore di stima, la nuova
media coinciderà con la media universale di 170 cm.
•
Si potrebbe dire che la media campionaria, man mano che aumenta il campione,
tende a “regredire” verso 170 (che è la media universale), invece di dire che
tende ad “avvicinarsi” a 170.
66
Il concetto che resta valido di tutto lo studio di Galton è il fatto che, aumentando la numerosità
campionaria, relazioni ipotizzate come valide possono non verificarsi e viceversa.
Occorre quindi sempre confrontare la retta che si pensa identifichi una certa relazione
(ipotesi alternativa) con la retta di regressione verso la media (ipotesi nulla).
In altre parole occorre chiedersi se la relazione che dai dati sperimentali sembra ipotizzabile nel
campione studiato è tanto stretta che è improbabile che si sia verificata soltanto per caso e soltanto
in quel particolare campione.
Attualmente il computer utilizzando un metodo matematico di largo impiego in varie
problematiche (il metodo dei minimi quadrati), consente di interpolare fra i punti
sperimentali dello studio la miglior retta interpolabile:
La formula che rappresenta la retta, come si sa dagli studi liceali, è
y=a+bx.
In tutti i suoi punti la retta punteggiata obbedisce a questa funzione y=a-bx.
Per miglior retta interpolabile si intende una retta tracciata in modo tale che la somma delle
distanze (al quadrato) dei singoli punti sperimentali dalla retta interpolata y=a+bx sia la più
piccola possibile (minima)



I minimi quadrati vengono calcolati:
Tracciando da ogni punto A, B, C, D…. le parallele all’asse y
La misura dei segmenti ottenuti tra i punti A, B, C, D…. e l’intersezione con la retta viene
elevata al quadrato
Si calcola la somma dei vari quadrati (se non si elevassero le misure al quadrato… la somma al
solito farebbe sempre 0 per la legge fondamentale della media)
67


Con questo metodo viene scelta sempre una retta, in modo tale che la somma dei quadrati
delle distanze dei singoli punti dalla retta interpolata sia la più bassa possibile
Il metodo tende a escludere i dati simili al punto L, che sembrano non obbedire alla funzione
sopra indicata.
Il metodo dei minimi quadrati è una funzione matematica che nulla conosce di medicina!!!
Potrebbe accadere che la retta che meglio rappresenterebbe la realtà del fenomeno da un punto di
vista biologico fosse una retta diversa da quella tracciata. Il fenomeno potrebbe esser meglio
rappresentato da una retta che passa molto vicino a quel punto L che viene sottovalutato soltanto
perché “matematicamente” disturba la relazione di una funzione lineare. Per questo motivo la
regressione va sempre valutata con grandissima cautela e accertandosi sia della
plausibilità biologica della ipotesi alternativa accettata sia dell’effetto di eventuali
fattori confondenti.
In medicina, dove si desidera conoscere il tipo di relazione reale esistente tra due o più
variabili, è quasi più importante dell’andamento della retta il procedimento di fitting,
necessario a capire se un certo modello matematico si adatta (it fits) a un fenomeno. Se la retta
scelta non “fitta” con la realtà del fenomeno….tutto il lavoro successivo sarebbe
perfettamente inutiile.
Si consideri per ora la sola regressione lineare semplice, che sugli assi cartesiani si rappresenta con
una retta.
Ci si propone di capire quali siano i meccanismi più importanti tra quelli che possono regolare la
variabilità di y al variare di x. Possono essere:
• errore statistico
• regressione verso la media
• rapporto di funzione lineare tra x e y.
L'errore statistico esiste sempre…e per ora lo trascuriamo
Il termine “regressione verso la media” significa che al crescere della numerosità campionaria le y
tendono a regredire verso la loro media. Per verificare alla luce di questo dato di fatto se è
possibile accettare l’ipotesi alternativa di una relazione matematica lineare tra le due variabili
occorre procedere a una serie di calcoli sotto indicati.
68
Nella figura seguente la retta di regressione verso la media (quella parallela all’asse delle x
rappresenta, semplicemente, l’ipotesi nulla: l’ipotesi che non vi siano relazioni matematiche della
x in funzione di y… anzi per y medio qualunque valore di x è possibile, da + infinito a – infinito.
diuresi
.
Ipotesi
.
.
alternativa
.
.
.
.
.
.
.
.
Ipotesi nulla
..
.
0
dose farmaco
Vi sono vari modi per decidere se è possibile rigettare l’ipotesi nulla e accettare invece
l’ipotesi alternativa. Per verificare il modello di regressione-correlazione ben si adatti
(it fits) ai nostri dati. Occorre considerare:
l.
distanza dei punti sperimentali dalla retta di regressione verso la media. Va misurata come
somma degli scarti al quadrato dei punti dalla retta di regressione verso la media. Tali scarti
vengono detti "deviazioni dalla media". La somma delle deviazioni dalla media elevate al
quadrato rappresenta la devianza totale
diuresi
.
.
.
.
.
.
.
deviazione
.
.
0
.
.
Ipotesi nulla
..
.
dose farmaco
m. distanza dei punti sperimentali dalla retta della regressione (punteggiata) Va misurata come
somma degli scarti al quadrato dei punti sperimentali dalla retta di regressione (punteggiata).
Tali scarti vengono detti "residui". La somma di tali residui elevati al quadrato rappresenta la
devianza non spiegabile con la relazione tra x e y. Come si è detto, il computer sceglie
automaticamente di interpolare la retta che ha la somma di residui al quadrato minore, con il
metodo dei "minimi quadrati"
Ipotesi
alternativa
69
diuresi
.
.
.
.
.
.
residuo
..
.
0
.
.
.
.
.
dose farmaco

La distanza dei punti della retta di regressione calcolata con i metodi dei minimi quadrati dalla
retta di regressione verso la media (devianza spiegabile con la relazione tra x e y)
Si puo’ valutare se il modello "fitta"

con il rapporto:
>0 e più vicino
possibile a 1
Quanto più piccoli sono i residui e quindi la sommatoria dei loro
quadrati, tanto più il rapporto si avvicina a 1 e il modello "fitta".
D’altro canto le deviazioni devono essere >0, perché se fossero =0 la retta
sarebbe parallela all’asse delle x e quindi si accetterebbe l’ipotesi nulla (<0,
trattandosi di quadrati, non posson essere)

Con il rapporto tra:
che deve essere superiore, in funzione
dei gradi di libertà,al valore tabulato per il 95% della distribuzione di F di
Fisher (le varianze si ottengono dalle rispettive devianze dividendo per i gradi di
libertà).
Quando questo rapporto ha una probabilità di verificarsi per caso p<0,05, di puo’
affermare che esista una correlazione salvo errore alfa<0,05.
Per completezza, si citano qui anche altri due metodi il cui significato verrà meglio chiarito in seguito:
70

Con il rapporto tra :
che deve essere compreso, in funzione dei gradi di libertà, entro i
valori tabulati per il 95% della distribuzione di t di Student (b è il coefficiente angolare diviso per il
suo errore standard)

Con l’r2 opportunamente corretto per i fattori confondenti (e si vedrà in seguito cosa significa).
Uno dei motivi più banali per i quali il fitting non riesce puo' essere che la variabile indipendente,
invece di obbedire al modello:
obbedisca al modello


, dando quindi origine a una parabola
, dando quindi origine a una iperbole
Ecc.
Nella retta di regressione y=a+bx
•
si distingue:
a, che è l'intercetta, cioè il valore che assume y quando x=0.
Spesso in medicina l'intercetta è di secondario interesse, perché un medico non ha di solito alcun
interesse a conoscere la diuresi media quando il dosaggio del farmaco è 0.
•
b, che è il coefficiente angolare, cioè il seno dell'angolo che la retta forma con
l'asse delle x e determina quindi l'inclinazione della retta rispetto all'asse delle
ascisse.
In medicina il coefficiente angolare è importantissimo, perché indica quanto rapidamente
aumenta la diuresi all'incremento unitario di dosaggio del farmaco (indica quindi quanto è
potente un farmaco).
71
Le rette di regressione in medicina sono soprattutto utilizzate come modelli matematici che si
adattano più o meno bene a descrivere l'andamento dei fenomeni, non hanno il valore assoluto
che possono avere in altre discipline.
Per esempio: una retta interpolata tra punti sperimentali matematicamente indicherebbe che
a dosaggio infinito di farmaco, corrisponde una diuresi infinita.

Un dosaggio infinito di farmaco non è utilizzabile in medicina: invece che
aumentare la diuresi farebbe morire il paziente per fenomeni tossici.

Se anche non determinasse fenomeni tossici, si puo’ ipotizzare che oltre certi
dosaggi, la diuresi non aumenti più con lo stesso coefficiente angolare o che
addirittura diventi costante:
Le rette di regressione non posson esser utilizzate per prevedere l’andamento di
fenomeni oltre il campo dell’esplorato sperimentalmente.
L’importanza di b, coefficiente angolare, la si comprende bene costruendo una retta di
regressione tra calorie introdotte con la dieta e BMI negli esseri umani:
BMI
Calorie
Se quella sopra-indicata è la pendenza corretta, significa che ogni centinaio di calorie in più
introdotte con la dieta il BMI subisce un certo incremento.
Se la pendenza fosse questa:
BMI
72
Calorie
Significherebbe che basta veramente introdurre una decina di calorie in più per avere
discreti aumenti del BMI
Con questa pendenza si desume che occorrono almeno 3000, 4000 calorie in più per avere
un modico aumento di BMI:
BMI
Calorie
Indipendentemente dalla vicinanza dei punti sperimentali alla retta tracciata (p<0,05)
cambia molto il significato clinico della scoperta!
Per un medico nelle rette di regressione interessa molto di più il coefficiente angolare
che non l’intercetta (che a volte si puo’ anche escludere dal calcolo).
Occorre inoltre osservare che:

La retta prevederebbe una altezza per peso = 0 Kg., ma nessuno pesa 0 Kg.

La retta prevederebbe una altezza per peso infinito, ma nessuno pesa infiniti
Kg.
La regressione, quindi è in medicina soprattutto un modello approsimato che serve a
chiarire l'andamento dei fenomeni e, analogamente alla curva di Gauss, vien utilizzata
nella parte centrale, ben lontana da
In Medicina è anche importantissimo il coefficiente di correlazione, che indica la relazione
matematica (direttamente o inversamente proporzionale) esistente fra due variabili.
È certamente vero che se la variabile x è legata da funzione matematica con la variabile y, anche y
deve esser legato da funzione matematica con x!
Se si considera la relazione di y in funzione di x, la formula per calcolare il fitting
diventa:
Mentre questa è la rappresentazione grafica:
73
Se si considera la relazione di x in funzione di y, la formula per il fitting diventerà:
E la rappresentazione grafica sarà sicuramente un po’ diversa, così come il coefficiente
angolare, perché non si tratta di una dipendenza diretta e univoca caso per caso, ma di una
dipendenza “in media”:
Il modo per indicare contemporaneamente la relazione dosi di farmaco-diuresi e diuresi-dosi di
farmaco è il calcolo del coefficiente di correlazione di Pearson, detto r
La formula classica del coefficiente di correlazione di Pearson è
,
che consente di rapportare
• il numeratore: cioè la sommatoria della codevianza di x e di y dalla retta di regressione
calcolata
• il denominatore: che contiene la radice quadrata del prodotto delle devianze di x e di y dalle
rispettive rette di regressione (devianze che si verificano contemporaneamente, ma
disgiuntamente per le due variabili)
Tutte le volte che si puo' tracciare una regressione lineare, si ha anche una correlazione lineare tra
le due variabili.
L’r di Pearson è utile per definire il verso della eventuale dipendenza
• 0>r>-1, indica una relazione inversamente proporzionale
• 0>r>+1, indica una relazione direttamente proporzionale.
74
Un altro indicatore estremamente importante è il coefficiente o indice di determinazione, che
non è altro che il quadrato di r (se ne è parlato come di un metodo per valutare il fitting)
,
che esprime quanta parte della variabilità di y è spiegata dalla relazione lineare tra x e
y. Ad es., r2=0,70 indica che il 70% della variabilità è dovuta al fatto che y varia in funzione di x,
cioè y=f(x). Come si era accennato precedentemente, è uno dei più importanti indicatori della
bontà del modello (fitting).
Dal punto di vista di un medico una regressione che abbia una probabilità di ipotesi
nulla <0,05, ma un r2<0,5 pone dei problemi interpretativi, perché indica che una
relazione matematica c’è, ma che meno della metà della variabilità di y dipende da x. Un r2 basso
pur con p<0,05 dà indicazione di una certa relazione, da valutare con cautela ed anche autocritica
(non si sarà proceduto ad una selezione del campione con bias o non si starà valutando un
campione troppo poco numeroso?)
Se uno studio stabilisse che l’ipercolesterolemia dipende, con p<0,05, dal consumo di caffè e tale
studio avesse un r2=0,15… indicherebbe che il caffè puo’ spiegare il 15% della variabilità della
colesterolemia. E il restante 85%, da cosa verrebbe spiegato? La prima cosa da fare sarebbe
chiedere ad uno statistico di correggere la formula per gli eventuali fattori di
confondimento.
In realtà è stato pubblicato uno studio di questo tipo in passato e le piantagioni di caffè
stavano per andare in crisi. Il confondimento nacque dal fatto che gli Autori erano originari
di paesi nordici e nei loro paesi bere caffè significava obbligatoriamente “correggerlo” con la
panna. Si verificò successivamente che non il poco grasso vegetale del caffè, bensì il molto
grasso animale della panna era il responsabile della “strana regressione”.
Occorre sempre ricordare che, anche quando sia dimostrata una stretta correlazione
tra due variabili, si tratta pur sempre di una relazione matematica, non si puo’
affermare con il solo ausilio della statistica che vi sia una relazione causa-effetto. Per
affermare la relazione causa-effetto (che è responsabilità del ricercatore medico o biologo, non
dello statistico, occorrono prove in vitro o in cavia, concordanza con altri studi, plausibilità biologica
ecc.
Numericamente r2 è semplicemente il quadrato del coefficiente di correlazione di
Pearson, ma puo’ venire considerato anche da un altro punto di vista (che ricorda le
osservazioni che stanno alla base del calcolo dell’ANOVA per misure ripetute). Questo calcolo si
ritrova solitamente nei software più utilizzati.
La variabilità complessiva della Y può essere spiegata in parte dall’andamento lineare
(accostamento alla retta di regressione teoricamente ipotizzata) e in parte dalla variabilità residua
(corrispondente agli errori di regressione). Dato che l’effettivo è costante, si considerino le semplici
devianze e si scomponga la devianza totale in questo modo:

Devianza totale di ogni valore Y dalla media di tutte le Y: somma degli scarti
quadratici tra i valori osservati “A=yi” e la media della variabile Y

Devianza di regressione o spiegata: somma degli scarti quadratici tra i valori
teorici “Ateorico= ” , punto che giace sulla retta teorica ipotizzata e la media della
variabile
75

Devianza residua: somma degli scarti quadratici tra i valori teorici “Ateorico= ” e i
corrispondenti valori “A retta regressione media = ”, che giace sulla retta di regressione
verso la media (ipotesi nulla)
Si puo’ quindi dire:
L’indice o coefficiente di determinazione determina quanta parte della variabilità di y
dipenda dalla correlazione in questo modo, che tiene conto del rapporto fra la devianza
spiegata e la devianza residua in maniera del tutto analoga allla determinazione dell rischio
attribuibile già visto nei capitoli precedenti:
Ovviamente si puo’ scrivere anche:
Non dovrebbe esser difficile comprendere che:

indicherebbe che tutta la variabilità di y è imputabile alla correlazione (massimo di
validità dell’ipotesi alternativa

indicherebbe che la variabilità dovuta alla correlazione concorre solo per il 50% a
determinare la variabilità totale (e occorre vedere i fattori confondenti)

indicherebbe che la variabilità dovuta alla correlazione non concorre per nulla a
determinare la variabilità totale (massimo di validità dell’ipotesi nulla)
76
il
denominatore: devianza della regressione o de devianza della
Quando si sia poi costruita una retta di regressione, non si deve dimenticare che i punti
sperimentali, anche se molto numerosi, sono sempre un campione dell'universo.
Ritorna qui il concetto di errore della stima. Esistono pertanto:
4. Errore standard di a
5. Errore standard di b
6. Errore standard di r
Sia a che b che r devono esser calcolati con i loro limiti di confidenza al 95% o al 99%, che
solitamente vengono forniti dai software statistici. Particolarmente importante per un medico è il
coefficiente angolare b (che indica la pendenza della retta e, quindi, mostra quanto intensa sia la
dipendenza di una variabile da quell’altra) e il suo errore standard. Quando quest’ultimo fosse
troppo grande si inficerebbe la validità del modello (uno degli indicatori del fitting del modello è
proprio il rapporto fra b e il suo errore standard).
Alcuni software garantiscono anche la possibilità di “saggiare” funzioni matematiche diverse da
quella lineare. In tal caso occorre osservare molto bene quale dei due modelli garantisca intervalli
di confidenza più stretti
GRAFICI ADA (F. LINEARE E F. CUBICA)
CONTROINDICAZIONI ALL’USO
•
•
•
Il test di correlazione ed ancor più la regressione sono basati su codevianze e devianze,
quindi su medie. Non sono correttamente utilizzabili se la variabili allo studio non hanno
distribuzione normale
Inoltre verrebbe richiesto anche che ad ogni variazione unitaria di x la popolazione di
possibili valori di y fosse in distribuzione normale ed omoschedastica con le popolazioni
corrispondenti ai valori di x precedenti e successivi
Numerosità minima indispensabile è calcolabile in funzione del valore di r che si ritiene
necessario clinicamente. È sufficiente trovare che una variabile (aumento Hb) spiega la
variabilità del 64% dell’altra variabile (terapia con ferro)? Significa che si richiede un r
almeno uguale a
Qualcuno ha scoperto che la seguente formula, contenente il coefficiente r, è distribuita
normalmente in una curva di Gauss con media 0= e
E consente di calcolare il numero minimo indispensabile grazie a questa formula:
77
ponendo a priori un valore di r che si ritiene accettabile e considerando il fatto che per
numeratore si utilizzerà:
• 2.3 con errore alfa =0.01 e beta =0.1
• 1.7 con errore alfa =0.05 e beta =0.1.
Risulta evidente che le numerosità dipende fortemente dal valore di r: con un r elevatissimo, come
puo’ esser 0.8 posson esser sufficienti poco più di una decina di casi.
Con un r di 0.5 ne occorrono più del doppio. Si è detto infatti che è più semplice trovare le
differenze o le correlazioni grandi che non le piccole!
•
Outlier: sono i valori "strani", come il punto in basso a sin; tenendone conto la
inclinazione della retta dobrebbe cambiare molto. Non sarebbe giusto, d'altro canto,
decidere a priori di non considerarlo solo perché "disturba". Proprio quell'outlier potrebbe
essere una informazione importante che segnala come il nostro campione sia insufficente.
Vi sono vari metodi per valutare se un caso è o meno un outlier. Alcuni si basano sul
valore dei residui. L’importante è che la scelta di tenere o meno un outlier non sia una
scelta di comodo, ma giustificata da colcoli obiettivi.
•
Eteroschedasticità. Si verifica quando la varianza della y attorno alla retta non è
costante. Si è detto che esistono limiti di confidenza per le rette di regressione, che
dovrebbero essere di questo tipo:
•
Se invece sono simili alla figura seguente, si corre il rischio di avere una varianza che
cresce o cala in funzione della media y (chiaramente il modello non fitta)
•
Dipendenza della media y tra i diversi valori che assume in funzione dei diversi
valori delle variabili indipendenti: i limiti di confidenza diventano poco attendibili.
78
•
Non normalità delle distribuzioni di x e di y. Se il campione è abbastanza numeroso,
sono di secondaria impotanza.
79
I test di correlazione per misure poco numerose
non in distribuzione simil-gaussiana
(ρ di Spearman e τ di Kendall)
Quando le misure sono scarse (e in medicina vi sono dei casi nei quali non possono che essere
scarse, quando si parla di malattie rare) si puo’ ricorrere a un test non parametrico. Viene qui
indicato il test di Spearman, il test di Kendall è simile e consente anche delle correlazioni multiple.
Valutando il peso e l’altezza 7 persone cui riportate.
Persone
Tizio
Caio
Sempronio
Tiziano
Carlo
Augusto
Secondo
Peso osservato
80
75
55
70
58
97
85
Altezza osservata
180
150
181
170
190
182
192
Si assegna ad ogni gruppo di misure il rango
Persone
Tizio
Caio
Sempronio
Tiziano
Carlo
Augusto
Secondo
Peso osservato
Ranghi del
peso
Altezza osservata
Ranghi altezza
180
150
181
170
190
182
192
3
1
4
2
6
5
7
5
4
1
3
2
7
6
80
75
55
70
58
97
85
Se vi fosse una correlazione lineare perfetta tra peso e altezza, occorrerebbe che soggetti con
rango di peso 2 avessero anche altezza con rango 2 (bisognerebbe che sempre i piccolini di statura
pesassero poco e i tutti quelli alti pesassero molto).
Non sempre questo si verifica, come si puo’ osservare in Caio, decisamente soprappeso o in Carlo,
un po’ troppo longilineo.
Si va quindi a valutare una differenza tra i ranghi soggetto per soggetto (in presenza di perfette
correlazioni le differenze di rango dovrebbero esser tutte =0)
Persone
Tizio
Caio
Sempronio
Tiziano
Carlo
Augusto
Secondo
Ranghi del peso
5
4
1
3
2
7
6
Ranghi altezza
Differenza tra i ranghi
d
3
1
4
2
6
5
7
-2
+3
-3
+1
-4
+2
-1
80
Non sembra che in questa popolazione peso e altezza correlino perfettamente!
Spearman ha trovato il modo di dare una misura univoca a questa “impressione” grazie a questa
formula.
che nel caso in esame diventa.
Scarsina come correlazione, visto che nella distribuzione di probabilità calcolata da Spearman, per
7 coppie di valori occorre un
per poter affermare che vi è correlazione salvo errore alfa
che ha valore di probabilità <0,05.
Inutile scervellarsi sul tipo di formula individuata: è basata su calcoli matematici ormai “sicuri”!
CONTROINDICAZIONI ALL’USO DEL TEST
Le solite: numerosità inferiore a 6 coppie di valori e quantità eccessiva di misure osservazionali
uguali tra loro
81
Correlazioni multiple.
Molti effetti delle più comuni malattie sono oggi provocate da più fattori di rischio, che
posson essere inseriti in una correlazione multipla. Studiando statisticamente queste
patologie, ovviamente la faccenda si complica un pochino.
Nelle correlazioni multiple il computer calcola i soliti coefficienti di correlazione e di
determinazione, variabile per variabile
La PA ad esempio, puo' dipendere dal peso, dal fumo e dal consumo di sale.
• I Kg di peso posson variare da 40 a 90 e oltre
• il consumo di sigarette varia da 0 a 90
• il consumo giornaliero di sale varia da 0 a 10 g
Per queste tre variabili, però le unità di misura, gli errori standard saranno tutti diversi
e lasciando le misure grezze, le variabili che hanno range più ampi sembrerebbero le
maggiori responsabili dell’ipertensione, ma soltanto per effetto dal range più ampio!
Per tale motivo il computer, automaticamente, standardizza i coefficienti e in questo
modo si possono confrontare l’importanza di sigarette, peso corporeo, uso di sale nel
favorire l’ipertensione
Il modo migliore è farlo lavorare step-wise, cioè passo-passo, guidandolo noi e non
lasciandosi guidare dal software, cioè dai numeri, ma dalle conoscenze mediche.
• È risaputo dalla letteratura medica che il peso influisce sulla pressione. Per
prima si introduce la variabile peso.
• Per seconda introduco la variabile fumo, che è meno sicura (secondo la
letteratura). I casi sono due:
–
r2 aumenta, allora mantengo questa variabile
–
r2 non aumenta, allora escludo dal modello questa variabile
•
Il consumo di sale potrebbe influire anche lui. Inserendolo, però
–
r2 non aumenta, allora escludo dal modello questa variabile
Stranamente, però, in certi studi la correlazione pressione - consumo di sale è
fortissima: questo effetto si spiega perché evidentemente vi è un confondimento: pare
82
che gli obesi fumatori di solito mangino più salato, perché il fumo riduce la percezione
dei gusti!
La regressione multipla
•
Va fatta in modo gerarchico (stepwise)
•
Puo’ esser fatta forward o backward
•
Le variabili devono esser poche e ben significative
•
Consente di svelare multicollinearità che posson esser oggetto di studi
successivi
CONTROINDICAZIONI ALL’USO DEL TEST
Multicollinearità: si verifica quando due o più variabili inserite in un modello di
correlazione multipla sono tra loro strettamente dipendenti. Un esempio: si voglia
calcolare lo sforzo compiuto da un paziente in funzione della sua frequenza cardiaca misurata al
polso e della frequenza dei complessi QRS del suo ECG (come si sa il QRS corrisponde alla sistole
ventricolare, che in periferia si rileva con l’onda sfigmica. Salvo casi veramente eccezionali le due
frequenze coincidono). Chiamando y lo sforzo la formula sarebbe:
dove a è una costante formata dalla somma della frequenza del poso e della frequenza del QRS a
riposo.
I medici sanno che di solito le due frequenze sono identiche. Le equazioni non lo sanno, invece.
Questo comporta che i valori dei coefficienti b, che sono quelli che più interessano in medicina
possono "impazzire" in una simile formula.
Se si vuole calcolare uno sforzo di k erg, tutte le equazioni sono valide:
Le equazioni, tutte formalmente corrette indicano rispettivamente:
 che lo sforzo non dipende dalla frequenza del polso, mentre dipende moltissimo dalla
frequenza del QRS
 che lo sforzo dipende in modo uguale dalla frequenza del polso e dalla frequenza del QRS
 che lo sforzo dipende moltissimo dalla frequenza del polso, mentre è inversamente
proporzionale alla frequenza del QRS
 che lo sforzo dipende moltissimo dalla frequenza del polso, mentre è inversamente
proporzionale alla frequenza del QRS
83
Evidente l’inutilità del tutto ai fini della ricerca della relazione tra sforzo e incremento del polso e
della frequenza dei QRS!
Appare chiaro come questo tipo di test richieda molta cautela nell’impiego e, forse, un livello
culturale e di esperienza superiore rispetto ai testi di ipotesi tra misure o tra modalità.
84
Regressioni lineari multiple
Raramente in medicina un determinato parametro (es. il BMI) dipende da una sola variabile
indipendente. È indubbio che chi introduce una dieta ipercalorica si ritroverà con un BMI elevato.
BMI
Calorie dieta
Altrettanto indubbio è il fatto che all’aumentare delle ore di esercizio fisico fatte quotidianamenteil
BMI diminuisca
BMI
Ore esercizio fisico
È altresì indubbio che uno stesso individuo puo’ compensare una iperalimentazione con uòn
esercizio fisico intenso (o viceversa).
Questa situazione che è ben più reale, clinicamente plausibile e completa di un esperimento che
preveda le variazioni del BMI in funzione unicamente dell’apporto calorico, potrebbe esser espressa
da una equazione di questo tipo:
E potrebbe venire rappresentata graficamente con un disegno di questo tipo:
85
Cioè con un
 asse
 asse
 asse
piano di regressione che taglia un angolo solido diedro avente per spigoli:
y = variabile dipendente (BMI)
x =1^ variabile indipendente (calorie della dieta)
z = 2^ variabile indipendente (ore di esercizio fisico).
In questo modo si puo’ individuare la relazione tra il BMI e due o più variabili
contemporaneamente.
Talvolta le variabili indipendenti da inserire in un modello di questo tipo, che spiega come
funzionano certi fenomeni, ad esempio il determinarsi di un certo BMI invece che di un altro
possono essere più di due. Oltre all’esercizio fisico e all’introito calorico si potrebbero inserire i
valori di metabolismo basale dei vari individui testati. È verosimile che chi ha metabolismo basale
più veloce abbia anche un BMI meno alto a parità di introito calorico e di esercizio fisico fatto.
Nulla vieta di introdurre più di due variabili indipendenti… ma in questo caso non sarebbe più
possibile la rappresentazione grafica (non riusciamo a concepire e tanto meno a rappresentare la
quarta dimensione!) Potrebbe però esser prodotta una “matrice di correlazione multipla” che
indichi per ogni variabile i coefficienti di correlazione con le altre e la significatività statistica
verificata con il test F o il test t. Il risultato sarebbe di questo tipo:
BMI
BMI
Calorie
Esercizio fisico
Metabolismo
basale
+b1
p=….
-b2
p=….
-b3
p=….
Calorie
Esercizio fisico
+b1
p=….
-b2
p=….
+/-c1
p=…
+/-c1
p=…
+/-c2
p=…
Metabolismo
basale
-b3
p=….
+/-c2
p=…
+/-c2
p=…
+/-c3
p=…
Ovviamente i valori di p>0,05 sarebbero da considerare come correlazioni non significative.
Dato che scientificamente è il BMI che dipende da calorie esercizio e metabolismo, gli indici di
correlazione potrebbero esser utili per verificare l’equazione:
Anche gli indici di correlazione c1, c2 e c3 sarebbero tutt’altro che inutili. Infatti se in qualche
confronto si avesse un valore di p<0,05, significherebbe, ad esempio, che chi fa meno esercizio
fisico tende anche a mangiare troppo ed in modo statisticamente significativo. Vi sarebbe pertanto
una collinearità tra queste due variabili che, se non opportunamente considerata, rischierebbe di
dare una impressione falsata dei veri coefficienti angolari e quindi della vera relazione tra BMI,
calorie, esercizio fisico e metabolismo basale.
È possibile in alcuni software controllare tale col linearità effettuando una correlazione multipla
“controllata per una variabile” di cui si sospetta la collinearità. Il computer restituisce gli indici di
correlazione che si avrebbero se la variabile controllata fosse costante.
Ovviamente anche in questo caso si ha a che fare con campioni di dati e si impone l’attenta
osservazione dei limiti di confidenza del piano di regressione, quando sia possibile tracciarlo.
86
Capitolo 5 - LA REGRESSIONE LOGISTICA
Risponde alle domande:
 quali sono i fattori che aumentano o riducono la probabilità di insorgenza di un
determinato evento patogeno?
 quali di questi fattori sono più importanti nell’aumentare o ridurre la probabilità
di insorgenza di un determinato evento patogeno?
Puo’ esser utilizzata in studi longitudinali prospettici su popolazioni free-living
Le informazioni che possono portare a una definizione accurata dei diversi fattori di rischio (o
protettivi) e del peso che possono avere i nel determinismo (nella presenza o nell’assenza)di una
malattia sono di tipo spesso diverso tra loro. Occorre tenere presente che per un clinico, spesso,
non è tanto importante conoscere l’esatto valore della PA (differenze di 5 mm. di mercurio sono
irrilevanti), quanto sapere se un paziente è catalogabile come
• Iperteso
• Non iperteso
secondo i valori di cut-off stabiliti dalle associazioni internazionali di ipertensivologi.
Per fare un esempio, i fattori che influiscono su una delle più comuni sindromi, l’ipertensione
arteriosa, possono essere:
 genere (scala nominale)
 età (scala di misura)
 BMI (scala di misura)
 Colesterolemia e colesterolo HDL (scala di misura)
 Condizione di non fumatore o fumatore occasionale o fumatore cronico di meno di 7
sigarette/die o fumatore cronico di meno di 8-20 sigarette/die o fumatore cronico di più di
20 sigarette/die (scala ordinale)
 Utilizzo di alcool variabile dalla condizione di astemio a quella di occasionale o medio o forte
bevitore (scala ordinale)
 Moto e sport praticato occasionalmente o a livello amatoriale o dilettantistico o
professionistico (scala ordinale)
 Dieta quantitativamente valutata in calorie come assunzione media giornaliera(scala di
misura)
 Dieta qualitativamente considerata (uso o non uso di grassi animali: scala nominale….)
 …………….
87
GENERE
ETA’
Apo A
_____
ApoB
SALE
BMI
IPERTESO
MOTO
COLESTEROLO
CALORIE
FUMO
ALCOOL
Tutte queste variabili coesistono nel medesimo individuo e ne determinano (tutte insieme con le
varie interazioni tra l’una e l’altra) il maggiore o minor rischio di avere una ipertensione arteriosa.
Ad esempio le interazioni tra eccessivo apporto calorico e riduzione del moto praticato sono
innegabili: molto spesso chi mangia troppo si muove di meno… e ben volentieri puo’ indulgere a
qualche bicchiere di vino di troppo. Le tre cose aggravano il rischio di ipertensione, ma quale delle
tre è la più “forte” nel determinismo della patologia?
Non sarebbe corretto considerare l’ipertensione quale evento che puo’ verificarsi in funzione del
rischio legato al fumo isolatamente preso… perché spesso chi fuma beve anche caffè e beve
alcool, chi fuma fa meno sport perché ha il fiato corto, tende a salare di più gli alimenti perché il
fumo deprime il senso del gusto… Quindi il fenomeno “fumo” coesiste con altri fattori che lo
possono potenziare (o, più raramente, possono ridurre la sua forza).
Questa situazione si ripete per moltissime patologie degenerative ma non solo. Ad es., Anche il
rischio di contrarre una polmonite batterica dipende certamente dalla presenza/assenza del
batterio ma anche dalla carica batterica, dalla coesistenza o meno di basse temperature
ambientali, dalle condizioni immunologiche del paziente, dal vivere o meno in comunità….
Il modello matematico capace di rappresentare una tale situazione non potrebbe essere una
regressione lineare multipla,
 perché in questo modello viene richiesto di utilizzare soltanto misure continue in
distribuzione similgaussiana (quindi non potrebbero entrare nel modello le
informazioni in scala nominale né ordinale)
 perché in questo modello la variabile indipendente è a sua volta una misura continua,
non una misura di rischio
Volendo costruire un diagramma di dispersione di dati che riguardino uno studio su come l’età
influenzi la presenza di cardiopatia ischemica con i dati di questa tabella (essendo 0= assenza di
malattia e 1= presenza di malattia)
88
Si otterrebbe una rappresentazione di questo tipo:
che indicherebbe una frequenza di CHD elevata dai 45 anni in su, ma guardando in basso nel
diagramma si nota che vi sono anche molti cinquantenni senza CHD!
Certamente sarebbe difficile tracciare una retta interpolata tra i punti del diagramma. Eppure è
indubbio che l’età avanzata favorisca la presenza (cioè aumenti la prevalenza di cardiopatia
ischemica).
89
Con la divisione in classi di età sopraindicata e la trasformazione del numero di malati in
prevalenza per classe di età si otterrebbe un diagramma di dispersione di questo tipo:
NO!
Tra i punti sperimentali del diagramma sovrastante, non sarebbe corretto inserire una retta per il
semplice motivo che vi è una funzione non rettilinea che molto meglio rispecchierebbe la realtà di
quanto accade: tra I giovani non vi è quasi cardiopatia ischemica, mentre dopo I 70 anni la
prevalenza di questa patologia sale al 100%... e poi resta costante, raggiunge un suo massimo
plateau al di sopra del quale non sale (non si puo’ andare oltre il 100% di prevalenza!)
SI’!
Il miglior modello finora individuato per studiare l’influenza dei vari fattori di rischio
sulla presenza di molte malattie è la regressione logistica graficamente rappresentata dalla
figura sovrastante
È quindi un modello matematico che misura la probabilità essere affetto da
ipertensione arteriosa sistemica:
90
Ove la y (variabile dipendente) è di tipo dicotomico (sì/no= avere/non avere l’ipertenzione). Le
variabili indipendenti potranno essere in scala nominale, ordinale o di misura.
I fenomeni di tipo dicotomico seguono la legge di probabilità di Bernoulli, non quella di
Gauss (che invece viene seguita dalle variabili in scala di misura, di tipo continuo).
La y, intesa come probabilità di esser iperteso in funzione dei diversi fattori di rischio in un singolo
individuo, puo’ assumere soltanto due valori:
y=1 individuo iperteso
y=0 individuo non iperteso.
Nell’utilizzo pratico della regressione logistica, infatti, si valuta il valore che
dovrebbero avere i coefficienti angolari delle varie x (variabili indipendenti) nel caso
che y (variabile dipendente) fosse uguale a 1. Questo consente di comprendere l’importanza
dei vari possibili fattori di rischio nel determinismo dell’ipertensione.
L’equazione della regressione logistica, quindi potrebbe esser scritta:
si legge: la probabilità che y sia uguale a 1 dato un certo valore di x,
assumendo per certo che y varia in funzione di x:
La regressione logistica, quindi si basa su una probabilità condizionata di tipo Bayesiano.
Cioè che la probabilità di avere y=1 (cioè di esser iperteso) sia una funzione di x (cioè
dipenda dalle variabili x che sono considerate fattore di rischio) e che quindi muti al
variare del coefficiente angolare b delle varie variabili indipendenti. Ovviamente tale
coefficiente che sarà differente e peculiare per ognuna delle variabili considerate
La differenza sostanziale tra la regressione logistica e la regressione lineare multipla è che
 Nella logistica il primo membro dell’uguaglianza è una misura di probabilità calcolata come
un odd (rapporto fra la probabilità di esser iperteso e al probabilità di non esserlo), mentre
nella lineare multipla il primo membro dell’uguaglianza è il valore esatto della pressione
arteriosa, stimato in media
 È poi possibile, nella logistica ma non nella lineare multipla, inserire nel secondo membro
dell’equazione variabili in scala nominale o in scala ordinale accanto a eventuali variabili in
scala di misura.
La regressione logistica è un modello simile a questo sopraindicato ove

è la probabilità di esser iperteso intesa come odd ipertesi/normotesi
91



è l’intercetta, la probabilità di esser iperteso pur non avendo alcuno dei fattori di rischio
finora conosciuti (cioè quando tali fattori abbiano valore 0)
sono i coefficienti angolari delle varie variabili inserite
Colesterolemia, calorie, età, sesso, livello di dipendenza dalla nicotina… sono la diverse
variabili sia in scala di misura che ordinale o nominale.
La regressione logistica non è un modello di immediata comprensione, quindi occorre
cercare di procedere per piccoli passi, affrontando un problema per volta.
1. Il primo membro dell’uguaglianza:
è la misura della probabilità di
esser iperteso. Come tutte le probabilità deve esser compresa tra 0 (impossibile) e 1
(certo), ovviamente deve sempre esser positiva.
Ai matematici era ed è ben nota questa funzione, detta funzione logistica:
Nella quale la variabile dipendente puo’ assumere valori compresi tra 0 e 1 ma soltanto
all’infinito raggiunge valore = 1 (evento certo) e soltanto a -infinito raggiunge valore
0,
cioè nullo o negativo (evento impossibile).
La formula sottostante alla funzione rappresentata nel grafico e che soddisfa la necessità
che
è la seguente:
Questa formula, negli esponenti del numero “ e“ ,ricorda la formula della regressione lineare
. Si avvale dell’utilizzo degli esponenziali in base naturale (cioè che hanno come
base non 10, come forse si è più abituati a vedere, ma il numero irrazionale e
=2,71828183………).
Dalla formula si deduce che:

P non potrà mai esser negativo perché elevando il numero e , come qualunque altro
numero, a esponenti piccolissimi, cioè negativi e molto grandi in valore assoluto… si avrebbe
comunque
un
valore
positivo,
anche
se
molto
piccolo,
dato
che

P non potrà mai esser superiore a 1, perché il numeratore viene sempre diviso per un
denominatore a lui superiore, anche se soltanto di una unità.
Per questi motivi tra le tante funzioni matematiche si è privilegiata questa per costruire il
modello di regressione logistica.
2. Come studiare la probabilità di esser iperteso (avere y=1) in soggetti sottoposti a
certi fattori di rischio (alta colesterolemia, fumo attivo, sesso maschile, età
avanzata….)?
92
2a. si consideri dapprima il caso di variabili indipendenti di tipo dicotomico.
Si sa che l’odd è il rapporto tra la probabilità di avere una malattia e la probabilità di non averla.
In una tavola di contingenza:
Esposti
Non esposti
Patologia presente
a
c
a+c
Patologia assente
b
d
b+d
a+b
c+d
a+b+c+d
L’odd negli esposti sarebbe:
Se la probabilità di contrarre la patologia viene espressa con
, allora l’odd negli
esposti puo’ diventare:
Nella regressione logistica la scelta è caduta sull’odd, perché la formula
appare particolarmente conveniente per il calcolo, dato che consente di trasformare l’equazione
Nell’equazione
e quindi in
basta ricordarsi di vecchie nozioni liceali come i logaritmi, come si vedrà in seguito .
Forse non è inutile ricordare che:
Il logaritmo in base 10 di un certo numero è l’esponente al quale occorre elevare la base 10 per
ottenere il numero dato, ad esempio:
Log 100=2, perché 102=100
Log 0.01=-2, perché 10-2=0,01
Il logaritmo naturale di un certo numero è l’esponente al quale occorre elevare la base e=2,7182818….
per ottenere un dato numero, ad esempio:
ln e = 1, perché e1=e
93
L’equazione:
puo’ esser poi ulteriormente semplificata con l’applicazione
dei logit.
Il logit è una operazione matematica (non si dimentichi che oltre alle 4 operazioni
elementari, vi sono anche le elevazioni a potenze, le estrazioni di radice, i logaritmi, gli
antilogaritmi e, appunto, il logit). Il logit di un numero p compreso tra 0 e 1, insegna la
matematica, risponde a questa formula:
Risulta abbastanza evidente la possibilità di utilizzare il valore di probabilità di avere
l’ipertensione espresso come odd al fine di conoscere l’incremento (o il decremento) di
probabilità di esser iperteso che puo’ esser indotto dall’azione di determinati fattori di
rischio.
Estrarre il logaritmo naturale dai due membri dell’equazione
darebbe luogo a questa
trasformazione:
Tutti questi passaggi ci consentono di passare dall’equazione logistica a quella lineare,
semplificando sia i calcoli che la comprensione del modello.
Il logaritmo dell’odd negli esposti puo’ variare tra – infinito e + infinito e vi sono tabelle con le
varie corrispondenze già calcolate fra logit e probabilità, come quella sottoindicata.
ln(p/1-p)
-4,60
-2,94
-2,20
-1,10
0
1,10
2,20
2,94
4,60
p
0,01
0,05
0,10
0,25
0,5
0,75
0,90
0,95
0,99
Per cui quando il primo membro dell’equazione logistica fosse -4,6… significherebbe che la
probabilità di esser ipertesi è minima, mentre diventa massima (99%) per valori di +4,6. Se il
primo membro dell’equazione fosse 0, la probabilità di esser ipertesi in funzione di un dato fattore
di esposizione sarebbe del 50% (il che significherebbe che quel fattore non modifica di molto la
casualità dell’essere o meno iperteso: si dimostrerebbe quindi ininfluente sull’ipertensione).
È evidente che i coefficienti angolari dell’equazione logistica non sono identici ai
coefficienti angolari della regressione multipla.
94
Si ricordi che se si impostasse una equazione di regressione lineare multipla di questo tipo:
Significherebbe che in ogni momento la glicemia di un individuo dipende

da un minimo di concentrazione glicemica indispensabile alla vita, garantito dai
meccanismi di omeostasi (80 mg%cc)

cui si somma un certo numero di mg.%cc. di glucosio per ogni caloria introdotta

cui si sottrae un certo numero di mg.%cc. di glucosio per ogni joule di energia
dispersa con l’esercizio fisico.
Se invece si volesse impostare una regressione che ci indichi la probabilità di diventare
diabetico in funzione delle calorie introdotte e del (poco) esercizio fisico fatto, occorrerebbe
scrivere:
E il significato sarebbe diverso: è il logit diabete/non diabete che aumenta al crescere delle
calorie introdotte moltiplicate per b, cioè
.
La probabilità di avere il diabete, misurata come odd, invece, aumenta al crescere delle
calorie introdotte, ma non in modo lineare, bensì secondo questa funzione
,
perché si è proceduto all’estrazione del logaritmo da ambedue i membri dell’equazione!!!
Stesso discorso vale per il coefficiente dell’esercizio fisico .
Regressione
Lineare multipla
Logistica
Incremento della
glicemia =
Incremento della
probabilità di esser
diabetici
Formula
Calorie
+
=+
Decremento della
Esercizio fisico
glicemia
=
Decremento della
probabilità di esser
diabetici =
Fortunatamente i programmi di software danno direttamente i valori dei coefficienti angolari
opportunamente trasformati indicandoli in genere come “exp b”.
2b. si consideri ora il caso di variabili indipendenti in scala di misura.
Sostanzialmente, in estrema semplificazione, la differenza tra le due regressioni: lineare multipla e
logistica è la seguente:

questa equazione risponde alla
domanda: “che valore di PA possiamo attenderci dati certi valori di colesterolemia, di
assunzione di calorie con la dieta e di età anagrafica?”
95
questa equazione

risponde alla domanda : ”aumentato rischio di ipertensione a quali coefficienti angolari di
colesterolemia, calorie, età, corrisponde? Il che significa: “quale di questi fattori di rischio è
il più forte nel determinismo della patologia?”
Per poter passare dalla prima alla seconda domanda è necessario passare da un modello di
regressione lineare (rettilineo) a uno di regressione logistica (curva a S).
Per poter chiarire ancor meglio il concetto, si veda il modello di regressione logistica sottostante.
Rappresenta una equazione di questo tipo:
Una persona alta 65 pollici = 165,1 cm ha la stessa probabilità di esser maschio o femmina
(50%), quindi un odd =1 e un logit =0, in effetti si tratta di un’altezza media che puo’ esser
facilmente attribuita sia a un uomo che a una donna.
Una persona alta 80 pollici = 203,2 cm ha una probabilità di esser maschio del 95%, quindi
un odd =19 e un logit =2,94, in effetti vi son ben poche donne che superano i due metri di
altezza.
Una persona alta 58 pollici = 147,32 cm ha una probabilità di esser maschio del 30% (e di
esser femmina del 70%), quindi un odd =0,43 e un logit = - 0,99, in effetti uomini così
bassi sono rari.
Dalla misura dell’altezza, quindi si puo’ dedurre se una persona è maschio o femmina
(difficile che una persona di 190 cm sia femmina, più probabile che sia maschio).
È abbastanza improbabile che si conduca uno studio importante per valutare la diversa altezza
delle donne e degli uomini, ma vengono quotidianamente condotti studi per valutare, ad es.,
quanto il rapporto ApoB/ApoA1 (scala di misura) o il BMI o la colesterolemia influiscano sul rischio
di ipertensione.
96
Risulta evidente che un rapporto molto elevato di lipoproteine corrisponde a una
probabilità elevatissima di ipertensione, uno molto basso corrisponde a una probabilità
infima di ipertensione. I valori intermedi corrispondono a una probabilità intorno al
50%... quindi risultano ininfluenti rispetto al rischio di ipertensione.
2c. si consideri ora il caso di variabili indipendenti in scala ordinale.
Un esempio potrebbe essere: dato un valore di y = 1 (cioè una situazione di ipertensione), quale
condizione è da ritenere più pericolosa tra esercizio fisico intenso, medio e saltuario?
Si ripete la situazione della tavola di contingenza. Una prima volta:
Esercizio saltuario
Esercizio lieve
Patologia presente
a
c
a+c
Patologia assente
b
d
b+d
a+b
c+d
a+b+c+d
Patologia presente
a
c
a+c
Patologia assente
b
d
b+d
a+b
c+d
a+b+c+d
E una seconda volta:
Esercizio saltuario
Esercizio intenso
E si valuta l’incremento di odd tra esercizio saltuario e esercizio lieve e tra esercizio saltuario e
esercizio intenso, ricadendo nella situazione 2a.
Per fare un esempio pratico, da recenti studi risulterebbe che, in media:
L’equazione indica che il rischio di ipertensione ha una sua probabilità minima di base (data dal
valore di a l’intercetta) che corrisponde alla naturale frequenza di malattia, quella che si è
manifestata, si manifesta e si manifesterà sempre in tutti i paesi del mondo indipendentemente
dall’adozione di stili di vita più o meno incongrui (anche un eremita medievale vegetariano poteva
esser iperteso).
Questo rischio “basale” si puo’ aggravare se il soggetto conduce uno stile di vita incongruo: se
fuma , se ha una dislipidemia…. e puo’ ridursi, invece, tanto più quanto più il soggetto fa attività
fisica.

Se il soggetto non fuma, la variabile “fumatore” acquista misura 0 e quindi si annulla il
valore di 2,86 e il logit rimane quello della naturale frequenza di malattia
Se il soggetto fuma, la variabile “fumatore” acquista misura 1 e quindi il logit di esser
ipertesi diventa 2,86 la naturale frequenza di malattia.

Quanto più è alto il rapporto ApoB/ApoA, tanto più aumenta il logit di esser ipertesi (ad
ogni incremento unitario il logit diventa 4,43 naturale frequenza di malattia

Se il soggetto fa attività fisica, la variabile “attività fisica” acquista misura 1 e quindi il logit
di esser ipertesi diventa 0,48 la naturale frequenza di malattia (moltiplicare un numero
per 0,50
significa dimezzare un valore, infatti
).
97

Se il soggetto non fa attività fisica, la variabile “attività fisica” acquista misura 0 e quindi si
annulla il valore di 0,48 e il logit rimane quello della naturale frequenza di malattia.
Addirittura sarebbe possibile codificare l’attività fisica in: assente=0; lieve=1; intensa =2 e
calcolare le variazioni di logit che si hanno per attività fisica intensa rispetto a assente (un
numero molto più piccolo di 1 e non troppo lontano da 0, poniamo possa essere 0,3) .
Se, per assurdo, i ricercatori avessero inserito nel modello anche una variabile di questo
tipo: appassionato di fotografia/non appassionato di fotografia, il coefficiente di tale variabile
sarebbe risultato molto vicino a 1, dimostrando che l’essere appassionati di fotografia è del
tutto ininfluente sul rischio di ipertensione!
Benché l’estrazione del logaritmo renda l’equazione sopraindicata praticamente simile a una
equazione lineare multipla (ai fini del calcolo) non si deve dimenticare che non è la
probabilità di ipertensione che quadruplica al crescere di
, ma il logaritmo
naturale (in base e) dell’odd di essere iperteso o non iperteso.
Da tale valore, però, non è difficilissimo risalire al valore di probabilità (se non altro perché è
già stato calcolato nella tabella precedente)
I coefficienti della regressione logistica, quindi sono molto diversi da quelli della
regressione lineare multipla, non sono infatti una misura (il seno trigonometrico)
dell’angolo di inclinazione di una retta o di un piano, ma sono esponenziali in base
naturale (e=2,718…) dell’odd di avere l’ipertensione in funzione di esser o meno
esposti a un certo fattore di rischio (come il fumo) o protettivo (come l’esercizio
fisico).

Con la regressione lineare multipla teoricamente si valuta quanto in media aumenti la
pressione arteriosa per ogni sigaretta fumata in più o per ogni aumento di 0,01 del
rapporto apoB/ApoA1 o di quanto diminuisca in media per ogni ora di palestra in più

Con la regressione logistica si puo’ valutare invece quanto il fatto di fumare incrementi il
rischio di ipertensione (misurato in logit), quanto il rischio di ipertensione aumenti
all’aumentare rapporto apoB/ApoA1, quanto il rischio di ipertensione diminuisca facendo 2
ore di palestra o facendone 4 o facendone 8 alla settimana.
Mentre il modello di regressione lineare multipla resta ottimale per molti studi di farmacologia, per
studi clinici ed epidemiologici il modello di regressione logistica appare di gran lunga più idoneo.
98
Il metodo della massima verosimiglianza nella regressione logistica
Naturalmente resta fermo il fatto che questi studi vengono condotti su campioni di individui, non
sull’universo e il fatto che quasi mai i punti sperimentali giacciono effettivamente sulla curva
logistica… quindi occorre
1. trovare il modello migliore per interpolazione
2. prendere in considerazione il problema della stima
L’interpolazione nel modello di regressione lineare semplice o multipla si basa sul metodo dei
minimi quadrati, mentre nella regressione logistica si basa sul metodo di massima
verosimiglianza, che è una funzione di probabilità condizionata (lo stesso concetto applicato nel
teorema di Bayes). Cercando di semplificare al massimo, volendo esprimere la funzione di
verosimiglianza di esser ipertesi dato che si è fumatori, si potrebbe scrivere:
, che significa la probabilità di esser ipertesi dato che è
positivo un fattore di rischio (si è fumatori).
Essere o non esser fumatore è una modalità e la probabilità di tale evento segue la funzione di
Bernoulli (non quella di Gauss).
La probabilità di esser ipertesi dato che si è fumatori dipende da due parametri:
 essere/non esser fumatori (x), cioè la frequenza del fattore di esposizione
 quanto influisca il fumo sull’ipertensione (coefficiente angolare,
), cioè la
frequenza con la quale fumo e ipertensione si trovano associati nel dati
disponibili
In pratica ciò che più interessa il ricercatore è proprio il coefficiente angolare! Il tutto puo’ esser
semplificato calcolando l’incognita
dall’equazione
iperteso=
con iperteso =sì e fumatore = sì e
fumatore,
, appunto, incognita.
99
La semplicità è relativa, dato che resta sempre un fenomeno governato dalla funzione binomiale
che ha questa formula!
Come tutte le formule, però, al giorno d’oggi puo’ esser impostata su un foglio di calcolo e quindi
ripetuta moltissime volte con scarsa fatica.
Per intuire per grandi linee come funziona il sistema della massima verosimiglianza, basta
rispondere alle seguenti domande:
1. in una popolazione nella quale gli ipertesi sono il 30%, se i fumatori fossero il 30%,
sarebbe verosimile che il fumo influisca sull’ipertensione???... potrebbe darsi, soprattutto se
quasi tutti i fumatori fossero anche ipertesi e viceversa.
2. in una popolazione nella quale gli ipertesi sono il 30%, se i fumatori fossero il 5%,
sarebbe verosimile che il fumo influisca sull’ipertensione???... pare meno verosimile, anche
se tutti i fumatori fossero ipertesi, infatti, vi sarebbe un 25% di ipertesi che comunque non
fumano e sono ipertesi lo stesso
3. in una popolazione nella quale gli ipertesi sono il 30%, se i fumatori fossero il 20%,
sarebbe verosimile che il fumo influisca sull’ipertensione???... la verosimiglianza di tale
affermazione è maggiore di quella al punto 2 e minore di quella al punto 1, soprattutto se
quasi tutti i fumatori sono anche ipertesi o viceversa
4. in una popolazione nella quale gli ipertesi sono il 30%, se i fumatori fossero il 90%,
sarebbe verosimile che il fumo influisca sull’ipertensione???... parrebbe di no: tutti o quasi
fumano, ma gli ipertesi sono soltanto il 30%, quindi anche molti fumatori non sono ipertesi!
Secondo Bayes la probabilità di esser ipertesi dato che si è fumatori si potrebbe calcolare
Esaminando più in dettaglio il caso 1, se si verifica una situazione come questa, nella quale tutti gli
ipertesi sono anche fumatori e viceversa, puo’ accadere:
Rossi
Bianchi
Verdi
Neri
Bigi
Viola
Fulvi
Carmini
Rosati
Bruni
Ipertensione
Sì
No
No
No
No
Sì
No
No
No
Sì
Fumo
Sì
No
No
No
No
Sì
No
No
No
Sì
In questa situazione sperimentalmente, gli ipertesi fumatori sono il 30%=0,3.:
In questo caso i dati sperimentali confermano appieno la probabilità Bayesiana dati i valori di
frequenza di fumatori e di ipertesi.
100
In questo caso invece:
Rossi
Bianchi
Verdi
Neri
Bigi
Viola
Fulvi
Carmini
Rosati
Bruni
Ipertensione
No
Sì
No
No
No
Sì
No
No
No
Sì
Fumo
Sì
No
No
No
No
Sì
No
No
No
Sì
E, sperimentalmente, gli ipertesi fumatori sono il 20%=0,2. In questo caso i dati sperimentali non
confermano appieno la probabilità Bayesiana dati i valori di frequenza di fumatori e di ipertesi.
In una situazione di questo tipo, invece,
Rossi
Bianchi
Verdi
Neri
Bigi
Viola
Fulvi
Carmini
Rosati
Bruni
Ipertensione
Sì
No
No
No
Sì
No
No
No
No
Sì
Fumo
No
Sì
No
No
No
Sì
No
No
No
Sì
E, sperimentalmente, gli ipertesi fumatori sono il 10%=0,1. In questo caso i dati sperimentali
confermano per niente la probabilità Bayesiana dati i valori di frequenza di fumatori e di ipertesi.
In questo caso, invece,
Rossi
Bianchi
Verdi
Neri
Bigi
Viola
Ipertensione
Sì
No
No
No
Sì
No
Fumo
No
Sì
No
No
No
Sì
101
Fulvi
Carmini
Rosati
Bruni
No
No
Sì
No
No
No
No
Sì
E, sperimentalmente, gli ipertesi fumatori sono lo 0%=0. In questo caso i dati sperimentali negano
la probabilità Bayesiana dati i valori di frequenza di fumatori e di ipertesi. Con un campione simile
si sarebbe portati a negare che il fumo sia un fattore di rischio dell’ipertensione e questo elemento
verrebbe eliminato dal modello.
Anche con campioni molto più numerosi di questo, la situazione non si modificherebbe molto,
perché le frequenze percentuali sono sempre molto più “rigide” nel loro comportamento di quanto
siano le misure.
Appare evidente che tale distribuzione di probabilità (verosimiglianza) non segue affatto la curva di
Gauss, ma la binomiale:
Dove n è il numero totale di soggetti del campione (10 nel nostro caso)
K è il numero di ipertesi che sono anche fumatori
P è la probabilità di esser “e iperteso e fumatore” considerati i nostri dati sperimentali. Tale
probabilità è massima se si hanno 3/10 ipertesi fumatori, cala con 2/10, si riduce ancora con 1/10
e si annulla con 0/10.
Come tutte le formule al giorno d’oggi puo’ esser impostata su un foglio di calcolo e quindi ripetuta
moltissime volte con scarsa fatica. Il computer utilizza infatti il calcolo iterativo andando a
cercare qual valore di p che rende massima la funzione soprariportata.
Caso mai non tutto fosse chiarissimo, si veda cosa succederebbe in un caso come quello
dell’esempio 4, ove praticamente tutti fumano e il solo non fumatore non è neppure iperteso.
Rossi
Bianchi
Verdi
Neri
Bigi
Ipertensione
Sì
No
No
No
No
Fumo
Sì
Sì
Sì
Sì
Sì
102
Viola
Fulvi
Carmini
Rosati
Bruni
Sì
No
No
No
Sì
Sì
Sì
Sì
No
Sì
Il calcolo bayesiano sarebbe:
Nella realtà sperimentale gli ipertesi fumatori sono il 30%=0,3. Anche in questo caso quindi i
dati sperimentali non parrebbero esser confermati dal calcolo bayesiano della probabilità di
esser contemporaneamente fumatori e ipertesi. Essendo il fumo un fattore di rischio
pressocchè di tutti i soggetti, il fatto che i tre ipertesi siano anche fumatori perde
enormemente di importanza.
Ovviamente i limiti di confidenza di tale probabilità saranno asimmetrici così come lo è la
distribuzione di probabilità della binomiale.
L’odd dell’associazione:
, che è il coefficiente angolare che si cerca, potrà
parimenti avere limiti di confidenza asimmetrici.
Lo stesso tipo di calcolo viene adottato per tutte le possibili variabili.
Il principio di massima verosimiglianza anche se contiene l’aggettivo “massima” non implica affatto
che si tratti del metodo infallibile per stimare la realtà, perché sarebbe un’asserzione sulla realtà,
come se la realtà avesse una certa probabilità di verificarsi, il che non è.
La realtà è quella che è, gli scienziati cercano di conoscerla e si avvicinano a tale conoscenza con
una imprecisione (un errore) che si verifica con una certa probabilità.
Il principio di massima verosimiglianza indica semplicemente che, data una certa stima
sperimentale dell’associazione patologia-fattore di rischio, si accetta l’associazione
quando i dati sperimentali ne massimizzano la probabilità (intendendo i dati della
frequenza di patologia e di frequenza di esposizione al fattore di rischio presenti nel
campione dal quale si è ricavata precedentemente la stima dell’associazione patologiafattore di rischio).
Se le variabili sono in scala ordinale, il ragionamento fatto prima per la scala nominale
a due risposte viene ripetuto tra la valutazione minima della variabile e quella subito
superiore, tra quest’ultima e quella appena più grande e così via.
Se le variabili sono in scala di misura, si verifica la verosimiglianza adottando un test
dei ranghi tipo Mann-Witney oppure, se la numerosità del campione lo consente, con il
t di student per dati non appaiati.
Per intuire per grandi linee come funziona il sistema della massima verosimiglianza applicato a una
variabile indipendente espressa con misure, basta rispondere alle seguenti domande:
103
1. in una popolazione nella quale gli ipertesi sono il 30%, se le persone con rapporto
apoB/ApoA più elevato nel gruppo fossero anche tutte ipertese, sarebbe verosimile che il
fumo influisca sull’ipertensione???... sì
2. in una popolazione nella quale gli ipertesi sono il 30%, se le persone con rapporto
apoB/ApoA più elevato fossero veramente poche, meno del 5%, sarebbe verosimile che
tale rapporto influisca sull’ipertensione???... pare meno verosimile, anche se coloro che
l’hanno alto fossero ipertesi, infatti, vi sarebbe un 25% di ipertesi che comunque hanno
apoB/ApoA basso e sono ipertesi lo stesso
3. in una popolazione nella quale gli ipertesi sono il 30%, se se le persone con rapporto
apoB/ApoA più elevato fossero il 20%, sarebbe verosimile che tale condizione influisca
sull’ipertensione???... la verosimiglianza di tale affermazione è maggiore di quella al punto
2 e minore di quella al punto 1, soprattutto se quasi tutti coloro che hanno apoA/ApoB alto
sono anche ipertesi o viceversa
4. in una popolazione nella quale gli ipertesi sono il 30%, se le persone con rapporto
apoB/ApoA più elevato fossero il 90%, sarebbe verosimile che tale condizione influisca
sull’ipertensione???... parrebbe di no: tutti o quasi hanno rapporto apoB/ApoA elevato, ma
gli ipertesi sono soltanto il 30%
Le variabili in scala di misura rischiano di perdere di significatività quando sono immesse insieme
alle altre variabili in scala nominale o ordinale. Per tale motivo si consiglia di inserirle in un modello
univariato di regressione logistica e quindi, soltanto se importanti e significative, di inserirle nel
modello definitivo insieme alle altre variabili.
La regressione logistica puo’, come la lineare multipla, esser condotta in vari modi:
 per entrata forzata (soprattutto quando si voglia compiere un primo studio
esplorativo
 a gradini (stepwise)
 sia per entrata progressiva (forward)
 sia per eliminazione progressiva (backward).
Con il metodo stepwise backward si fanno entrare tutte le possibili variabili nel modello e poi il
computer (o l’operatore esperto) le elimina una ad una osservando se la loro eliminazione modifica
in meglio (di più del 5%) la significatività del modello.
Con il metodo stepwise forward si fanno entrare le possibili variabili una ad una lasciandole nel
modello se la loro presenza modifica in meglio (di più del 5%) la significatività del modello.
Uno dei problemi più importanti anche concettualmente è il numero di variabili da introdurre nel
modello di regressione logistica e come.
Se per uno studio si sono studiate 20 variabili diverse e le si introducono tutte nel modello il
risultato sarà un modello detto “saturo”, cioè il modello che contiene tante variabili
quante sono le osservazioni fatte.
Alcune variabili introdotte, però, potranno esser poco significative o evidentemente correlate con
altre (fumo, alcol, caffè, ad esempio). Non è detto che il modello più saturo sia quello migliore,
anzi:
 troppe variabili possono rendere poco comprensibile il fenomeno
 troppe variabili potrebbero spiegare benissimo il fenomeno ma soltanto in quel particolare
campione scelto e le conclusioni tratte essere difficilmente inferibili all’universo.
Si valuta la significatività del modello prescelto (contenente un certo ragionevole numero di
variabili) facendo un rapporto tra la verosimiglianza del modello scelto e quella del modello saturo.
104
Si è rilevato che estraendo il logaritmo di tale rapporto e moltiplicandolo per (-2) si ottiene una
variabile D che segue la distribuzione di probabilità del chi quadro sotto ipotesi nulla.
Se D tende a 0 l’adattamento è buono.
Esiste infine un’ultimo importante controllo: quando il modello proposto prevede effettivamente la
patologia? Qual è la bontà del modello nella sua generalità?

Lo si verifica controllando con tavole di contingenza quanti soggetti classificati come
patologici (y=1) hanno effettivamente presenti i fattori di rischio o presentano i più alti
valori delle misure indici di rischio di malattia. Questo modo di procedere, nella sua
apparente semplicità e ovvietà mette comunque al riparo dai più grossolani errori.

Si puo’ utilizzare un indicatore che è un analogo dell’r2 utilizzato nelle regressioni lineari e
che ha una formula alquanto spaventosa:
goodness of fit (Darlington) =
, che si confronta con una distribuzione del
chi quadro. In questa formula
è la verosimiglianza del modello scelto, mentre
la verosimiglianza dell’ipotesi nulla e
è la numerosità campionaria
è
Non tutti sono concordi sulla validità della formula di Darlington almeno non in tutte le situazioni.
Forse la semplice visione della formula puo’ rendere l’idea di quanto il modello di regressione
logistica sia complesso e di quanta cautela serva per interpretarlo correttamente.
CONTROINDICAZIONI ALL’USO
Non si puo’ applicare che in studi prospettici longitudinali in popolazioni free living per evitare bias
Per lo stesso motivo non è applicabile in studi caso-controllo
Non puo’ esser applicata che in studi con numerosità molto elevata
105
Capitolo 6 - Le analisi di sopravvivenza
Si tratta di un potente strumento di indagine sia per la medicina preventiva che per la
medicina clinica (sia in campo medico che chirurgico).
I principali impieghi sono:
 epidemiologia osservazionale per individuare fattori di rischio per la salute
 valutazione clinica del soggetto condotta in modo oggettivo su base statistica
 ricerca per valutazione di efficacia di nuove terapie o trattamenti medici.
Un impiego estremamente importante è quello dell’epidemiologia osservazionale. Si puo’
citare uno degli studi più noti condotti negli ultimi 60 anni: il Framingham Heart Study,
che inizialmente è consistito nella semplice osservazione della popolazione di una
piccola città al fine di monitorare gli “eventi cardiologici”, intesi come eventi
patologici, osservandone la prevalenza, l’incidenza, il rischio (che ad esempio poteva
esser diverso tra uomini e donne, tra fumatori e no…) registrando tutte le differenze
rilevabili fra coloro che si ammalavano e coloro che non si ammalavano si è arrivati a
valutare quali fattori di rischio, tra i tanti possibili, fossero preponderanti nel
determinismo dell’evento patogeno cardiologico.
Si è quindi codificata la carta del rischio cardiovascolare che serve a stimare la probabilità
di andare incontro a un primo evento cardiovascolare maggiore (infarto del miocardio
o ictus) nei 10 anni successivi, conoscendo il valore di sei fattori di rischio: sesso,
diabete, abitudine al fumo, età, pressione arteriosa sistolica e colesterolemia.
Il rischio cardiovascolare è espresso in sei categorie di rischio MCV (da I a VI): la
categoria di rischio MCV indica quante persone su 100 con quelle stesse
caratteristiche sono attese ammalarsi nei 10 anni successivi.
Le categorie di rischio sono espresse in:
•
•
•
•
•
•
•
•
I fattori di rischio considerati sono:
1 genere espresso in due categorie, uomini e donne
2 diabete espresso in due categorie, diabetico e non diabetico; viene definita diabetica la persona che
presenta, in almeno 2 misurazioni successive nell’arco di una settimana, la glicemia a digiuno uguale o
superiore a 126 mg/dl oppure è sottoposta a trattamento con ipoglicemizzanti orali o insulina oppure
presenta storia clinica personale di diabete
3 età espressa in anni e considerata in decenni, 40-49, 50-59, 60-69
4 abitudine al fumo di sigaretta espressa in due categorie, fumatori e non fumatori; si definisce
fumatore chi fuma regolarmente ogni giorno (anche una sola sigaretta) oppure ha smesso da meno di
12 mesi. Si considera non fumatore chi non ha mai fumato o ha smesso da più di 12 mesi
5 pressione arteriosa sistolica espressa in mmHg; rappresenta la pressione sistolica come media di due
misurazioni consecutive eseguite secondo la metodologia standardizzata. È suddivisa in quattro
categorie:
uguale o superiore a 90 mmHg e inferiore a 130 mmHg
uguale o superiore a 130 mmHg e inferiore a 150 mmHg
uguale o superiore a 150 mmHg e inferiore a 170 mmHg
uguale o superiore a 170 mmHg e inferiore o uguale a 200 mmHg.
Per persone che hanno il valore della pressione arteriosa sistolica superiore a 200 mmHg o inferiore a
90 mmHg non è possibile utilizzare la carta per la valutazione del rischio
6 colesterolemia espressa in mg/dl; è suddivisa in cinque intervalli:
uguale o superiore a 130 mg/dl e inferiore a 174 mg/dl
uguale o superiore a 174 mg/dl e inferiore a 213 mg/dl
uguale o superiore a 213 mg/dl e inferiore a 252 mg/dl
uguale o superiore a 252 mg/dl e inferiore a 291 mg/dl
106
•
uguale o superiore a 291 mg/dl e inferiore o uguale a 320 mg/dl.
Per persone che hanno il valore della colesterolemia totale superiore a 320 mg/dl o inferiore a 130
mg/dl non è possibile utilizzare la carta per la valutazione del rischio.
Successivamente si è riusciti non solo a identificare i prioritari fattori di rischio di malattia, ma
anche a quantificarli (calcolando di quanto l’incremento di un fattore di rischio facesse crescere la
possibilità di ammalarsi…ad es.: un aumento di 5 sigarette fumate al giorno rispetto alle solite 10 ,
di quanto aumenta il rischio di infarto?) e questo sia a livello del singolo paziente che di una
popolazione generale free-living (cioè non manipolata).
Per rendere più oggettiva e confrontabile e facilmente comunicabile da medico a medico la
valutazione clinica di un paziente in cardiologia si è arrivati a valutare il punteggio
individuale o rischio globale cardiologico, che è uno strumento semplice per stimare la
probabilità di andare incontro a un primo evento cardiovascolare maggiore (infarto del miocardio o
ictus) nei 10 anni successivi, conoscendo il valore di otto fattori di rischio: sesso, età, diabete,
abitudine al fumo, pressione arteriosa sistolica, colesterolemia totale, HDL-colesterolemia e
trattamento anti-ipertensivo.
•
•
•
La valutazione del rischio offerta dal punteggio è più precisa rispetto a quella delle carte del rischio
cardiovascolare. Il punteggio individuale infatti:
considera due fattori di rischio in più rispetto alla carta, HDL-colesterolemia e terapia anti-ipertensiva,
che rappresenta un fattore aggiuntivo alla pressione arteriosa, in quanto il valore registrato non è
naturale ma dovuto anche al trattamento specifico, ed è un indicatore per la valutazione di ipertensione
arteriosa di vecchia data
le carte sono classi di rischio globale assoluto calcolate per categorie di fattori di rischio e considerano
intervalli di valori per colesterolemia e pressione arteriosa; il punteggio individuale tiene conto di valori
continui per colesterolemia, HDL-colesterolemia, età e pressione arteriosa e offre una stima puntuale
del rischio cardiovascolare
il punteggio individuale può essere applicato a persone nella fascia di età 35-69 anni (la carta considera
invece la fascia 49-69 anni).
Anche se inizialmente queste analisi sono nate per l’epidemiologia osservazionale, questi test
posson esser utili anche nella ricerca, dato che permettono di verificare la differenza fra due o più
diversi trattamenti sia sotto il profilo dell’effetto finale (vita o morte, guarigione o malattia…) che
sotto quello del tempo necessario per ottenere tale effetto.
Per restare in campo farmacologico, non si tratta un test che discrimini quale trattamento
garantisca un maggior numero di guarigioni (sarebbe una tavola di contingenza) o una guarigione
più rapida (sarebbe uno dei tanti test di ipotesi per misure non appaiate).Non valuta neppure se vi
sia una relazione tra dose del nuovo farmaco e recupero di valori di laboratorio alterati (sarebbe
una regressione o una correlazione).
L’analisi di sopravvivenza valuta invece se i diversi trattamenti abbiano modificato gli “eventi” nel
prosieguo del tempo, cioè indica quale farmaco garantisce non soltanto il maggior numero di
guarigioni, ma anche nel nel tempo più breve, quale farmaco garantisce la minor comparsa di
metastasi e contemporaneamente la più tardiva comparsa di metastasi….
È un tipo di valutazione molto interessante, infatti vi sono ormai parecchie tecniche
terapeutiche che raggiungono risultati “alla pari” se si considera come loro esito
soltanto la vita o la morte… ma è molto importante considerare anche il tipo di vita
che puo’ vivere il paziente (un lungo periodo senza metastasi è certo preferibile a una
sopravvivenza anche simile, ma condotta a livello pressocchè vegetativo perché il
paziente deve esser sottoposto a terapie antidolorifiche maggiori).
Le analisi di sopravvivenza consentono quindi di rispondere a questo tipo di domande:
 Quali sono i fattori di rischio (o protettivi) di una determinata malattia?
 Quale di questi fattori è il più importante?
 Se uno dei fattori diventa più grave (ad es.: crescita delle colesterolemia per un
cardiopatico), di quanto aumenta il rischio di malattia (infarto) in media in una
popolazione?
 Se un certo nostro paziente, tale Sig. Rossi, si aggrava perché gli aumenta la
colesterolemia… il suo rischio globale individuale di malattia (infarto) è tanto aumentato da
107




consentire che gli vengano prescritti farmaci idonei attraverso il SSN (cioè senza che il Sig.
Rossi li paghi di tasca propria)?
tra più trattamenti farmacologici o chirurgici quale garantisce il più elevato numero di
“eventi” (positivi come la guarigione) nel tempo più breve?
tra più trattamenti farmacologici quale garantisce il meno elevato numero di “eventi”
(negativi come la comparsa di metastasi) o quanto meno ne garantisce la comparsa dopo
tempi più lunghi?
tra diversi inquinanti ambientali individuati come fattori di rischio, quale comporta
l’insorgenza del più elevato numero di “eventi” (negativi come la comparsa di neoplasie) nel
tempo più breve?
Tra diversi stili di vita individuati come protettivi rispetto alle malattie (consumo di frutta e
verdura, attività fisica regolare, sonno regolare...) quale garantisce l’insorgenza del meno
elevato numero di “eventi” (negativi come la comparsa di cardiopatie ischemiche o positivi,
come il rientro nei limiti normali del BMI) o quanto meno ne garantisce la comparsa dopo
tempi più lunghi, nel caso di eventi negativi (o in tempo più breve nel caso di eventi
positivi)?
L’analisi di sopravvivenza si effettua in corso di studi prospettici ed è atta a valutare
contemporaneamente la comparsa e il tempo di comparsa degli “eventi”.
Per evento si intende la modifica (auspicabile o non auspicabile) di una categoria
riguardante il paziente. In campo epidemiologico o di medicina del lavoro, ad es: l’evento puo’
esser la comparsa di una positività degli indicatori biologici di esposizione ad un certo inquinante
(o addirittura la comparsa di una malattia professionale) in una fabbrica che adotti determinate
misure precauzionali rispetto a una fabbrica che utilizzi filtri o cappe di aspirazione obsoleti. In
campo medico l’evento puo’ esser la guarigione dopo una terapia antibiotica piuttosto che un’altra.
In campo chirurgico l’evento puo esser la comparsa di complicanze post-operatorie dopo
intervento con laparotomia invece che con laparoscopia…
Uno dei problemi più gravi di questo test, applicabile solo per studi prospettici, riguarda il modo nel
quale considerare i pazienti non aderenti, cioè coloro che, pur avendo iniziato a esser
seguiti nel tempo, non si ripresentino ai periodici controlli ( i cosiddetti “drop out”).
Spesso nulla si puo’ sapere sul destino di queste persone: la loro assenza puo’ esser interpretata
in maniera ottimistica (stanno bene: sono successi terapeutici) o in maniera pessimistica (stanno
male e cercano altrove terapie più idonee… posson esser anche deceduti) o in altro modo (posson
esser deceduti per cause estranee sia alla malattia che alla terapia, come un incidente di
macchina…).
Non sarebbe corretto eliminare semplicemente dalla casistica coloro che non si ripresentano ai
controlli: si perderebbero tempo ed esperienze preziose. Se i drop out venissero considerati viventi
e guariti, si esagererebbe in ottimismo, così come si esagererebbe in pessimismo nel considerarli
tutti deceduti.
Naturalmente se i soggetti drop out (persi all’osservazione) fossero tutti quelli assegnati a un
determinato trattamento… l’analisi di sopravvivenza diventerebbe superflua perché tale situazione
indicherebbe che uno dei due trattamenti è particolarmente ricco di effetti collaterali spiacevoli o,
nella migliore delle ipotesi, che è fulmineo nel determinare la guarigione dei pazienti … che stanno
anche troppo bene e si sottraggono immediatamente a cure ed osservazioni. È premessa
essenziale ad una corretta esecuzione del test è che il numero dei persi
all’osservazione sia più o meno equivalente nei due o più trattamenti considerati.
108
Il test che ci consente di considerare insieme i tre tipi di eventi (guarito, deceduto, dropped out), i
vari tipi di terapia utilizzata ed il tempo nel quale tali eventi sono accaduti è l’analisi di
sopravvivenza nelle due varianti:
 a intervalli variabili
 a intervalli fissi
Il test più usato in medicina è l’analisi di sopravvivenza secondo Kaplan Meir a
intervalli variabili (ma non è l’unico).
Per semplificare si immagini un esempio concreto: utilizzando due terapie diverse in due gruppi di
malati di una stessa malattia si ottengono questi risultati dopo 100 giorni di trattamento:
Terapia A
Terapia B
Guariti
5
8
Deceduti
7
8
Dropped out
6
5
Totale
18
21
Con un test di contingenza il valore del χ2 sarebbe di 0.623 che, per 2 gradi di libertà, non è
statisticamente significativo. Si concluderebbe quindi che tra le due terapie non vi sono
differenze se non quelle imputabili al caso ed al campionamento.
Esaminando in dettaglio i tempi nei quali sono avvenuti gli eventi potremmo renderci conto
che il test di Mann Witney sarebbe significativo perchè:
• 5 persone con la terapia A sono guariti rispettivamente dopo 3, 5, 6, 9 e 18 giorni
• 8 persone con la terapia B sono guariti rispettivamente dopo 1, 1, 1, 2, 2, 2 e 5 giorni,
quindi molto più in fretta.
Questo dato è importante sia per i pazienti che per i medici e il servizio sanitario nazionale
• 7 persone con la terapia A sono decedute rispettivamente dopo 5, 8, 25, 33, 40, 42 e 95
giorni
• 8 persone con la terapia B sono deceduti rispettivamente dopo 1, 2, 3, 4, 6,7, 9 e 10
giorni, quindi molto prima ed anche questo non è un dato poco importante
Le due terapie appaiono diverse sia per la velocità di azione della terapia B nei guariti che
per i più lunghi tempi di sopravvivenza nei deceduti trattati con terapia A… Altre differenze si
rilevano nel considerare i momenti nei quali avviene il drop out, più precoci per il farmaco B,
anche se non in modo statisticamente significativo.
L’analisi di sopravvivenza permette di esaminare contemporaneamente tutti e tre
questi aspetti (cioè il fenomeno nella sua globalità).
Il grafico sotto riportato illustra in modo molto intuitivo quanto sopra esposto.
109
In questo caso il grafico stato disegnato indicando come “evento” la morte del paziente, il che
significa che il calcolo è stato fatto in funzione dei deceduti, indicati temporalmente nei punti in cui
le due spezzate (tratteggiata per il farmaco B e continua per il farmaco A) scendono di livello. I
triangolini invece indicano i pazienti dropped out nel momento in cui sono stati persi di vista.
Essendo maggiore l’area compresa tra gli assi cartesiani e la spezzata del farmaco A, rispetto a
quella compresa al di sotto della spezzata del farmaco B, si potrebbe dire già “a colpo d’occhio”
che il farmaco A garantisce una maggior sopravvivenza (questo anche se i deceduti sono soltanto
uno di meno, perché i decessi dei pazienti trattati con il farmaco A sono avvenuti dopo molti più
giorni rispetto a coloro che furono trattati con il farmaco B).
L’analisi, grazie ai software in commercio, puo’ esser condotta anche tenendo come “evento”
l’esser sfuggito all’osservazione. In tal caso si puo’ verificare statisticamente che i due rami
dello studio abbiano frequenze di dropping out similari sia per numero che per tempo di
accadimento.
L’impressione visiva è abbastanza chiarificatrice, ma il semplice grafico non sarebbe sufficiente per
dire se la differenza tra i due farmaci è o non è s.s.
Per stabilire questo occorre fare il calcolo della probabilità di sopravvivere nei diversi giorni
nei quali avvengono i decessi.
Si prenda per primo il farmaco A: nella tabella seguente sono indicati i pazienti con le lettere
dell’alfabeto (colonna 1), il giorno in cui sono deceduti o sono stati persi all’osservazione o sono
guariti (colonna 2),; le colonne seguenti indicano i soggetti vivi e presenti al momento in cui sono
avvenuti i decessi (colonna 4), e nel giorno precedente (colonna 5); nella colonna 6 viene indicato
il modo di fare il calcolo della probabilità di sopravvivere all’inizio dei vari giorni in cui si ha l’evento
(all’alba del 3° giorno vi sono 18 vivi e 18 soggetti presenti all’osservazione: sopravvivenza
=18/18=1 … al tramonto il paz. A, guarito, esce dallo studio. Nel 4° giorno sono quindi presenti 17
110
pazienti, durante la 5^ giornata il paziente B decede e al tramondo del 5° giorno i vivi sono 16.
Probabilità di sopravvivere al 5° giorno è quindi 16/17= 0,9412…).
Nelle colonne più a destra sono invece indicati il calcolo (colonna 7), e il risultato (colonna 8), della
probabilità di sopravvivere non in un certo giorno, ma di esser sopravvissuti dall’inizio dello studio
fino a quel giorno (probabilità cumulativa di sopravvivenza.
A
B
C
D
E
F
G
H
I
L
M
N
O
P
Q
R
S
T
3°
5°
5°
6°
6°
6°
8°
8°
9°
18°
18°
25°
28°
33°
40°
42°
67°
95°
3.Evento
GUARITO
DECEDUTO
GUARITO
DROP OUT
GUARITO
DROP OUT
DECEDUTO
DROP OUT
GUARITO
GUARITO
DROP OUT
DECEDUTO
DROP OUT
DECEDUTO
DECEDUTO
DECEDUTO
DROP OUT
DECEDUTO
18
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
18
17
16
16
14
13
12
11
10
9
8
7
6
5
4
3
2
1
1
16/17
7. Calcolo
0.9412
11/12
0.9167 0.9412
6/7
0.8571 0.8627
4/5
¾
2/3
0.8 0,7395
0.75 0,5916
0.6667 0,4437
0/1
0 0,2958
8. Probabilità
cumulativa di
sopravvivenza
2.
Giorno
evento
6. Probabilità
puntuale di
sopravvivenza
alle ore 0 del
giorno
dell’evento
5. Vivi e
presenti il
giorno
precedente
l’evento
4.Vivi e
presenti nel
giorno
dell’evento
1.
Pazienti
1
0.9412
0.9412
0.9412
0.9412
0.9412
0.8627
0.8627
0.8627
0.8627
0.8627
0.7395
0.7395
0.5916
0.4437
0.2958
0.2958
0
Se si preferisce leggere i valori in orizzontale,
sii consideri la riga A: al 3° giorno, nessun deceduto, però un paziente è uscito guarito dallo
studio:
• la sopravvivenza è ancora del 100%
• la numerosità è ridotta di una unità
Prendiamo la riga B: un paziente è deceduto al 5° giorno:
• la sopravvivenza cambia ed è non più del 100%=1, ma è pari al rapporto fra i 16 pazienti
vivi al 5 ° giorno e i 17 che erano vivi fino al 4° giorno (prima dell’evento)
• la numerosità è ridotta di una unità
Alla riga D, quando un paziente viene perso all’osservazione al 6° giorno, non vi è nessun calcolo
da fare, perché nessuno è deceduto e
• la sopravvivenza è invariata
• la numerosità è ridotta di una unità
Alla riga G, invece, un paziente decede all’8° giorno:
• la sopravvivenza cambia ed è non più del 94.12%. Nell’8° giorno e solo nell’8° giorno di
terapia la probabilità di sopravvivere è pari al rapporto 11 vivi /12 vivi fino al 7° giorno,
cioè 91.67%
• la probabilità di sopravvivere fino all’ottavo giorno, però, non è 91.67%. Infatti per
sopravvivere fino all’ottavo giorno bisogna esser sopravvissuti sia al 5° (sopravvivenza
istantanea del 94.12%) che all’8° giorno di terapia (sopravvivenza istantanea del 91.67%).
Occorre calcolare l’intersezione delle due probabilità nel solito modo per poter avere la
probabilità di esser sopravvissuti dall’inzio dell studio fino all’8° giorno.
111
•
la numerosità è ridotta di una unità
I valori di probabilità di sopravvivenza cumulata sono riportati sull’asse delle ordinate
del grafico precedente e sono le ordinate dei punti nei quali la spezzata scende, le
ascisse di tali punti corrispondono ai giorni nei quali sono accaduti gli eventi.
Per i drop out, i triangolini sono riportati in corrispondenza dei giorni nei quali è avvenuto il drop
out, mentre la sopravvivenza resta la medesima (infatti diverso è esser persi di vista dal morire!).
In modo del tutto analogo si procede per calcolare la sopravvivenza cumulativa del farmaco B.
Potrebbe esser un ottimo esercizio riempire le caselle qui sotto riportate ove i vari pazienti sono
indicati con le lettere dell’alfabeto greco.
Α
Β
Χ
Δ
Ε
Φ
Γ
Η
Ι
Λ
Μ
Ν
Ο
Π
Θ
Ρ
Σ
Τ
Υ
ς
Ζ
1°
1°
1°
1°
2°
2°
2°
2°
2°
2°
3°
3°
4°
4°
5°
6°
7°
9°
10°
32°
55°
3.Evento
7. Calcolo
8. Probabilità
cumulativa di
sopravvivenza
2.
Giorno
evento
6. Probabilità
puntuale di
sopravvivenza
alle ore 0 del
giorno
5. Vivi e
dell’evento
presenti il
giorno
precedente
l’evento
4.Vivi e
presenti nel
giorno
dell’evento
1.
Pazienti
DECEDUTO
GUARITO
GUARITO
GUARITO
DECEDUTO
DROP OUT
GUARITO
GUARITO
GUARITO
DROP OUT
DECEDUTO
GUARITO
DECEDUTO
DROP OUT
GUARITO
DECEDUTO
DECEDUTO
DECEDUTO
DECEDUTO
DROP OUT
DROP OUT
Per sintetizzare in modo numerico questi calcoli si ricorre di solito al confronto tra i tempi mediani
di sopravvivenza.
Il tempo mediano di sopravvivenza è il momento nel quale la probabilità di
sopravvivere diventa inferiore o uguale a 0,5 (analogamente alla mediana, che divide un
insieme di misure in due sottoinsiemi equivalenti: uno composto dalle misure maggiori e uno dalle
minori, qui si tratta del momento che divide il 50% delle morti più precoci dal 50% di quelle più
tardive!).
112
Si utilizza spesso il tempo mediano, non il tempo medio, perché raramente i tempi di
sopravvivenza hanno distribuzione normale.
Nel caso in esame:
• per la terapia A, tempo mediano di sopravvivenza = 40 giorni
• per la terapia B, tempo mediano di sopravvivenza = 7 giorni
Il sospetto che le due terapie differiscano è sempre più forte, ma come dirimerlo in
maniera definitiva?
Vi sono diversi test, uno dei più usati è il log-rank test, che ricorda molto sia i test dei
ranghi che il test di contingenza.
Si considerano i pazienti deceduti sia che assumessero il farmaco A, sia che
assumessero il farmaco B.
Per costoro si calcola la probabilità di sopravvivere puntuale e quella cumulativa in
modo del tutto analogo a quanto visto in precedenza, però in questo caso i pazienti dei due
diversi gruppi sono considerati tutti quanti insieme (come se fosse del tutto irrilevante aver
subito un trattamento invece di un altro):
Giorno
decessi
Vivi e presenti
nel giorno
dell’evento
B
B
B
B
A
B
B
A
B
B
A
A
A
A
A
1°
2°
3°
4°
5°
6°
7°
8°
9°
10°
25°
33°
40°
42°
95°
36
30
27
24
21
17
16
14
12
11
8
5
4
3
0
Guariti o
dropped out
nei giorni
precedenti
Pazienti
deceduti
con
terapia
AoB
15/39
3G
3G
2G
2DO
1DO
2G
1G
2DO
1DO
1G
1G
1DO
2DO
2DO
Probabilità di
sopravvivenza
puntuale o
istantanea
CALCOLO
Probabilità di
sopravvivenza
cumulativa
35/36
29/30
26/27
24/25
21/22
17/18
16/17
14/15
12/13
11/12
8/9
5/6
4/5
¾
0/1
0.972
0.967 0.972
0.963 0.940
0.960 0.905
0.867 0.869
0.944 0.829
0.941 0.783
0.933 0.737
0.923 0.688
0.916 0.635
0.880 0.582
0.830 0.517
0.800 0.431
0.750 0.345
0.000 0.259
0.972
0.940
0.905
0.869
0.829
0.783
0.737
0.688
0.635
0.582
0.517
0.431
0.345
0.259
0
Si considerano soltanto i pazienti in terapia A ed applicando le probabilità
cumulative di sopravvivenza sopra scritte, si verifica la differenza tra i valori di
soggetti sopravvissuti realmente e i soggetti che ci si attendeva potessero
sopravvivere nei vari giorni nei quali sono avvenuti i decessi in base a tale
probabilità cumulativa precedentemente calcolata.
Quest’ultimo valore si ottiene moltiplicando la probabilità cumulativa di sopravvivenza per il
numero di soggetti presenti e vivi il giorno precedente nel gruppo trattato con una terapia
(in questo caso si è usata per il calcolo la terapia A).
113
Giorno
decessi
1°
2°
3°
4°
5°
6°
7°
8°
9°
10°
25°
33°
40°
42°
95°
Vivi e
presenti nel
Probabilità di
giorno
sopravvivenza
precedente
cumulativa
l’evento nel
gruppo A
0.972
18
0.940
18
0.905
18
0.869
17
0.829
17
0.783
15
0.737
12
0.688
12
0.635
10
0.582
9
0.517
7
0.431
5
0.345
4
0.259
3
0
1
Vivi e presenti Vivi e presenti
DIFFERENZA
OSSERVATI
ATTESI
tra le due
nel giorno
nel giorno
colonne
dell’evento
dell’evento
precedenti
nel gruppo A
nel gruppo A
CALCOLO
TEORICO
18
18
18
17
17
15
12
12
10
9
7
5
4
3
0.972=17.5
0.940=17.0
0.905=16.2
0.869=15.0
0.829=14.0
0.783=11.7
0.737=8.8
0.688=8.3
0.635=6.4
0.582=5.2
0.517=3.6
0.431=2.2
0.345=1.4
0.259=0.8
0 1 =0
18
18
17
17
15
12
12
10
9
9
6
4
3
2
0
17,5
17
16,2
15
14
11,7
8,8
8,3
6,4
5,2
3,6
2,2
1,4
0,8
0
0.5
1
0.8
2
1
0.3
3.2
1.7
2.6
3.8
2.4
1.8
1.6
1.2
0
19.26
Sommando tutte le differenze tra i morti attesi e quelli effettivamente verificatisi
nel gruppo in terapia A si ottiene un valore
Ovviamente, se
.
fosse uguale a 0, vorrebbe dire che il trattamento A o il trattamento B sono
assolutamente analoghi tra loro. Quanto più grande è tale somma
, tanto più si è
giustificati nel supporre che vi sia differenza tra i trattamenti.
Per decidere se tale differenza sia statisticamente significativa, questo valore viene standardizzato
su una deviazione standard. In pratica è necessario conoscere la numerosità del gruppo A, del
gruppo B e il numero di deceduti totale nei diversi tempi nei quali accadono gli eventi.
La formula sarebbe francamente un po’ complessa da spiegare intuitivamente:
•
dove
sono i soggetti presenti nel gruppo A al momento i-esimo
•
dove
•
dove
sono i soggetti deceduti in totale al momento i-esimo
•
dove
sono i soggetti presenti in totale al momento i-esimo
sono i soggetti presenti nel gruppo B al momento i-esimo
i valori
di tutti gli i-esimi momenti dei decessi (dal 1° al 95°
giorno) vengono fra loro sommati e di tale somma si fa la radice quadrata.
Infine si standardizza la somma
:
114
E, secondo le solite regole dei valori notevoli della normale standardizzata, il test è significativo
quando z<-1.96 o quando z>+1.96
Questo tipo di statistica, ben più complesso delle prime che si sono esaminate in
questo volume, unendo il concetto di “evento” a quello di “tempo di occorrenza”
rispecchia però più fedelmente la realtà e la complessità del fenomeno delle azioni
terapeutiche.
È evidente come questa statistica, di più recente introduzione, abbia risentito delle esperienze di
precedenti collaborazioni tra medici e statistici sotto vari aspetti.
• Categorizzazione delle variabili
• Considerazione di tutte le variabili influenti sull’andamento di un fenomeno
• Valutazione contemporanea di tutte le variabili per evitare l’inflazione dell’errore di prima
specie
• Standardizzazione dei tassi per categorie
• Differenze tra valori attesi e valori osservati come nelle tavole di contingenza.
Questo test, unitamente ad altri ancora più complessi, risponde in modo più “flessibile” alle
esigenze della medicina e della clinica e sicuramente se continuerà un dialogo costruttivo tra le
due discipline, esse potranno esser di valido aiuto l’una all’altra nel fine comune del progresso
scientifico.
Ogni curva di sopravvivenza secondo Kaplan Meier:
Dovrebbe più correttamente esser disegnata con i vari limiti di confidenza:
115
E per raggiungere la significatività è necessario solitamente che non solo le due
spezzate principali non si sovrappongano più di tanto, ma neppure i rispettivi limiti di
confidenza!
116
Hazard rate
Le complicazioni non sono per nulla finite: dalle analisi di sopravvivenza scaturisce il concetto di
Hazard rate.
Si ricorderà:
 RR= rischio relativo è il rapporto fra il rischio in una popolazione esposta (o
trattata in un certo modo) e una non esposta (o trattata in modo diverso)
 OR= odd ratio è il rapporto fra l’odd in una popolazione esposta (o trattata in un
certo modo) e una non esposta (o trattata in modo diverso)
Hr= Hazard rate è il rapporto tra i deceduti e la somma dei periodi di osservazione ed è
un metodo per calcolare una sorta di rischio medio di evento nell’unità di tempo. Si
parla di evento perché oltre che i decessi si potrebbero considerare le guarigioni dopo una certa
terapia (gli “eventi” posson sempre essere positivi o negativi).
Per comprendere meglio il concetto si consideri uno studio di sopravvivenza al tumore del colonretto in 24 pazienti: con le palline sono indicati i decessi, mentre le linee tratteggiate indicano il
tempo in mesi durante il quale i pazienti sono stati seguiti. Le linee tratteggiate senza il pallino in
fondo indicano i soggetti dropped out.
In tutto sono deceduti 12 pazienti. Il tempo di osservazione (pazienti-mese) è stato.
 Per i dropped out (o censored):
 Per deceduti (o eventi):
Nel nostro caso
, che significa che in media il rischio di
morte è del 2,78% ogni mese. Questo dato è sintetico, ma non particolarmente rispettoso della
realtà. Se si osserva il grafico sovrastante appare evidente che la mortalità non è per nulla
117
equidistribuita nei vari mesi: si concentra entro l’anno e poi si hanno soltanto 4 decessi nei 2 anni
e 6 mesi successivi!
Il limite dell’hazard rate è che si presuppone che il tasso di occorrenza degli eventi sia
costante.
118
Regressione di Cox applicata alle analisi di sopravvivenza e l’Hazard Ratio
Quanto più raffinati sono i test statistici che si utilizzano, tanto più affrontano e risolvono le
problematiche tipiche della medicina. La regressione di Cox si pone questo problema: dato che un
trattamento si dimostri migliore di un altro ad un’analisi di sopravvivenza, come esser certi che il
migliore risultato non sia imputabile ancor più che al trattamento a determinati fattori concomitanti
(si sa che una persona puo’ guarire più in fretta e con maggior probabilità non soltanto perché
assume un farmaco differente, ma anche perché è più giovane, perché è femmina e non maschio,
perché ha un sistema immunitario diverso, perché non ha una sindrome metabolica….)?
Comprendere l’influenza di questi co-fattori nei risultati delle terapie (oppure della esposizione a
fattori di rischio) è di estrema importanza pratica, perché consente di formulare poi delle norme di
comportamento che possono agevolare l’azione dei farmaci (oppure ridurre l’effetto patogeno di
certi fattori di rischio).
La regressione di Cox applicata alle analisi di sopravvivenza risponde alle seguenti
domande:
 Oltre ad un
diverso trattamento quali fattori concomitano a favorire la
sopravvivenza?
 Oltre ad una diversa esposizione (operaio addetto agli altiforni oppure
impiegato di banca con aria condizionata) quali fattori concomitano a ridurre il
rischio di incorrere in una sincope da calore?
Il concetto di base del test è che in ogni istante la probabilità di sopravvivere di un
individuo è data dalla probabilità calcolata con l’Hazard rate variamente influenzata da
altri fattori (si puo’ ipotizzare che l’età avanzata riduca un poco la probabilità di sopravvivenza,
mentre ad esempio una buona condizione immunitaria la migliori). Questa probabilità basale
indicata come H basale puo’ quindi coesistere (intersezione di eventi indipendenti tra loro) con la
particolare condizione metabolica, anagrafica…con l’individualità del paziente.
La formula che sintetizza quando detto puo’ esser scritta:
Con alcuni semplici artifici matematici si puo’ scrivere:
è l’Hazard Ratio tra una condizione basale (nessun fattore di rischio) e la
particolare, individuale condizione di un certo paziente che avrà una certa età, una certa
situazione immunitaria ecc.
119
I coefficienti di questa regressione di Cox indicheranno l’influenza maggiore o minore dei vari
fattori di rischio considerati (in modo analogo alla regressione logistica).
Quandio l’Hr (hazard rate) viene calcolato con il metodo di Cox lo si chiama HR
(hazard ratio).
HR non è qualcosa di analogo al RR o OR perché non si tratta semplicemente di fare un
rapporto di Hr fra gli esposti e non esposti ma bensì di valutare in un’ analisi di sopravvivenza
l’effetto di uno o più parametri sul rischi di insorgenza di un evento (generalmente, ma non
solamente, patologico)
In modo del tutto analogo al RR e all’OR, però, anche HR prevede dei limiti di
confidenza che devono esser entrambe superiori o inferiori all’unità perché sia
garantita la significatività statistica.




Tali limiti vengono calcolati in modo un po’ complicato.
Analogamente a quanto fatto per il log rank
si uniscono tutti i soggetti siano essi trattati con A o con B,
si calcolano le proababilità di sopravvivenza cumulativa nel pool dei dati.
Si applicano tali probabilità attese sotto ipotesi nulla ai soggetti
- vivi trattati con A nel tempo in cui avvengono i vari eventi e si ottengono così i vivi
attesi (che sono verosimilmente diversi dai vivi osservati nel medesimo istante)
- vivi trattati con A nel tempo in cui avvengono i vari eventi e si ottengono così i vivi
attesi (che sono verosimilmente diversi dai vivi osservati nel medesimo istante)
Si considera che l’errore standard del logaritmo in base naturale dell’HR sia
Ove
è il numero di soggetti espected (attesi nel gruppo A)
è il numero di soggetti espected (attesi nel gruppo B)

Pertanto i limiti di confidenza diventano:
- limite inferiore=
- limite superiore=
In modo del tutto analogo a quanto accade con RR e OR, anche in questo caso:
 Limiti di confidenza al 95% dell’HR entrambe >1 indica che un trattamento (o
un’esposizione) comporta un maggior rischio rispetto a un altro
 Limiti di confidenza al 95% dell’HR entrambe <1 indica che un trattamento (o
un’esposizione) è più protettivo
 HR =1 oppure limiti di confidenza al 95% dell’HR uno superiore e uno inferiore
a 1 indica che i due trattamento non sono diversi in modo statisticamente
significativo.
Questo tipo di statistica ha il vantaggio di poter calcolare anche la variazione di rischio
che si verifica in funzione dell’aumento (o diminuzione) del parametro considerato
tenendo presenti i valori degli altri parametri
Ad esempio, in un campione statisticamente significativo, si è valutato l’incremento di rischio
cardiovascolare in funzione di un aumento di 10 mm: Hg di sistolica o di diastolica, isolatamente
considerate. Come si vede dalla tabella seguente, esso risulta essere, in media, rispettivamente del
16% (1,16-1=0,16) e del 14% (1,14-1=0,14).
Considerando invece l’incremento di rischio cardiovascolare in funzione di un aumento di 10 mm:
Hg di sistolica o di diastolica, ma considerate insieme, esso risulta essere, in media,
rispettivamente del 22% (1,22-1=0,22) per la sistolica, mentre un incremento di diastolica
120
apparirebbe addirittura protettivo, perché riduce il rischio del 14% (0,86-1=-0,14), benché in
modo non statisticamente significativo!
Non è quindi per nulla indifferente fare i calcoli con o senza Cox !
Singoli componenti
pressione sanguigna
Componenti di pressione
sanguigna considerati
insieme (Cox)
di
Coefficiente β
HR / 10 mm. Hg (C.I.)
Valore di p
Sistolica
Diastolica
0,15
0,13
1,16 (1,11-1,21)
1,14 (1,03-1,26)
<0,001
<0,05
Sistolica
0,20
1,22 (1,15-1,30)
<0,001
Diastolica
-0,15
0,86 (0,75-1)
n.s.
121
RIASSUMENDO
Tutti questi strumenti:
• regressione lineare semplice e multipla
• regressione logistica
• funzione di Cox
concorrono nello studiare i fattori di rischio della salute umana. Generalmente si seguono questi
step:
1°) individuazione delle correlazioni lineari (direttamente o inversamente proporzionali) tra
variabili, come ad esempio colesterolo e ipertensione.
Tenendo presente che nessun essere umano puo’ esser definito da due sole variabili ma che anzi
in genere le malattie hanno una genesi multifattoriale, ci si rende conto che sulle due variabili
inizialmente considerate possono influire altre concomitanti condizioni (n° di sigarette fumate/die,
alimentazione, genere…) che agirebbero come fattori confondenti se non si trovasse il modo di
considerarle opportunamente nel calcolo.
2°) impiego di regressione logistica, che consente di calcolare la probabilità di provocare
l’insorgenza di malattia per ogni singolo fattore di rischio corretto per tutti gli altri (e ne misura
anche il peso relativo)
è nozione comune che sia le persone con colesterolemia elevata che le normocolesterolemiche
possono avere una certa probabilità di incidenti cardiovascolari. Questo fatto sembrerebbe ridurre
l’importanza dei fattori di rischio (fumatori o non fumatori… tutti possono avere un infarto). È
possibile approfondire la ricerca inserendo il fattore “tempo di insorgenza”, così importante in
medicina.
3°) con la funzione di Cox si puo’ valutare se il tempo di insorgenza dell’evento patogeno è più
precoce nei soggetti con elevati fattori di rischio rispetto a coloro che tali fattori di rischio non
presentano affatto.
Soltanto in questo modo possono esser indagati a fondo in modo completo e corretto gli agenti
eziologici di tutte le malattie rappresentanti fattori di rischio per la salute e il benessere
dell’umanità…
È naturale che per misurare fenomeni complessi come la salute (o la malattia) dell’uomo non si
possano poi utilizzare strumenti così semplici!
122