probabilità condizionat - Digilander

PIANO NAZIONALE LAUREE SCIENTIFICHE
2009/2012
UNIVERSITÀ DEGLI STUDI DI TRIESTE
QUADERNO DEL PROGETTO:
PROBABILITÀ CONDIZIONATA
E
PRIME APPLICAZIONI IN AMBITO SANITARIO
LICEO GALILEO GALILEI - TRIESTE
A.S. 2011-2012
1
STUDENTI
CHE HANNO PARTECIPATO AL PROGETTO
ANNA LIPATOVA, ANNALISA SALLEMI,
LANDON BARNETT, MARTINA BERTOCCHI,
TOMMASO DE SANCTIS, EMILY LEPORATTI,
LAILA MAZZURCO, GIULIA MINCA,
ALEXANDRA AGATA NEGREA, MARIA PIAZZA,
ILARIA PUZZER, ANDREA QUARANTOTTO,
CATERINA ROMANO, RICCARDO SOAVE,
DAN SUMAN, FEDERICO TOMAZIC,
ALESSANDRO VARIOLA, MARTINA ZULLICH.
DOCENTE REFERENTE: MICHELA SANDRI
CON QUESTA ATTIVITÀ POF, ABBIAMO VOLUTO
CAPIRE COME LA MATEMATICA POSSA
SUPPORTARE ALCUNI AMBITI DELLA SCIENZA, IN
PARTICOLARE LA MEDICINA.
RIPORTIAMO QUI DI SEGUITO GLI APPUNTI DEL
PROGETTO RACCOLTI SUCCESSIVAMENTE ALLE
LEZIONI.
2
Giovedì 23/2/2012
Incontro iniziale con la Prof.ssa Sandri (Liceo Galileo Galilei)
La prof. ssa M. Sandri ci ha illustrato gli obiettivi del progetto. Si
sarebbe trattato di scoprire le basi della probabilità studiando e
commentando lo screening condotto tra il 1999 e il 2000 dall‟equipe
del Prof. Tarcisio Not (pediatra all‟Istituto Burlo Garofalo di Trieste).
Tale lavoro venne denominato „buono come il riso‟ perché la malattia
che venne osservata fu la celiachia (intolleranza permanente al
glutine). L‟indagine venne raccolta su un campione di 3188 bambini
triestini in età scolare.
Martedì 28/2/2012
Lavorando con il foglio elettronico.
Abbiamo imparato le basi della statistica descrittiva: misure di
dispersione e indici di variabilità. In particolare abbiamo costruito i
box-plot con il foglio elettronico.
Martedì 6/3/2012
Parlando con un matematico - Prof. Lucio Torelli ( matematico e
docente di Statistica medica all‟Università di Trieste)
La matematica, a tutti coloro che la studiano, appare come un‟insieme
di modelli teorici, spesso fantasiosi, che con il mondo reale ha a che
fare ben poco. Il professor Torelli, docente di Statistica all‟Università
di Trieste, è la prova che questa idea di matematica non è sempre
corretta. Infatti, da matematico, egli stesso ha lavorato in un ospedale.
Anche se inizialmente può sembrare strano, la matematica è molto
importante nel mondo della medicina, per esempio nel saper valutare
l‟accuratezza dei test di screening.
I test diagnostici sono estremamente utili nella medicina perché
possono fornire informazioni sull‟eventuale malattia di una persona.
Molti test diagnostici danno una risposta di tipo continuo e quindi
deve essere presa una decisione sul valore soglia (cut off) che indica
un risultato positivo del test. La scelta implica una variazione della
sensibilità del test a scapito della sua specificità (e viceversa).
I test sono fondamentali anche nello studio della diffusione delle
malattie nel mondo. Può risultare banale, ma il fatto che una malattia
sia più diffusa in una parte del mondo piuttosto che in un‟altra aiuta i
medici a capire qualche caratteristica in più di quella malattia.
Il prof. Torelli, saggiamente, raccomanda di non fidarsi ciecamente
delle statistiche. Infatti spiega come al giorno d‟oggi molte statistiche
non sono corrette o non vengono presentate in maniera corretta. Le
statistiche, infatti, infondono una certa sicurezza nella gente e possono
essere quindi un mezzo di manipolazione della realtà. Ad esempio,
3
nell‟AUDITEL, il mostrare alla popolazione che un programma
televisivo ha un alto numero di ascolti, può implicare un aumento
degli ascolti del medesimo programma, come una sorta di pubblicità.
Il prof. Torelli, inoltre, ci fa notare qualche caso di statistica erronea.
Non è raro, infatti, che qualche giornale pubblichi statistiche “fai-date”, come quella trovata in un articolo de “Il Piccolo” (10/9/2008),
dove tutti i calcoli pubblicati erano frutto di un errore di fondo non
poco grave.
Il professore, citando Mark Twain, ci lascia con la frase “ La statistica
è come un lampione. Possiamo usarla per fare luce, ma non come
l’ubriaco, che ci si appoggia. “ La statistica infatti è un ottimo
strumento per ragionare a riguardo di fenomeni scientifici,
demografici e sociali, ma non è la chiave per risolvere i problemi: non
tutto quello che esiste in natura può essere rappresentato con un
grafico e, come disse il fisico premio Nobel A. Einstein “Non tutto ciò
che può esser contato conta, e non tutto ciò che conta può esser
contato”.
Martedì 13/3/2012
Parlando con un medico ricercatore. Prof. Tarcisio Not – Ist. Burlo
Garofalo (Trieste)
Abbiamo incontrato il dott. Tarcisio Not, pediatra al Ist. Burlo
Garofalo di Trieste. Egli ci ha fornito i risultati di alcuni test
diagnostici sulla celiachia condotti dalla sua equipe tra il 1999 e il
2000 a Trieste su di un campione di 3188 bambini in età scolare. Tale
screening venne denominato ‘buono come il riso’ proprio perché la
malattia presa in considerazione fu la celiachia („intolleranza
permanente al glutine‟).
Oggi si sa che la celiachia è una malattia digestiva di origine genetica.
I celiaci reagiscono all‟introduzione di alimenti ricchi di glutine, un
termine utilizzato genericamente per indicare alcune proteine
specifiche del grano, dell‟orzo e di altri cereali, come la gliadina.
Queste proteine sono contenute nella pasta, nel pane, nei biscotti e
causano una risposta immunitaria abnorme a livello intestinale,
determinata dall‟incapacità di digerirle e assorbirle. La risposta
immunitaria genera una infiammazione cronica, danneggia i tessuti
dell‟intestino tenue e porta alla scomparsa dei villi intestinali,
importanti per l‟assorbimento di altri nutrienti.
Un celiaco quindi, oltre al danno diretto, subisce un consistente danno
indiretto perché non è in grado di assorbire sostanze nutritive e quindi
rischia la malnutrizione. Dato il meccanismo con cui si sviluppa, la
celiachia è quindi una malattia autoimmunitaria.
Se non è diagnosticata tempestivamente e trattata in modo adeguato,
la celiachia può avere conseguenze importanti, anche irreversibili.
La reazione autoimmune scatenata dalla gliadina produce gli anticorpi
t-TGA e t-TGG: anticorpi anti-transglutaminasi (la transglutaminasi
tissutale è una proteina presente in molti tessuti a cui si lega la
4
gliadina). E‟ proprio grazie alla presenza di questi anticorpi che un
medico viene a conoscenza della presenza della malattia.
Nello screening del dott. T.Not, ai piccoli partecipanti delle scuole
elementari venne prelevata una goccia di sangue dal dito della propria
mano; successivamente fu quantificato il livello dei sopracitati
anticorpi e a coloro che risultarono positivi a tali anticorpi venne
effettuata una biopsia (solo su consenso genitoriale).
Da tale screening derivò una conclusione molto significativa: la
prevalenza della celiachia risultò pari a 1:96 cioè circa dell‟1%. Per
questo motivo la celiachia è ad oggi una malattia sociale, non è più da
ritenersi una malattia rara.
Giovedì 15/3/2012 e Giovedì 29/3/2012
Parlando con un nutrizionista. Prof. Cervo (Liceo Galileo Galilei)
Due delle lezioni dedicate al laboratorio, le abbiamo trascorse
ascoltando l‟intervento del professor Cervo, biologo e nutrizionista, il
quale ci ha fatto riflettere sul nostro stile di vita alimentare. Egli ci ha
illustrato inoltre alcuni grafici e alcune statistiche riguardo i disordini
alimentari che si stanno espandendo a macchia d‟olio dall‟America
fino a tutto il mondo occidentale.
Abbiamo approfondito l‟argomento glicemia osservando come
l„indice glicemico varia durante l‟arco della giornata e di come può
causare uno stress. E parlando appunto di questo abbiamo introdotto il
concetto di cut off: valore soglia con il quale si cerca di dividere nel
modo migliore due differenti situazioni.
La regolazione della glicemia è un meccanismo a feedback negativo:
infatti, come possiamo vedere nel grafico seguente, l‟insulina entra in
funzione quando c‟è un picco di zuccheri in modo da abbassare
nuovamente la glicemia (cioè il livello di glucosio nel sangue).
5
Il cut off in questo caso divide i valori di glicemia normali (circa a 80)
da quelli iperglicemici e ipoglicemici.
Abbiamo anche visto come la liposuzione sia un‟operazione
“controproducente” poiché gli adipociti (cellule del grasso) secernono
l‟ormone leptina, il quale ha come organo bersaglio l‟ipotalamo e
dunque svolge un compito nella regolazione dell‟organismo.
Martedì 20/3/2012 e Martedì 27/3/2012
Parlando di probabilità con la Prof.ssa M. Sandri (Liceo Galileo
Galilei)
Come già spiegato, in questa attività di laboratorio abbiamo lavorato
con i dati del test di screening del dott. Not. Abbiamo studiato la sua
sensibilità, la specificità e valutato un possibile cut off da scegliere.
Per fare ciò abbiamo approfondito un aspetto della matematica che
può essere applicato alla medicina apprendendo alcune basi essenziali
sulla probabilità.
In quasi tutte le situazioni reali è presente in modo più o meno
evidente l‟incertezza, sia delle scelte che possiamo operare, sia degli
esiti che da ogni scelta possano scaturire.
Uno studioso di probabilità del XX secolo, il prof. Bruno de Finetti,
docente universitario alla facoltà di Scienze a Trieste dal 1946 al
1954, scriveva: “in tutti i campi del pensiero, nei rami più diversi
delle scienze, le spiegazioni apodittiche e deterministiche cedono il
passo alle spiegazioni statistiche e probabilistiche, la logica del certo
viene rimpiazzata dalla logica del probabile. Da ciò l’importanza
sempre crescente, il ruolo sempre più essenziale della teoria della
probabilità.”
Abbiamo imparato che ci sono più approcci al concetto di probabilità:
secondo la concezione classica, secondo quella frequentista ( a
posteriori ) e quella secondo la concezione soggettivista ( a priori )
così definita dal matematico Bruno de Finetti:
è il prezzo 𝒑 (𝟎 < 𝑝 < 1) che sono disposto a pagare in una
scommessa equa.
Abbiamo appreso alcune regole del calcolo delle probabilità e il
principio delle probabilità totali.
Ci è stato introdotto il concetto di probabilità condizionata e il
principio delle probabilità composte.
Abbiamo finalmente potuto affrontare il teorema di Bayes e capire
quanto sia indispensabile nell‟analisi dell‟efficienza dei test
diagnostici.
6
Riportiamo ora qualche appunto tratto dalle lezioni con la Prof.ssa
Sandri.
Il teorema di Bayes può essere pensato come un modo per
incrementare lo stato di conoscenza di un fenomeno in base alle nuove
informazioni. (Mendel applicò il teorema di Bayes ai suoi studi di
genetica.)
Dal teorema delle probabilità composte:
𝑃(𝐴 𝐵) = 𝑃 𝐴 𝐵 ∙ 𝑃 𝐵 = 𝑃(𝐵|𝐴) ∙ 𝑃(𝐴) →
TEOREMA DI BAYES:
𝑃 𝐴𝐵 =
𝑃(𝐵|𝐴) ∙ 𝑃 𝐴
𝑃(𝐵)
con 𝑃 𝐵 > 0
È noto che ogni test diagnostico, oltre a riconoscere i veri sani
(negativi al test) ed i veri malati (positivi al test) produce anche degli
errori, ovvero dei falsi positivi (soggetti sani che il test positivo
riconosce come malati) e dei falsi negativi (soggetti effettivamente
malati che il test negativo riconosce erroneamente come sani).
Ora 𝐴 = 𝑀+ malato ; 𝐵 = 𝑇+ test positivo
si chiama valore predittivo di un test positivo 𝑉𝑃+, la probabilità
che una persona con valore positivo del test abbia la malattia:
𝑃 𝑇+ 𝑀+ ∙ 𝑃(𝑀+)
𝑃 𝑀+ 𝑇+ =
𝑃(𝑇+)
 si chiama valore predittivo di un test negativo 𝑉𝑃−, la probabilità
che una persona con valore negativo del test non abbia la malattia:
𝑃 𝑇− 𝑀− ∙ 𝑃(𝑀−)
𝑃 𝑀− 𝑇− =
𝑃(𝑇−)
Risulta:
𝑉𝑃+ = P M+ T+ =
veri positivi
positivi
𝑉𝑃− = P M− T− =
veri negativi
negativi
7
Possiamo ora definire la sensibilità di un test come la capacità di un
test di riconoscere i soggetti malati come positivi al test, e la
specificità come la capacità di un test di riconoscere i soggetti sani
come negativi al test. Pertanto avremo che:


se un test ha un‟ottima sensibilità, allora sarà basso il rischio
di falsi negativi, cioè di soggetti che pur presentando valori
normali sono comunque affetti dalla condizione che si sta
cercando;
se un test ha un‟ottima specificità, allora sarà basso il rischio
di falsi positivi, cioè di soggetti che pur presentando valori
anormali non sono affetti dalla patologia.
Chiariamo ancora il concetto:
ALTA SENSIBILITA’ = alta probabilità che un soggetto malato
risulti positivo al test;
= bassa probabilità che un soggetto malato
risulti negativo al test.
ALTA SPECIFICITA’ = alta probabilità che un soggetto sano
risulti negativo al test;
= bassa probabilità che un soggetto sano
risulti positivo al test.
Abbiamo pertanto che:
𝐒𝐞𝐧𝐬 = P T+ M+ =
veri positivi
malati
𝐒𝐩𝐞𝐜 = P T− M− =
veri negativi
sani
In questo modo, per ogni test si potrà ottenere una tabella a due vie
che riassume la situazione nel modo seguente
𝑇+
𝑇−
Totale
𝑀+
VERI POSITIVI
FALSI NEGATIVI
MALATI
𝑀−
FALSI POSITIVI
Totale
POSITIVI
VERI NEGATIVI
SANI
NEGATIVI
8
mentre la prevalenza della malattia per la cui diagnosi viene effettuato
il test è ovviamente data dal rapporto:
PREVALENZA =
MALATI
POPOLAZIONE
Osserviamo che nel teorema di Bayes si ha:
sensibilità:
𝑉𝑃+ :
prob a posteriori
l‟effetto data la causa
prevalenza:
probab. a priori
𝑃 𝑀+ 𝑇+ =
𝑃 𝑇+ 𝑀+ ∙ 𝑃(𝑀+)
𝑃(𝑇+)
Se interpretiamo i risultati, la prevalenza della malattia risulta essere
la probabilità a priori, cioè la probabilità di essere malato prima di
eseguire il test.
Mentre il valore predittivo del test positivo è la probabilità a
posteriori, dopo avere eseguito il test.
La differenza tra le due è il valore aggiunto in termini di informazione
che il test fornisce alla diagnosi.
QUALE TEST CONVIENE UTILIZZARE?
La sensibilità di un test dice qual è la probabilità che un malato risulti
positivo al test, quindi con un test molto sensibile si avrà una piccola
frazione di falsi negativi; la specificità fornisce invece la probabilità
che un soggetto sano risulti negativo al test, e quindi un test con
specificità elevata avrà una frazione piccola di falsi positivi: in
generale, il test diagnostico migliore sarà quello a maggiore sensibilità
e specificità.
Il problema sorge quando, per la stessa malattia, esistono due
differenti test diagnostici, uno con elevata sensibilità e bassa
specificità, e l‟altro con elevata specificità e bassa sensibilità.
La scelta del test ottimale, in questo caso, non dipende solamente dai
valori numerici che assumono la sensibilità e la specificità, ma da una
serie di valutazioni che devono prendere in considerazione anche il
tipo di malattia e la sua prevalenza.
Ad esempio, per quanto possa essere accurato, un test avrà valore
predittivo molto basso quando la prevalenza della malattia è molto
bassa (indipendentemente da sensibilità e specificità). Ad ogni modo il
suo valore predittivo negativo sarà alto, pertanto i soggetti negativi al
test potranno - con relativa tranquillità - evitare di condurre ulteriori
indagini mediche.
9
Riportiamo alcuni nostri calcoli effettuati sullo screening:
valore di cut off scelto: 0,16
t-TG A
T+
T-
M+
38
2
40
M-
33
3113
3146
3115
95,00%
98,95%
3186
71
Sensibilità t-TGA
Specificità t-TGA
Valore
predittivo+
Valore predittivo Prevalenza
53,52%
99,94%
1,26%
Valore di cut off scelto : 0,42
t-TG G
T+
T-
M+
22
18
40
M-
23
3123
3146
3141
55,00%
99,27%
3186
45
Sensibilità t-TGB
Specificità t-TGB
Valore
predittivivo+
Valore predittivo -
48,89%
99,43%
Dopo aver notato che la sensibilità del test diagnostico che prendeva
in considerazione t-TG G era piuttosto bassa, il nostro compito era
trovare un nuovo cut off per ottenere una sensibilità più elevata.
Abbiamo provato e riprovato e trovato che con il valore di cut-off
0,33 per il t-TG G la sensibilità del test aumentava non a eccessivo
scapito della sua specificità:
Sensibilità t-TGG
Specificità t-TGG
FPR
Valore predittivivo+
62,50%
97,30%
0,03
22,73%
10
Valore predittivo Prevalenza
Accuratezza
99,51%
1,25%
96,86%
La curva ROC
Abbiamo imparato anche l‟importanza in questo ambito di lavoro
delle curve ROC. Esse sono delle curve in base alle quali si è in grado
di determinare un valore del cut-off. Fissata in ascissa 1-specificità e
in ordinata la sensibilità si calcola l‟area A del sottografico: maggiore
è l‟area, migliore può essere considerato il test.
Il test ottimale è quello relativo al punto di coordinate (0; 1), pertanto
andremo a scegliere quei cut off che generano punti „vicini‟ a tale
punto ottimale.
In classe mediante il programma Excel abbiamo cercato di costruire
una curva in base ai dati ottenuti, (relativi al tTGG):
sensibilità
CURVA ROC
120
100
80
60
40
20
0
-20 0
20
40
60
80
100
120
1-specificità
Si può notare come l‟area sottesa sia „abbastanza estesa‟, pertanto il
test può ritenersi buono.
11
Nel seguente grafico (scatter - plot) abbiamo messo in relazione i
valori del t-TG A con i valori del t-TG G .
1,60
1,40
1,20
t-TG G
1,00
0,80
0,60
0,40
0,20
0,00
0,00
0,50
1,00
1,50
2,00
t-TG A
Si può osservare come per valori bassi di t-TG A i valori di t- TG G
sono molto variabili e quindi possiamo dire (forse) che se t-TG A è
basso non sappiamo bene cosa ne sia di t-TG G, mentre se t-TG A è
alto anche t-TG G sembra essere alto (quindi abbiamo notato una certa
correlazione in tal senso).
PER CHIUDERE, VI INVITIAMO A LEGGERE LA
POESIA DI TRILUSSA :
LA STATISTICA
Sai ched'è la statistica? È na' cosa
che serve pe fà un conto in generale
de la gente che nasce, che sta male,
che more, che va in carcere e che spósa.
Ma pè me la statistica curiosa
è dove c'entra la percentuale,
pè via che, lì,la media è sempre eguale
puro co' la persona bisognosa.
Me spiego: da li conti che se fanno
seconno le statistiche d'adesso
risurta che te tocca un pollo all'anno:
e, se nun entra nelle spese tue,
t'entra ne la statistica lo stesso
perch'è c'è un antro che ne magna due.
12
BIBLIOGRAFIA

Mass Screening For Coeliac Disease Using Antihuman
Transglutaminase Antibody Assay
Arch Dis Child 2004;89:512–515.
doi: 10.1136/adc.2003.029603
A. Tommasini, T. Not, V. Kiren, V. Baldas, D. Santon, C.
Trevisiol, I. Berti, E. Neri, T. Gerarduzzi, I. Bruno, A
Lenhardt, E Zamuner, A Spano`, S Crovella, S Martellossi, G.
Torre, D. Sblattero, R. Marzari, A. Bradbury, G. Tamburlini,
A. Ventura

La Statistica Bayesiana In Medicina. Parte I: Gli Strumenti Di
Base
Giornale Italiano Di Nefrologia / Anno 25 N. 3, 2008 / Pp.
342-346
M. Nichelatti, C. Montomoli

La Statistica Bayesiana In Medicina - Parte Ii: Le Principali
Applicazioni E L’inferenza 1
Giornale Italiano Di Nefrologia / Anno 25 N. 4, 2008 / Pp.
422-431
C. Montomoli, M. Nichelatti
13