APPLICAZIONI DI
INTELLIGENZA
ARTIFICIALE ALLA
MEDICINA
4
IDENTIFICAZIONE DI TUMORI
POLMONARI BASATA SU ENSEMBLE DI
RETI NEURALI
• Chiave della cura del tumore polmonare è la
diagnosi precoce. La diagnosi automatica diventa
quindi sempre più importante.
• Diversi esempi di reti neurali sono stati sviluppati a
questo scopo.
• Descriviamo qui la Neural Ensemble-based
Detection (NED).
• Utilizza le immagini di agobiopsie.
•
ENSEMBLE DI RETI NEURALI
• Hansen e Salamon (1990) hanno dimostrato le ottime
prestazioni di ensemble di ANN, ossia di varie reti le cui
predizioni vengono combinate.
• Applicazione al riconoscimento di caratteri con 20-25% di
prestazioni in più rispetto ad una singola rete.
• E’ necessario un metodo sia per generare diverse reti da
addestrare, sia per combinare diverse predizioni.
• Diversi metodi sono stati proposti, dalla combinazione per
semplice media all’uso della varianza e della correlazione.
•
ENSEMBLE DI RETI NEURALI
• Ensemble di ANN sono state usate per:
….
riconoscimento di caratteri
riconoscimento di volti
classificazione di segnali sismici
diagnosi di tumore della mammella
ENSEMBLE DI RETI NEURALI
NED
• NED segue il metodo di diagnosi LCDS , che si
abbina alla lastra del torace quando ci sono dei
dubbi.
• Una telecamera riprende le immagini
dell’agobiopsia, poi un sistema di filtri migliora
l’immagine.
• Tecniche colorimetriche e morfologiche estraggono
diverse features: perimetro, area, rotondità,
componenti rossa,verde, blu, proporzioni fra i colori.
• Un modulo a parte analizza le features e dà la
diagnosi e il tipo di cellula.
ENSEMBLE DI RETI NEURALI
NED
• Il data set comprende 552 immagini di biopsie già
etichettate
• 75% tumori
• Il set è stato diviso in 5 gruppi omogenei
• Ogni esperimento è stato ripetuto 5 volte, con 4 set
per il training e 1 per il testing.
• All’inizio fu usata una sola rete usando FANNC
• FANNC è un classificatore adattivo veloce (Fast
Adaptive NN Classifier).
ENSEMBLE DI RETI NEURALI NED
• Ai risultati dei 5 esperimenti è stata aggiunta la loro
media.
• Sono stati valutati:
• errore = false identificazioni/numero di immagini
• errorefn = numero di falsi negativi/numero cellule
test
• errorefp = numero di falsi positivi/numero di cellule
test.
• I risultati erano insoddisfacenti (accuratezza <60%)
ENSEMBLE DI RETI NEURALI
NED
• Sono stati provati due tipi di ensemble:
1) combinazione delle predizioni via plurality voting :
• Se ad es. due reti predicono NORMALE e due
ADENOCARCINOMA, l’identificazione è data sbagliata.
• Se la cellula è tumorale vengono accresciute di uno sia gli
errori che i falsi negativi.
• Se la cellula è normale vengono accresciuti di uno sia gli erroi
che i falsi positivi.
• In questo modo i risultati migliorano molto rispetto alla singola
rete
• Gli errori vengono dimezzati
• Ma i falsi negativi sono ancora il 7.3%
ENSEMBLE DI RETI NEURALI
NED
2) Viene fatta una variazione della proposta di Sharkey
( due ensemble di cui uno con un set di esempi con
prevalenza di reperti positivi ) per abbassare i falsi
positivi:
• Vengono addestrati 5 ensemble, ciascuno con 5 reti
ciascuna con esempi positivi nel 75% dei casi.
• Poi gli output dei 5 ensemble vengono combinati in
modalità winner-take-all.
• In questo modo scende l’errore globale a 13.6% e
scende l’errorefp fino a 2.9%.
ENSEMBLE DI RETI NEURALI NED
• Per abbassare i falsi negativi viene proposta NED, architettura
ensemble a due livelli.
• Il primo livello giudica se una cellula è cancerosa
• Viene utilizzata la tecnica di predizione combinata full voting:
una predizione è data per valida quando tutte le reti individuali
la convalidano.
• Questo avviene anche fra clinici per decidere se un paziente è
sano.
• E’ utile quando ci sono solo due scelte e uno è molto più
importante dell’altra.
ENSEMBLE DI RETI NEURALI
• Per usare full voting le classi di output vengono ridotte a due:
75% cellule cancerose / 25% cellule sane.
• Le cellule giudicate sane dal primo ensemble vengono passate
al secondo ensemble per la classificazione.
• Nel secondo si usa il plurality voting come descritto.
• I risultati sono un miglioramento netto di tutti gli errori:
Errore 11.6 %
Errorefn 2.7%
Errorefp 4.5%
• Si pensa di migliorare il sistema utilizzando visulaizzazioni 3D.
UN METODO DI RICERCA DI
EPISODI ISCHEMICI BASATO SU
RETI NEURALI
• L’ischemia del miocardio è una fornitura di sangue insufficiente
al muscolo cardiaco.
• Lo ECG presente in questo caso delle alterazioni (deviazione
del segmento ST e/o dell’onda T).
• La diagnosi di ischemia via ECG rileva il battito ischemico e
l’episodio ischemico come sequenza di battiti ischemici.
• Sono stati proposti sistemi basati su regole, ANN, fuzzy logic,
varie tecniche di analisi dei segnali.
• Poiché il rumore nell’ECG è una presenza importante, le ANN
possono essere lo strumento adeguato.
UN METODO DI RICERCA DI
EPISODI ISCHEMICI BASATO SU
RETI NEURALI
• La procedura proposta parte con un preprocessing dell’ECG
eliminando rumore, interferenze elettriche e contaminazione
elettromiografica.
• Un algoritmo di edge detection trova il punto J di inizio del ciclo
cardiaco.
• A valle una rete neurale viene addestrata per classificare ogni
battito cardiaco.
• Si cercano intervalli di circa 30s in cui almeno il 75% dei battiti
sono ischemici.
• La percentuale 74 offre flessibilità nel caso di presenza di
rumore.
UN METODO DI RICERCA DI
EPISODI ISCHEMICI BASATO SU
RETI NEURALI
• Per la classificazione dei battiti viene usata una rete feed-forward:
- 4 unità di input
- 10 unità nascoste 1 unità di output.
• I pattern di input durano 400ms a partire da ogni punto J
• comprendono sia tratto ST che onda T.
• Per ridurre la dimensionalità dell’input viene usata l’analisi delle
componenti principali:
• Elimina le componenti che danno la minor varianza al training
set.
• Vengono utilizzate le prime 4 componenti principali, che
contengono il 95% della varianza.
UN METODO DI RICERCA DI
EPISODI ISCHEMICI BASATO SU
RETI NEURALI
• La rete viene addestrata secondo la tecnica di regolarizzazione
Bayesiana, che minimizza
•
• E = a1 S (ti – oi)2 + a2 S wi2
•
• dove ti sono gli output desiderati, oi gli output durante il training,
wi i pesi.
• I pesi vengono aggiornati secondo la legge
•
• wi+1 = wi – [JT J + mI]-1 JT
•
• dove J è lo Jacobiano, I la matrice unitaria, e il vettore degli
errori e m un parametro scalare.
UN METODO DI RICERCA DI
EPISODI ISCHEMICI BASATO SU
RETI NEURALI
• Per costruire il dataset sono state utilizzate 11 ore di
registrazioni ECG.
• 86.384 battito sono stati classificati come normali,
ischemici o artefatti. Gli artefatti sono stati eliminati,
e sono rimasti 76.989 battiti.
• Di questi 1936 sono stati usati per il learning e il
resto per il testing.
• Sono stati provati diversi strati hidden e diverse
tecniche di apprendimento..
UN METODO DI RICERCA DI
EPISODI ISCHEMICI BASATO SU
RETI NEURALI
• Le prestazioni delle reti così ottenute sono state
valutate usando sensibilità (se) e specificità (sp).
• Sensibilità è la probabilità che un battito anomalo
risulti positivo al test
• Specificità è la probabilità che un battito sano risulti
negativo al test
• La rete con le migliori prestazioni è stata usata come
classificatore nel secondo stadio dell’algoritmo,
sostituendo il sistema di regole.
UN METODO DI RICERCA DI
EPISODI ISCHEMICI BASATO SU
RETI NEURALI
• Le migliori prestazioni risultano quelle con metodo Bayesiano
con 10 nodi hidden.
• Il risultato è Se=90%, Sp=90% (backpropagation 89 e 88%)
contro Se=70% e Sp=63% del sistema di regole.
• Le prestazioni possono essere perfezionate da:
•
miglioramento della tecnica di edge detection per J o per T
•
miglioramento delle tecniche di filtraggio del rumore.
• Svantaggio del metodo è che non fornisce alcuna
interpretazione dell’output, utile al cardiologo.
DUE TECNICHE DI RULE EXTRACTION
APPLICATE A DISTURBI EPATOBILIARI
• Gli algoritmi di estrazione di regole da reti
neurali danno modo di capire la
classificazione ottenuta in output.
• Le regole possono essere verificate da un
esperto
• Le regole possono dare nuove informazioni
sui dati
• Sono utili per il clinico che utilizza la rete
• Sono utili a scopo didattico.
DUE TECNICHE DI RULE EXTRACTION
• Sono stati utilizzati i due algoritmi, NeuroLinear e NeuroRule,
che hanno in comune i seguenti punti:
- Addestrano e semplificano (pruning) reti con un unico strato
nascosto
Raggruppano i valori di attivazione dello strato nascosto
Generano regole che esplicano l’output della rete
Generano regole che esplicano i raggruppamenti di
attivazione in funzione degli input
Compongono i set di regole sopra esposti in un set di regole
esplicative dei dati di input.
DUE TECNICHE DI RULE EXTRACTION
• La differenza fra i due metodi sta nel fatto che
NeurRule assume dati discreti, NeuroLinear non
impone questa restrizione.
• I dati vengono discretizzati suddividendoli in 3
subrange.
• Non si rileva diversa accuratezza nella rete ad input
discreto
• Ma la rete ad input continuo ha minori connessioni,
quindi ci si aspettano meno regole.
DUE TECNICHE DI RULE EXTRACTION
• Le reti sono due feedforward ad uno strato nascosto.
• Ci si attende che dove le connessioni non sono utili a
classificare un pattern il loro peso sia basso.
• Di fatto minimizzando un errore si effettua un problema di
ottimizzazione non lineare.
• A questo scopo gli autori hanno sviluppato un metodo ad hoc
(BFGS) al posto della backpropagation.
• Questo algoritmo sembra convergere più velocemente.
DUE TECNICHE DI RULE EXTRACTION
• Si crea una matrice che è l’inversa dell’Hessiana
della funzione di errore.
• Si ottiene un passo di minimizzazione multiplicando
la matrice per il negativo del gradiente della
funzione.
• Usando un algoritmo di ricerca lineare, si calcola la
misura opportuna dello step decrescente.
• Usando BFGS si garantisce la discesa dell’errore
totale ad ogni iterazione.
• Questa proprietà non è posseduta dalla
backpropagation.
•
DUE TECNICHE DI RULE EXTRACTION
• Una volta addestrata la rete, vengono identificate le
connessioni ridondanti per rimuoverle.
• La classificazione non viene alterata da questo procedimento.
• Ogni record è costituito dal sesso del paziente e da 9 test
biochimici (GOT, GPT, LDH,…)
• Il dataset è di 536 pazienti.
I pazienti, esaminati dai clinici, presentavano 4 tipi di disturbi:
-danno epatico da alcol (ALD)
epatoma primario (PH)
cirrosi (LC)
colelitiasi (C )
DUE TECNICHE DI RULE EXTRACTION
•
Il training set è stato posto a 373 records e il test set a 163.
•
Per il programma NeuroLinear sono state addestrate 30 reti, ciascuna
con 11 input (10 valori più 1 bias), 5 hidden e 4 output.
•
Per il programma NeuroRule sono state addestrate altre 30 reti,
discretizzando l’input in tre subrange per variabile. I nodi di input erano
quindi 9x3+1+1=29.
•
L’accurateza trovata e’ dell’85.64 e 84.64% rispettivamente, e non
varia dopo il pruning.
Varia però la complessità delle reti dopo il pruning: 75 connessioni per
NeuroLinear e 165 per NeuroRule.
•
•
REGOLE DI ESTRAZIONE
• Data una rete, per ciascun record viene registrato
quale unità di output ha l’attivazione più alta e quale
ha la seconda più alta attivazione.
• Si raggruppano poi i valori di attivazione dello strato
hidden generando regole di decisione che
distinguono i vari output.
• Gli input rilevanti risultano essere solo
x1,x3,x5,x8,x9,x12.
•
REGOLE DI ESTRAZIONE
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Si sviluppa un albero di decisione:
H1 <= -.80 :
H3 >0:
prima scelta: PH, seconda scelta: ALD
H3<=0:
H3<=-.70:
prima scelta: ALD, seconda scelta: C
H3>-.70:
prima scelta:ALD, seconda scelta:PH
H1 > -.80
H3<= .20:
……………..
REGOLE DI ESTRAZIONE
• Secondo passo.
• Si riuniscono le regole riscrivendole in questa forma:
• H1 <= -.80.
• H1 è connessa solo agli input x1 e x12, ossia
paziente maschio e GGT>60.
• H3>0
• H3 è connessa a x3,x5,x8,x9,x12, ossia se il
paziente è maschio con GGT>60, x9=1 cioè
LDH>500.
REGOLE DI ESTRAZIONE
• Si conclude che se il paziente è maschio, con GGT>60, e LDH
>500, il suo disturbo è un epatoma (prima scelta) o un danno
epatico da alcol (seconda scelta).
• NeuroLinear
• Dopo il pruning restano solo 15 connessioni, con 4 hidden.
• La prima unità hidden riceve input da GPT, la seconda e la
terza da GGT, la quarta da GOT,GPT e LDH.
• Il numero di regole completo è alla fine molto ristretto.
REGOLE DI ESTRAZIONE
• Sono stati confrontati i risultati di reti neurofuzzy e dell’analisi
discriminante.
• I risultati di NeuroRule e NeuroLinear sono molto più alti (es.
per ALD 87.9% e 97.0% contro 57.6% dell’analisi discriminante
e 69.7 % della rete neurofuzzy).
• Oltre a produrre regole, i sistemi dicono quali variabili sono
predittive e quali no.
• Ad esempio si è visto che i parametri importanti erano GOT,
GPT,LDH e GGT.