Studio di tecniche per l` analisi e la classificazione di dati MRI per la

Sommario
Studio di tecniche per l’ analisi e la
classificazione di dati MRI per la ricerca di
patologie nell’ ambito della salute mentale
Loris Bazzani, Diego Tosato
VIPS Lab – Università di Verona
01 Marzo 2007
Sommario
Sommario
1
Introduzione al problema
2
Approccio proposto
3
La pipeline di classificazione
4
Acquisizione dei dati
Filtraggio e aumento del contrasto delle immagini
5
Elaborazione delle immagini
Istogramma dei livelli di grigio e del gradiente
Canny
Trasformata Wavelet
Fast Fourier Transform (FFT)
Sommario
Sommario
6
Riduzione dei dati
7
Classificazione: training e testing
8
Esperimenti
9
Conclusioni
Introduzione al problema
Parte I
Introduzione al problema
Introduzione al problema
Introduzione al problema
In ambito medico si necessita sempre più di sistemi automatici per
l’ analisi di immagini acquisite da diversi sensori, per aiutare il medico
nella fase di “classificazione” delle patologie.
In particolare attraverso l’ acquisizione di immagini in formato MRI
(morfologiche e diffusive) del cervello umano, si vuole discrimimare
con la massima affidabilità possibile la schizofrenia nei soggetti
patologici.
Introduzione al problema
Introduzione al problema
In tale contesto viene adottato un approccio di tipo apprendimento da
esempi. Tale approccio consiste nell’ osservare le caratteristiche di
interesse a partire da un insieme di soggetti sani e patologici e
costruire un modello (matematico) di classificazione in 2 classi: sano
o malato.
Si mette in evidenza il nodo cruciale che da vita al lavoro:
l’ apprendimento da esempi è utile per la classificazione di patologie
nell’ ambito della salute mentale?
Va sottolineato che l’ importanza del lavoro non sta nel classificare
una malattia psichiatrica che comporta anche delle alterazioni
comportamentali (visibili ad occhio nudo) ma sta nella ricerca dei
tratti discriminanti attraverso l’ analisi delle immagini MRI.
Introduzione al problema
Introduzione al problema
In tale contesto viene adottato un approccio di tipo apprendimento da
esempi. Tale approccio consiste nell’ osservare le caratteristiche di
interesse a partire da un insieme di soggetti sani e patologici e
costruire un modello (matematico) di classificazione in 2 classi: sano
o malato.
Si mette in evidenza il nodo cruciale che da vita al lavoro:
l’ apprendimento da esempi è utile per la classificazione di patologie
nell’ ambito della salute mentale?
Va sottolineato che l’ importanza del lavoro non sta nel classificare
una malattia psichiatrica che comporta anche delle alterazioni
comportamentali (visibili ad occhio nudo) ma sta nella ricerca dei
tratti discriminanti attraverso l’ analisi delle immagini MRI.
Introduzione al problema
Introduzione al problema
In tale contesto viene adottato un approccio di tipo apprendimento da
esempi. Tale approccio consiste nell’ osservare le caratteristiche di
interesse a partire da un insieme di soggetti sani e patologici e
costruire un modello (matematico) di classificazione in 2 classi: sano
o malato.
Si mette in evidenza il nodo cruciale che da vita al lavoro:
l’ apprendimento da esempi è utile per la classificazione di patologie
nell’ ambito della salute mentale?
Va sottolineato che l’ importanza del lavoro non sta nel classificare
una malattia psichiatrica che comporta anche delle alterazioni
comportamentali (visibili ad occhio nudo) ma sta nella ricerca dei
tratti discriminanti attraverso l’ analisi delle immagini MRI.
Approccio proposto
Parte II
Approccio proposto
Approccio proposto
Approccio proposto
È stato proposto un approccio basato sull’ apprendimento da esempi
(leaning by example):
un classificatore è stato addestrato su un insieme di esempi (i.e.
MRI slices);
viene testato un nuovo esempio (non usato un fase di
addestramento) e il classificatore ne decide la classe di
appartenenza.
Approccio proposto
Approccio proposto
Serie di esempi dei quali si conosce la classe di appartenenza:
Approccio proposto
Approccio proposto
Si addestra il classificatore:
Approccio proposto
Approccio proposto
Un nuovo esempio viene dato al classificatore:
Approccio proposto
Approccio proposto
Il classificatore assegna la classe di appartenenza all’ esempio:
La pipeline di classificazione
Parte III
La pipeline di classificazione
La pipeline di classificazione
La pipeline di classificazione
Lo schema di lavoro utilizzato per affrontare il problema è tipico in
ambito di pattern recognition e si compone delle seguenti fasi:
1
Raccolta dati: Collezione di un insieme sufficiente e
rappresentativo di esempi per il problema in esame
2
Scelta delle features: Computazione di rappresentazioni
alternative delle immagini discriminanti per il problema in esame;
3
Addestramento del modello: Per ogni oggetto viene assegnata
un’ etichetta che indica l’ appartenenza ad una classe e viene
creato il modello matematico per discriminare le classi;
4
Valutazione: Dato un esempio, il classificatore ritorna la classe di
appartenenza.
La pipeline di classificazione
La pipeline di classificazione
Schematicamente..
Acquisizione dei dati
Parte IV
Acquisizione dei dati
Acquisizione dei dati
Acquisizione dei dati
Un’ acquisizione MRI di un singolo paziente comprende diverse
scansioni:
scansione neuromorfologica sono in formato analyze 3d e
contengono le informazioni della morfologia del
cervello. Vengono associate ad ogni soggetto 144
slices che coprono l’ intero cervello, ognuna delle quali
ha dimensione 384 × 512 pixel. Inoltre su ogni singola
slice sono state tracciate manualmente delle Region Of
Interest (ROI);
scansione diffusiva trasversale e coronale sono sequenze di
immagini 2d (DICOM) suddivise in quattro tipologie
differenti, in quanto vengono acquisite in successione
temporale. Ad ogni soggetto sono associate 72 slices
di dimensione 128 × 128 pixel per la scansione
diffusiva trasversale e 120 slices di dimensione
128 × 128 pixel per la scansione diffusiva coronale.
Acquisizione dei dati
Filtraggio e aumento del contrasto delle immagini
Le operazioni effettuate per il miglioramento delle immagini sono le
seguenti:
stretching per cercare di evidenziare maggiormente le
caratteristiche delle immagini si è effettuato uno
stretching dell’ istogramma dei livelli di grigio;
Acquisizione dei dati
Filtraggio e aumento del contrasto delle immagini
riduzione del rumore le immagini sono affette da rumore di tipo sale
e pepe. Per ridurlo si è deciso di applicare un filtro di
tipo ottimo per il rumore modellato come additivo: il
filtro di Wiener Y (u, v ) = H(u, v )I(u, v ). Il criterio di
ottimalità che questo filtro siRRpropone di soddisfare è la
minimizzazione di: MSE =
e2 (x, y )dxdy
Elaborazione delle immagini
Parte V
Elaborazione delle immagini
Elaborazione delle immagini
Istogramma dei livelli di grigio e del gradiente
Si vuole stabilire se la malattia comporta una modifica globale delle
caratteristiche del cervello:
Istogramma dei livelli di grigio Per l’ istogramma dei livello di grigio si
memorizza, per ogni immagine, un vettore di
dimensione N nel quale la posizione del vettore indica
che livello di grigio si considera, mentre l’ intensità
indica il numero di occorrenze di quel preciso livello di
grigio presenti nell’ immagine;
Istogramma del gradiente Si calcola il gradiente dell’ immagine come
derivata prima rispetto all’ asse x poi rispetto y ; in
seguito si trova il modulo del gradiente |G(x, y )| nel
seguente modo:
s
2 2
∂I(x, y)
∂I(x, y )
|G(x, y )| =
+
∂x
∂y
dopodiche si estrae l’ istogramma dei valori ricavati.
Elaborazione delle immagini
Algoritmo di Canny
Si vuole stabilire se la malattia comporta una modifica strutturale
delle caratteristiche del cervello: L’algoritmo di Canny si compone di
tre fasi distinte:
1
filtraggio di rinforzo dell’ immagine (I) in ingresso;
2
applicazione dell’ algoritmo Non Maximum Suppression all’
output di (1);
3
applicazione della sogliatura ad isteresi all’ output di (2).
Elaborazione delle immagini
Trasformata Wavelet Discreta (DWT)
La DWT effettua un’ analisi multirisoluzione delle immagini.
Dal dominio spaziale (x, y) al dominio delle wavelet (sempre 2d).
Esempio:
Nel dominio wavelet è possibile distinguere:
una versione a bassa risoluzione dell’ immagine originale,
serie si sottoimmagini a vari livelli di risoluzione.
Elaborazione delle immagini
Fast Fourier Transform (FFT)
FFT effettua un’ analisi frequenziale dell’ immagine:
Dal dominio spaziale (x, y) al dominio delle frequenze spaziali
(u, v ).
Definita come segue:
I(u, v ) =
M
N
y
x
1 XX
i(x, y)e−j2π(u M +v N ) .
MN
x=0 y=0
Esempio:
Osservazione: FFT è la versione ottimizzata della DFT.
Riduzione dei dati
Parte VI
Riduzione dei dati
Riduzione dei dati
Tecnica di riduzione dei dati
Scopo: Trovare una rappresentazione alternativa dei dati/immagini in
modo da ridurre notevolmente le loro dimensioni.
Problema: Mantenere le informazioni rilevanti per la classificazione
della patologia.
Soluzione: Analisi delle componenti principali (Principal Components
Analisys o PCA) + Proiezione.
Riduzione dei dati
Principal Conponents Analisys (PCA)
Tecnica statistica per trovare un modello per un insieme di dati
multidimensionale, cercando di comprimere i dati senza perdere
informazione rilevante.
PCA è una trasformazione lineare che proietta i dati in un nuovo
sistema di coordinate.
La proiezione si basa sulla varianza (speranza matematica) dei
dati.
Analisi delle componenti principali, ovvero dei dati con varianza
maggiore.
Perdita di dati: si scartano i dati con varianze piccole o nulle.
Riduzione dei dati
PCA: approccio matematico
Insieme immagini: Γ = {Γ1 , Γ2 , . . . , ΓM } ciascuno di dimensione N 2 .
Media:
M
1 X
Γn
Ψ := E{Γ} =
M
n=1
Varianza: Φi := Γi − Ψ
idea: Trovare gli autovettori e autovalori della matrice di covarianza:
M
1 X
C :=
Φk ΦTk
M
k =1
2
Risultato: N autovettori di dimensione N 2 e N 2 autovalori.
Riduzione: del numero di autovettori, scartando quelli con gli
autovalori piccoli o nulli.
Proiezione: moltiplicazione della matrice degli autovettori ridotta con
le singole immagini.
Dopo la proiezione si ottiene una rappresentazione alternativa
dell’ immagine estremamente ridotta, che chiameremo eigenslice.
Classificazione
Parte VII
Classificazione: training e testing
Classificazione
Il classificatore
Si è scelto un classificatore della famiglia delle Support Vector
Machines (SVM).
SVM rappresenta una tecnica molto efficace in molti domini
applicativi.
In particolare, si è utilizzato un classificatore binario: separazione
di due classi (sano e schizofrenico) attraverso un iperpiano.
Il kernel della SVM è una funzione che caratterizza l’ iperpiano
utilizzato nella divisione delle due classi.
È caratterizzato da dei parametri.
Validazione attraverso i metodi di Grid search e Leave one out.
Classificazione
Grid search
Nel caso specifico i parametri del kernel scelto sono C e γ.
Grid search: identificare una coppia di (C, γ) in grado di
“predirre” accuratamente la classe di appartenenza dei dati
sconosciuti al classificatore.
Ricerca esaustiva effettuata su una griglia: C = 2i , γ = 2j con
i ∈ {−5, −4, ..., 15} e j ∈ {−15, −14, ..., 3}.
Per ogni coppia (C, γ) si effettua Leave one out.
Classificazione
Leave one out
In tale metodo si identificano due fasi:
training: addestramento del classificatore, presentando degli
esempi a cui è associata l’ esatta classe di appartenenza;
testing: presentazione di un nuovo esempio sconosciuto al
classificatore; il classificatore ne decide la classe di
appartenenza.
Leave one out: si addestra il classificatore sull’ insieme degli
esempi escluso uno; con quello che rimane si effettua testing.
Itera il procedimento per tutti gli esempi in modo sistematico.
Accuratezza del classificatore: calcolata come media pesata del
numero di esempi classificati correttamente.
Esperimenti
Parte VIII
Esperimenti
Esperimenti
Esperimenti
Sono categorizzati in tre tipologie:
1
esperimenti previa elaborazione delle immagini con gli estrattori
di caratteristiche;
2
esperimenti con la tecnica di riduzione dei dati (PCA);
3
esperimenti combinando estrazione delle caratteristiche e
successiva riduzione dei dati.
Esperimenti
Esperimenti
Diversi esperimenti sulla base della dimensione dell’ insieme di
training:
41 pazienti e 41 controlli;
60 pazienti e 60 controlli;
“Clusterizzazione” dell’ insieme dei dati:
cluster 0: 20 pazienti e 20 controlli con età compresa tra i 24 e i
38 anni;
cluster 1: 15 pazienti femmina e 15 controlli femmina;
cluster 2: 15 pazienti maschio e 15 controlli maschio;
cluster 3: 15 pazienti femmina e 15 controlli maschio;
cluster 4: 25 pazienti e 25 controlli estendendo il cluster 0, età
compresa tra i 24 e i 42 anni;
cluster 5: 30 pazienti e 30 controlli estendendo il cluster 0, età
compresa tra i 24 e i 48 anni;
Esperimenti
Esperimenti
Ogni esperimento è anche caratterizzato dai tipi di scansioni che
sono state caricate prima dell’ elaborazione delle immagini:
morfologiche: SI o NO;
diffusive: SI o NO o 3/4.
Esperimenti
Risultati
Conclusioni
Parte IX
Conclusioni
Conclusioni
Conclusioni
La riduzione dei dati incrementa l’ accuratezza dei risultati e
l’ efficienza degli esperimenti;
Attraverso la combinazione di estrattori delle caratteristiche e la
riduzione dei dati si ha un ulteriore incremento delle prestazioni
del classificatore;
Si osserva che le scansioni diffusive sono necessarie nella
discriminazione tra malato e sano;
La “clusterizzazione” dei dati aumenta l’ accuratezza nella
classificazione.