Sommario Studio di tecniche per l’ analisi e la classificazione di dati MRI per la ricerca di patologie nell’ ambito della salute mentale Loris Bazzani, Diego Tosato VIPS Lab – Università di Verona 01 Marzo 2007 Sommario Sommario 1 Introduzione al problema 2 Approccio proposto 3 La pipeline di classificazione 4 Acquisizione dei dati Filtraggio e aumento del contrasto delle immagini 5 Elaborazione delle immagini Istogramma dei livelli di grigio e del gradiente Canny Trasformata Wavelet Fast Fourier Transform (FFT) Sommario Sommario 6 Riduzione dei dati 7 Classificazione: training e testing 8 Esperimenti 9 Conclusioni Introduzione al problema Parte I Introduzione al problema Introduzione al problema Introduzione al problema In ambito medico si necessita sempre più di sistemi automatici per l’ analisi di immagini acquisite da diversi sensori, per aiutare il medico nella fase di “classificazione” delle patologie. In particolare attraverso l’ acquisizione di immagini in formato MRI (morfologiche e diffusive) del cervello umano, si vuole discrimimare con la massima affidabilità possibile la schizofrenia nei soggetti patologici. Introduzione al problema Introduzione al problema In tale contesto viene adottato un approccio di tipo apprendimento da esempi. Tale approccio consiste nell’ osservare le caratteristiche di interesse a partire da un insieme di soggetti sani e patologici e costruire un modello (matematico) di classificazione in 2 classi: sano o malato. Si mette in evidenza il nodo cruciale che da vita al lavoro: l’ apprendimento da esempi è utile per la classificazione di patologie nell’ ambito della salute mentale? Va sottolineato che l’ importanza del lavoro non sta nel classificare una malattia psichiatrica che comporta anche delle alterazioni comportamentali (visibili ad occhio nudo) ma sta nella ricerca dei tratti discriminanti attraverso l’ analisi delle immagini MRI. Introduzione al problema Introduzione al problema In tale contesto viene adottato un approccio di tipo apprendimento da esempi. Tale approccio consiste nell’ osservare le caratteristiche di interesse a partire da un insieme di soggetti sani e patologici e costruire un modello (matematico) di classificazione in 2 classi: sano o malato. Si mette in evidenza il nodo cruciale che da vita al lavoro: l’ apprendimento da esempi è utile per la classificazione di patologie nell’ ambito della salute mentale? Va sottolineato che l’ importanza del lavoro non sta nel classificare una malattia psichiatrica che comporta anche delle alterazioni comportamentali (visibili ad occhio nudo) ma sta nella ricerca dei tratti discriminanti attraverso l’ analisi delle immagini MRI. Introduzione al problema Introduzione al problema In tale contesto viene adottato un approccio di tipo apprendimento da esempi. Tale approccio consiste nell’ osservare le caratteristiche di interesse a partire da un insieme di soggetti sani e patologici e costruire un modello (matematico) di classificazione in 2 classi: sano o malato. Si mette in evidenza il nodo cruciale che da vita al lavoro: l’ apprendimento da esempi è utile per la classificazione di patologie nell’ ambito della salute mentale? Va sottolineato che l’ importanza del lavoro non sta nel classificare una malattia psichiatrica che comporta anche delle alterazioni comportamentali (visibili ad occhio nudo) ma sta nella ricerca dei tratti discriminanti attraverso l’ analisi delle immagini MRI. Approccio proposto Parte II Approccio proposto Approccio proposto Approccio proposto È stato proposto un approccio basato sull’ apprendimento da esempi (leaning by example): un classificatore è stato addestrato su un insieme di esempi (i.e. MRI slices); viene testato un nuovo esempio (non usato un fase di addestramento) e il classificatore ne decide la classe di appartenenza. Approccio proposto Approccio proposto Serie di esempi dei quali si conosce la classe di appartenenza: Approccio proposto Approccio proposto Si addestra il classificatore: Approccio proposto Approccio proposto Un nuovo esempio viene dato al classificatore: Approccio proposto Approccio proposto Il classificatore assegna la classe di appartenenza all’ esempio: La pipeline di classificazione Parte III La pipeline di classificazione La pipeline di classificazione La pipeline di classificazione Lo schema di lavoro utilizzato per affrontare il problema è tipico in ambito di pattern recognition e si compone delle seguenti fasi: 1 Raccolta dati: Collezione di un insieme sufficiente e rappresentativo di esempi per il problema in esame 2 Scelta delle features: Computazione di rappresentazioni alternative delle immagini discriminanti per il problema in esame; 3 Addestramento del modello: Per ogni oggetto viene assegnata un’ etichetta che indica l’ appartenenza ad una classe e viene creato il modello matematico per discriminare le classi; 4 Valutazione: Dato un esempio, il classificatore ritorna la classe di appartenenza. La pipeline di classificazione La pipeline di classificazione Schematicamente.. Acquisizione dei dati Parte IV Acquisizione dei dati Acquisizione dei dati Acquisizione dei dati Un’ acquisizione MRI di un singolo paziente comprende diverse scansioni: scansione neuromorfologica sono in formato analyze 3d e contengono le informazioni della morfologia del cervello. Vengono associate ad ogni soggetto 144 slices che coprono l’ intero cervello, ognuna delle quali ha dimensione 384 × 512 pixel. Inoltre su ogni singola slice sono state tracciate manualmente delle Region Of Interest (ROI); scansione diffusiva trasversale e coronale sono sequenze di immagini 2d (DICOM) suddivise in quattro tipologie differenti, in quanto vengono acquisite in successione temporale. Ad ogni soggetto sono associate 72 slices di dimensione 128 × 128 pixel per la scansione diffusiva trasversale e 120 slices di dimensione 128 × 128 pixel per la scansione diffusiva coronale. Acquisizione dei dati Filtraggio e aumento del contrasto delle immagini Le operazioni effettuate per il miglioramento delle immagini sono le seguenti: stretching per cercare di evidenziare maggiormente le caratteristiche delle immagini si è effettuato uno stretching dell’ istogramma dei livelli di grigio; Acquisizione dei dati Filtraggio e aumento del contrasto delle immagini riduzione del rumore le immagini sono affette da rumore di tipo sale e pepe. Per ridurlo si è deciso di applicare un filtro di tipo ottimo per il rumore modellato come additivo: il filtro di Wiener Y (u, v ) = H(u, v )I(u, v ). Il criterio di ottimalità che questo filtro siRRpropone di soddisfare è la minimizzazione di: MSE = e2 (x, y )dxdy Elaborazione delle immagini Parte V Elaborazione delle immagini Elaborazione delle immagini Istogramma dei livelli di grigio e del gradiente Si vuole stabilire se la malattia comporta una modifica globale delle caratteristiche del cervello: Istogramma dei livelli di grigio Per l’ istogramma dei livello di grigio si memorizza, per ogni immagine, un vettore di dimensione N nel quale la posizione del vettore indica che livello di grigio si considera, mentre l’ intensità indica il numero di occorrenze di quel preciso livello di grigio presenti nell’ immagine; Istogramma del gradiente Si calcola il gradiente dell’ immagine come derivata prima rispetto all’ asse x poi rispetto y ; in seguito si trova il modulo del gradiente |G(x, y )| nel seguente modo: s 2 2 ∂I(x, y) ∂I(x, y ) |G(x, y )| = + ∂x ∂y dopodiche si estrae l’ istogramma dei valori ricavati. Elaborazione delle immagini Algoritmo di Canny Si vuole stabilire se la malattia comporta una modifica strutturale delle caratteristiche del cervello: L’algoritmo di Canny si compone di tre fasi distinte: 1 filtraggio di rinforzo dell’ immagine (I) in ingresso; 2 applicazione dell’ algoritmo Non Maximum Suppression all’ output di (1); 3 applicazione della sogliatura ad isteresi all’ output di (2). Elaborazione delle immagini Trasformata Wavelet Discreta (DWT) La DWT effettua un’ analisi multirisoluzione delle immagini. Dal dominio spaziale (x, y) al dominio delle wavelet (sempre 2d). Esempio: Nel dominio wavelet è possibile distinguere: una versione a bassa risoluzione dell’ immagine originale, serie si sottoimmagini a vari livelli di risoluzione. Elaborazione delle immagini Fast Fourier Transform (FFT) FFT effettua un’ analisi frequenziale dell’ immagine: Dal dominio spaziale (x, y) al dominio delle frequenze spaziali (u, v ). Definita come segue: I(u, v ) = M N y x 1 XX i(x, y)e−j2π(u M +v N ) . MN x=0 y=0 Esempio: Osservazione: FFT è la versione ottimizzata della DFT. Riduzione dei dati Parte VI Riduzione dei dati Riduzione dei dati Tecnica di riduzione dei dati Scopo: Trovare una rappresentazione alternativa dei dati/immagini in modo da ridurre notevolmente le loro dimensioni. Problema: Mantenere le informazioni rilevanti per la classificazione della patologia. Soluzione: Analisi delle componenti principali (Principal Components Analisys o PCA) + Proiezione. Riduzione dei dati Principal Conponents Analisys (PCA) Tecnica statistica per trovare un modello per un insieme di dati multidimensionale, cercando di comprimere i dati senza perdere informazione rilevante. PCA è una trasformazione lineare che proietta i dati in un nuovo sistema di coordinate. La proiezione si basa sulla varianza (speranza matematica) dei dati. Analisi delle componenti principali, ovvero dei dati con varianza maggiore. Perdita di dati: si scartano i dati con varianze piccole o nulle. Riduzione dei dati PCA: approccio matematico Insieme immagini: Γ = {Γ1 , Γ2 , . . . , ΓM } ciascuno di dimensione N 2 . Media: M 1 X Γn Ψ := E{Γ} = M n=1 Varianza: Φi := Γi − Ψ idea: Trovare gli autovettori e autovalori della matrice di covarianza: M 1 X C := Φk ΦTk M k =1 2 Risultato: N autovettori di dimensione N 2 e N 2 autovalori. Riduzione: del numero di autovettori, scartando quelli con gli autovalori piccoli o nulli. Proiezione: moltiplicazione della matrice degli autovettori ridotta con le singole immagini. Dopo la proiezione si ottiene una rappresentazione alternativa dell’ immagine estremamente ridotta, che chiameremo eigenslice. Classificazione Parte VII Classificazione: training e testing Classificazione Il classificatore Si è scelto un classificatore della famiglia delle Support Vector Machines (SVM). SVM rappresenta una tecnica molto efficace in molti domini applicativi. In particolare, si è utilizzato un classificatore binario: separazione di due classi (sano e schizofrenico) attraverso un iperpiano. Il kernel della SVM è una funzione che caratterizza l’ iperpiano utilizzato nella divisione delle due classi. È caratterizzato da dei parametri. Validazione attraverso i metodi di Grid search e Leave one out. Classificazione Grid search Nel caso specifico i parametri del kernel scelto sono C e γ. Grid search: identificare una coppia di (C, γ) in grado di “predirre” accuratamente la classe di appartenenza dei dati sconosciuti al classificatore. Ricerca esaustiva effettuata su una griglia: C = 2i , γ = 2j con i ∈ {−5, −4, ..., 15} e j ∈ {−15, −14, ..., 3}. Per ogni coppia (C, γ) si effettua Leave one out. Classificazione Leave one out In tale metodo si identificano due fasi: training: addestramento del classificatore, presentando degli esempi a cui è associata l’ esatta classe di appartenenza; testing: presentazione di un nuovo esempio sconosciuto al classificatore; il classificatore ne decide la classe di appartenenza. Leave one out: si addestra il classificatore sull’ insieme degli esempi escluso uno; con quello che rimane si effettua testing. Itera il procedimento per tutti gli esempi in modo sistematico. Accuratezza del classificatore: calcolata come media pesata del numero di esempi classificati correttamente. Esperimenti Parte VIII Esperimenti Esperimenti Esperimenti Sono categorizzati in tre tipologie: 1 esperimenti previa elaborazione delle immagini con gli estrattori di caratteristiche; 2 esperimenti con la tecnica di riduzione dei dati (PCA); 3 esperimenti combinando estrazione delle caratteristiche e successiva riduzione dei dati. Esperimenti Esperimenti Diversi esperimenti sulla base della dimensione dell’ insieme di training: 41 pazienti e 41 controlli; 60 pazienti e 60 controlli; “Clusterizzazione” dell’ insieme dei dati: cluster 0: 20 pazienti e 20 controlli con età compresa tra i 24 e i 38 anni; cluster 1: 15 pazienti femmina e 15 controlli femmina; cluster 2: 15 pazienti maschio e 15 controlli maschio; cluster 3: 15 pazienti femmina e 15 controlli maschio; cluster 4: 25 pazienti e 25 controlli estendendo il cluster 0, età compresa tra i 24 e i 42 anni; cluster 5: 30 pazienti e 30 controlli estendendo il cluster 0, età compresa tra i 24 e i 48 anni; Esperimenti Esperimenti Ogni esperimento è anche caratterizzato dai tipi di scansioni che sono state caricate prima dell’ elaborazione delle immagini: morfologiche: SI o NO; diffusive: SI o NO o 3/4. Esperimenti Risultati Conclusioni Parte IX Conclusioni Conclusioni Conclusioni La riduzione dei dati incrementa l’ accuratezza dei risultati e l’ efficienza degli esperimenti; Attraverso la combinazione di estrattori delle caratteristiche e la riduzione dei dati si ha un ulteriore incremento delle prestazioni del classificatore; Si osserva che le scansioni diffusive sono necessarie nella discriminazione tra malato e sano; La “clusterizzazione” dei dati aumenta l’ accuratezza nella classificazione.