Le frontiere della visione computazionale

UniFI - Notiziario
Le frontiere della visione computazionale
Visite virtuali dei fondali marini toscani in 3D, strumenti e interfacce a sostegno
degli utenti con ridotta mobilità e ipovedenti. Sono alcuni dei progetti di cui si
occupa il Computational Vision Group dell'Ateneo - guidato da Carlo Colombo,
associato di Sistemi di elaborazione delle informazioni alla Facoltà di
Ingegneria - un team in cui il ruolo dei giovani collaboratori per realizzare
nuovi progetti è di primo piano.
"Nel nostro gruppo di ricerca il contributo dato dai componenti più giovani è
molto importante e incentivato perché in questo campo occorre curiosità e un
aggiornamento sugli sviluppi più recenti - spiega Colombo, - Le idee a cui poi
lavoriamo per dare un'applicazione spesso vengono dai giovani laureandi e
dagli studenti del mio corso di Visione Computazionale alla laurea magistrale
in Ingegneria informatica. Attualmente alle attività del CVG partecipano, oltre
ai docenti, una decina tra dottorandi, assegnisti di ricerca e laureandi, ma durante le mie lezioni cerco
di coinvolgere anche i miei allievi, stimolandoli al pensiero creativo, che è l'ingrediente essenziale per
fare ricerca. Il mio obiettivo è ampliare il gruppo, per poter far fronte al meglio ai molti progetti in corso e
a quelli che verranno. Per finanziare le nostre ricerche cerchiamo di cogliere tutte le opportunità, dai
fondi ministeriali, locali ed europei, alle collaborazioni con le aziende del territorio, con le quali da tempo
lavoriamo su programmi di innovazione d'impresa. La visione computazionale è infatti uno degli
argomenti di punta della moderna Information Technology."
Che cos'è la visione computazionale, quali sono le sue
applicazioni?
La visione computazionale (o visione artificiale; in inglese
"computer vision") si occupa dello sviluppo di algoritmi e
sistemi per l'analisi di immagini. E' complementare alla
"computer graphics", che invece si occupa della sintesi di
immagini. Semplificando, in "computer vision" telecamere e
computer svolgono il ruolo che nella visione biologica
hanno occhi e cervello. Le applicazioni della visione
computazionale sono pressoché inesauribili. Alcuni temi di
ricerca recenti del nostro laboratorio sono la sintesi visiva di
scene a partire da collezioni di immagini ("cosa ha visto
l'arbitro dal suo punto di osservazione?"), l'acquisizione
della forma tridimensionale e tessitura di oggetti da
sequenze video (finalizzata alla realizzazione di scanner 3D
di basso costo; nella foto di seguito un esempio),
l'elaborazione di tecniche super-risoluzione (abbiamo di
recente sviluppato un software che permette di ingrandire di
vari ordini di grandezza immagini da microscopio senza
perdita di dettagli), il videomonitoraggio di aree museali, la
cattura visiva di movimenti e gesti del corpo umano per lo
sviluppo di interfacce naturali uomo-macchina, il controllo di
robot basato su visione.
Ricostruzione a 360 gradi di forme 3D
con luce laser e tavolo rotante
Qual è il progetto più importante al
quale state lavorando?
Uno dei più importanti è THESAURUS
(acronimo di TecnicHe per l'Esplorazione
Sottomarina
Archeologica
mediante
l'Utilizzo di Robot aUtonomi in Sciami). E'
un progetto biennale, partito ufficialmente il
1° marzo di quest'anno, e finanziato
completamente dalla Regione Toscana con
un contributo pari a circa 1.800.000 euro,
che mira a individuare, censire e
documentare relitti subacquei di valore
archeologico ed etnoantropologico. Entro il
2013, metteremo in acqua tre piccoli veicoli
sottomarini autonomi che navigheranno
come un branco di pesci, e metri di
profondità, effettuando una scansione 3D
Il veicolo AUV in fase di progetto per Thesaurus
del fondale. La registrazione renderà
possibile una visita virtuale dei fondali marini della Toscana, fruibile in modo simile a quanto oggi si fa
fuori dall'acqua con Google Maps e Street View. Un secondo obiettivo del progetto è il rilevamento,
grazie alla "computer vision", di oggetti fatti dall'uomo, relitti antichi e recenti che si sono depositati nei
nostri fondali. Da qui l'evocativo nome del progetto. Diversamente dalla tipologia di veicoli di questo tipo
realizzati fin qui (ROV, per "Remotely Operated Vehicles"), che sono legati tramite una sorta di
"cordone ombelicale" alla nave appoggio, i ‘nostri' saranno del tipo AUV ("Autonomous Underwater
Vehicles"), ossia saranno completamente autonomi, avranno una visione 3D ed altri sensori a bordo,
parleranno tra loro attraverso modem a ultrasuoni e sapranno tornare alla base da soli dopo una
missione di circa 8 ore. Gli altri partner del progetto sono la Scuola Normale Superiore di Pisa, che
curerà la parte archeologica, l'ISTI-CNR (Istituto di Scienza e Tecnologie dell'Informazione) di Pisa, con
il coordinamento del Centro Piaggio, sempre di Pisa. Mentre il nostro gruppo di occuperà degli aspetti
di visione, il gruppo capitanato dal mio amico e collega Benedetto Allotta, del Dipartimento di
Energetica, si occuperà del progetto meccanico dei tre veicoli, che verranno testati nel nostro
laboratorio di Modellazione Dinamica e Meccatronica di Pistoia.
Ci
può
fare
qualche
altro
esempio
di
applicazione
della
visione
computazionale?
Con la Toshiba Research Europe (con sede a Cambridge) stiamo conducendo uno studio sulla resa
tridimensionale di film e immagini per la fruizione sui nuovi schermi 3D. Uno dei nostri ricercatori, Dario
Comanducci, è tornato in Italia di recente dopo un soggiorno di 9 mesi in Inghilterra. L'obiettivo è
ricampionare il materiale video "mono" per renderlo "stereo", consentendo così la fruizione 3D anche di
film d'epoca come "Star Wars". Abbiamo lavorato anche con realtà più piccole, nel nostro territorio. Ad
esempio, negli anni passati abbiamo realizzato un software per acquisire in digitale in modo veloce e
automatico i cartamodelli impiegati nelle industrie del settore della moda per la produzione delle nuove
collezioni. In collaborazione con un'altra azienda di moda stiamo progettando uno scanner 3D per
ottenere una resa quasi tattile dei nuovi pellami high-tech molto apprezzati dagli stilisti.
Ancora, nel 2008, in collaborazione con l'Associazione Famiglie SMA di Roma, che riunisce i genitori
dei bambini affetti da sclerosi laterale amiotrofica, abbiamo progettato EyeMouse, un sistema basato su
singola telecamera, che consente di
utilizzare il movimento oculare per dare
a un computer dei comandi come se
arrivassero dalla mano che non
funziona più. Una telecamera installata
sul computer cattura i movimenti
dell'occhio dell'utente, che funge da
mouse, e i suoi movimenti rendono lo
spostamento del cursore sullo schermo,
mentre un battito delle palpebre funge
da comando di selezione ("click"). In
pratica, si tratta di una tecnologia che
permette di catturare e interpretare i
gesti e i movimenti e ne fornisce
un'interpretazione semantica.
Trascinamento e selezione con il sistema EyeMouse
Non è il solo ambito di utilizzo della tecnologia al servizio dei bisogni delle persone...
Stiamo lavorando a un progetto, che abbiamo chiamato MEDUSA (Mixed Environment Device for
Unknown Scene Assessment), per creare un sistema hardware/software per i disabili visivi (ciechi e
ipovedenti), che permetta di semplificare e riunire le svariate funzionalità di vari sistemi stand alone in
un unico strumento. L'idea è di uno dei miei allievi, oggi mio collaboratore, Claudio Guida, che ha
dotato un telefono cellulare di un software, denominato BusAlert, che riconosce l'arrivo di un autobus
alla fermata, ne legge il numero, e lo comunica via audio al disabile. E' il primo passo per un progetto
che potrebbe essere sviluppato anche grazie al sostegno di chi, nel nostro territorio, si occupa di
politiche sociali. Un altro progetto estremamente interessante, per il quale siamo alla ricerca di partner
e finanziamenti, è quello dell'impiego della visione computazionale per la costruzione di mappe
annotate di ambienti, a supporto della mobilità autonoma dei disabili visivi. Un esempio tipico è quello
del supermercato. E' noto che, ad oggi, persone con gravi disabilità visive non riescono a fare la spesa
da sole, ma devono essere accompagnate ed assistite durante la visita. La ricerca avrà l'obiettivo di
eliminare l'esigenza di un accompagnatore, dotando il disabile di una maggiore autonomia.
La visione computazionale può essere utilizzata anche per la gestione e la valorizzazione dei
beni culturali.
Anche in questo ambito le applicazioni della computer vision sono numerosissime. Ad esempio, nel
2002, con il MICC - Media Integration and Communication Center, coordinato da Alberto Del Bimbo nell'ambito di un progetto finanziato dalla Provincia di Firenze, abbiamo studiato e realizzato un sistema
di interazione avanzata uomo-macchina basato su visione per la fruizione di dipinti e affreschi di grandi
dimensioni. Attraverso questo sistema, denominato PointAt e installato a Palazzo Medici-Riccardi e già
utilizzato da migliaia di turisti, è possibile catturare movimenti e gesti degli utenti, consentendo così di
puntare le varie parti degli affreschi con la mano come se stessimo utilizzando un mouse.
Un altro progetto, su cui ho di recente curato
una tesi di laurea, è la realizzazione di un
software che permette, attraverso l'analisi di
dipinti, immagini e foto scattate in epoche
diverse, di rilevare automaticamente e
visualizzare in 3D i cambiamenti verificatisi nel
tempo in un dato contesto urbano.
Un'applicazione
che
potrebbe
essere
utilizzabile dai turisti che orientando il proprio
telefonino potrebbero vedere la Firenze dei
secoli scorsi resa tridimensionalmente.
Ancora, in collaborazione con la Scuola
Normale
Superiore
di
Pisa
abbiamo
presentato un progetto per la valorizzazione
dei beni culturali minori della Toscana. Il
progetto punta alla realizzazione di strumenti
che permettano agli stessi operatori delle
piccole realtà museali di creare contenuti
multimediali utilizzando le nostre tecnologie
per realizzare autonomamente rendering e
visite virtuali. I risultati di queste e altre
ricerche sono stati pubblicati sulle principali
riviste internazionali e presentati alla
conferenze
internazionali
di
settore.
Fortunatamente,
abbiamo
una
buona
reputazione internazionale, grazie alla quale ci
è stata affidata l'organizzazione della
dodicesima
European
Conference
on
Computer vision (ECCV 2012), che si svolgerà
Interazione basata su gesti con schermi di grandi
al Palazzo dei Congressi di Firenze dal 7 al 13
dimensioni con il sistema PointAt
ottobre 2012. E' un appuntamento biennale, il
terzo per importanza nel mondo, a cui parteciperanno tutti i "guru" della disciplina e assieme a loro un
migliaio di studiosi da tutti i continenti, metà dei quali hanno meno di trent'anni.
Si è laureato a pieni voti con lode nel
dicembre 2010 al corso di laurea
magistrale in Ingegneria informatica, e la
sua tesi è la premessa di un lavoro di
ricerca
da
sviluppare
nell'ambito
Computational Vision Group. E' Claudio
Guida, l'ideatore di BusAlert, l'applicazione
che permette il riconoscimento degli
autobus grazie al telefonino.
Come è nata l'idea?
Per la mia tesi ero interessato ad
approfondire un tema legato alla visione
artificiale, ed essendo ipovedente volevo
Alcuni membri del CVG. Fra questi, al centro, Claudio Guida
dare al lavoro di ricerca un obiettivo che
e, accucciato, Benedetto Allotta
avesse
una
valenza
sociale.
Il
riconoscimento del numero dell'autobus in arrivo alla fermata è una delle principali esigenze sentite
dalle persone non vedenti. La computer vision ci permette di sostituire o potenziare la funzione
dell'occhio, e io l'ho utilizzata per sviluppare un software in grado di leggere le immagini e riconoscere
un autobus e il suo numero. Il software installato su un dispositivo - in questo caso un telefonino iphone che soddisfa i requisiti di accessibilità - può localizzare il mezzo, elaborare le immagini
eliminandone distrattori come le ombre, i riflessi e le persone che si frappongono, ed infine localizzare
la porzione dell'immagine contenente il numero, che viene letto e restituito all'utente via audio. Il
BusAlert è però solo uno dei tasselli di un progetto più ampio che abbiamo denominato MEDUSA.
Di che si tratta?
Vogliamo fare confluire tante funzionalità in un singolo
strumento, come i tentacoli di una medusa appunto.
Attualmente infatti l'utente con disabilità visive ha a
disposizione una serie di dispositivi che permettono
per esempio di scansionare immagini di testi e darne
una lettura vocale, o di riconoscere i colori degli oggetti
(utile per vestirsi). Ma per essere completamente
autonoma,
la
persona
dovrebbe
portarli
contemporaneamente tutti con sé. La mia idea dunque
è sviluppare una serie di software da poter installare in
un unico dispositivo, più maneggevole e anche,
dettaglio non secondario, più economico. Il BusAlert,
per esempio, potrebbe essere esteso anche al
riconoscimento di insegne e numeri civici, nomi delle
vie, rilevamento delle strisce pedonali, dei semafori e
dei loro colori, degli ostacoli.
Altre funzionalità?
Localizzazione
automatica
del
di autobus con il sistema BusAlert
numero
La realtà aumentata. Mi spiego: posso inquadrare un monumento per ricavarne delle informazioni, che
integrate magari con altri strumenti, mi permettano di riconoscere dalla foto la via dove il monumento si
trova. Una guida - in stile street view - che arrivi là dove si fermano le funzionalità di un navigatore
GPS, guidando l'utente precisamente nel luogo che vuole raggiungere, ad esempio un negozio o un
numero civico in particolare. Uno strumento che permetta, sia in casa che all'esterno, di riconoscere
una scena e darne un'interpretazione, una ricostruzione precisa all'utente, assicurandogli quindi una
maggiore autonomia. (sd)
2011 © UniFI - Notiziario
- progetto e idea grafica CSIAF - contenuti e gestione a cura di Ufficio stampa e Ufficio redazione web -