Accademia Nazione di Scienze, Lettere e Arti di Modena La Visione Artificiale Ovvero: le macchine possono Vedere? 5 maggio 2010 Prof. Ing. Rita Cucchiara p di Ingegneria g g dell’ Informazione Dipartimento Università degli studi di Modena e Reggio Emilia Agenda Introduzione alla Visione Artificiale La Visione e la geometria :Visione Robotica La Visione e il movimento: Video Sorveglianza La Visione e il colore: Medical Imaging La Visione e l’apprendimento: pp Artistic Digital g Libraryy 2 La Visione Artificiale La Visione Artificiale (Computer Vision) e’ una disciplina informatica che p ppercettivi e visivi simili a studia come emulare al calcolatore comportamenti quelli biologici . Sistema di visione artificiale SStudia di modelli, d lli algoritmi l i i e tecniche i h e realizza li sistemi, i i per elaborare l b iin modo d automatico singole o multiple immagini 2D e riconoscere oggetti ed eventi nel mondo 3D. Che Dati? La Visione come disciplina scientifica si occupa della d ll teoria d di modellazione d ll d di sistemi artificiali f l per estrarre informazioni f e conoscenza da immagini, quali: singole foto o immagini artificiali, frame di sequenze video viste sincronizzate da telecamere multiple e distribuite dati visuali acquisiti da range scanner 3D e altri sensori dati multi-dimensionali da scanner e strumenti medici La Visione come disciplina tecnologica si occupa della costruzione di sistemi di visione basati sul calcolatore (machine vision robot vision, vision, vision visual-based visual based multimedia systems) 4 Che Dati? Immagini industriali Machine vision Visione Robotica Immagini e video live per il broadcasting (S (Sport, news…)) Immagini e video per la Sorveglianza e sicurezza e Biometria Immagini scientifiche, fisiche, biologiche astrofisiche, mediche… WEB: Da www.flickr.com www flickr com Query”Accademia Modena” 4.219 upload nell’ultimo minuto · 10.134 contenuti provvisti di tag tigre · 2,7 milione di contenuti provvisti di tag questo mese Yahoo 1/5/2010 5 Visione Artificiale: la storia 1) Studi sull’ intelligenza artificiale 2) Studi sull’ elaborazione del segnale (immagine) 3) Studi di pattern recognition 4) Studi di psicologia della percezione 5)) Studi sull’ architettura dei calcolatori 6 Studi sull sull’architettura architettura dei calcolatori Ad es. Convoluzione Filtro 5 x 5 c.a. 100 oper. g(i, j) f h f (i m, j n)h(m, n)dmdn g(i, j) f h f (i m, j n)h(m, n) m n Requisiti Computazionali: Formato 352 × 288 PAL SIF 352x288 101.376 pixel p x 3 (RGB) 304.128 byte Convoluzione 5 x 5 30.4 MOPs milioni di operazioni … 25 fps ENIAC 1946 5Kops 760MOPS VAX 1970 1MoPS BLUGENE 2009 500 T(Fl)OPS PC x86 2009 70 G(Fl)OPS 7 Studi sull sull’architettura architettura dei Calcolatori Shot detection GP - Barein 2004 I video sono spesso codificati in forma compressa. Se non codificati hanno dimensioni notevoli. N° Frame 125.000 Durata 1h 23m 20s Risoluzione spaziale 352 x 288 Profondità colore 24 bit Dimensione (compresso MPEG) 1,96 Gb 8 Ora analisi in real-time di video. Di Dimensione i ddecompresso 35 4 Gb 35,4 Decodifica MPEG 2 di un frame 27.1 ms Frame rate (della decodifica) 37 fps Tempo per l’analisi di una transizione 1.76 s Tempo totale per shot detection 1h 16m 16s Studi sull sull’elaborazione elaborazione del Segnale L’immagine come un segnale bidimensionale nello spazio x-y Si applicano i modelli e tecniche di elaborazione del segnale Es Fourier, J. B. Joseph (1822) Image Processing 9 Studi sulla Pattern recognition Pattern Recognition: scienza che si occupa delle metodologie per estrarre informazioni da dati, dati interpretandone o riconoscendone la struttura ( JJ. Bezdek). Scienza di base nell’informatica: 1968 Primo journal “Pattern Recognition” 1970 Fondamenti : “Picture Processing by Computer” (A. Rosenfeld) 1970 ICPR 1977 CVPR (IEEE) 1978 International Association for Pattern Recognition (IAPR) (in italia il GIRPR nel 1983) 1979 IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI) 10 Studi di psicologia della percezione* Pitagora: teoria Emissionistica: L’occhio emette un fascio di raggi ((“tentacoli tentacoli visuali”) visuali ) che che, viaggiando nello spazio vanno a urtare gli oggetti. L’urto tra il raggio visivo e l’oggetto suscita la sensazione della visione. Epicuro: teoria Intromissionista Gli oggetti inviano continuamente nello spazio ad essi circostante le immagini di se stessi. Queste immagini (eidola-simulacra ) entrano nell’occhio attraverso la pupilla, cosi’ rivelandosi. rivelandosi Platone teoria dei due fluidi : É l'incontro del fuoco visuale che è dentro di noi, emesso dagli occhi, con il fuoco esterno della luce diurna a determinare la visione visione. … Keplero sviluppa la moderna teoria delle immagini retiniche. Studio dell’ottica fisica David C. Lindberg Theories of Vision Chicago University Press 1976 Studi di Psicologia Percettiva 1800 nascita della psicologia percettiva. Empirismo e nativismo: Il problema dei fattori innati e acquisiti nella costituzione dell dell'oggetto oggetto percettivo; la teoria della percezione del colore: per l’empirismo(Helmholtz Gregory) deriva dall'esistenza nella retina di tre tipi di coni che ricevono segnali poi elaborati; per il nativismo ( HeringKanizsa) esistono principi organizzatori della percezione precedenti l’esperienza,.. ‘80 la teoria della Gestalt* *Gaetano KANIZSA: La grammatica del vedere. Bologna: Il Mulino (1980). Studi di Psicologia Percettiva 1970 la Teoria della Gestalt TEORIA DELLA GESTALT proximity p y similarity y y z x t continuity closeness “prägnanz” (structural coherence) Introduzione Studi di Psicologia Percettiva Salvador Dali 1976 Gala Contemplating the Mediterranean Sea 1973 LLeon Harmon H (B ll Labs) (Bell L b) “The Recognition of Faces” Storia della Visione David Marr l’approccio computazionale 1982 Vision: V A Computational C l Investigation I into the h Human H Representation R andd Processing of Visual Information La Visione computazionale: con tre tre livelli di elaborazione: livello computazionale descrive il fine del sistema e le strategie che può impiegare per conseguirlo: specifica cosa il sistema deve fare. livello algoritmico determina le regole di input ed output del sistema ai differenti ordini rappresentazionali. livello di implementazione determina quale hardware, sostanzialmente quale livello neuronale, è in grado di supportare un tale sistema. I livelli della visione (computazionale) images Data A priori knowledge models Image acquisition Image processing I Image analysis l i Image undestanding Computational vision Vision 16 Visione Retinica Visione Corticale Visione Nervo ottico corteccia cervello · Pre -elaborazione del segnale · Compressione · Selezione della regione di interesse · Focalizzazione della attenzione · Fotorecettori · Estrazione delle primitive visuali (colore, forma, Tessitura, movimento..) · Associazione a modelli di conoscenza · R iconoscimento · R agionamento visuale · Localizzazione pianificazione · Classificazione apprendimento Elaborazione di immagini Analisi di immagini Comprensione delle immagini Sistema di elaborazione Vissione Artifificiale Vissione umaana La Visione Umana e Artificiale Un esempio Cosa vediamo? Che oggetti ci sono? Ci sono oggetti? Quanti oggetti? Q gg Come sono gli oggetti? Quanti tipi di oggetti? Cosa sono gli oggetti? Modelli 18 Un Esempio: Image processing 1. Processi di visione di basso livello Immagine sorgente Selezione di contorni filtro gaussiano estrazione di contorni labeling segmentazione Esempio: Image analysis 2. Processi di image analysis: L b li Labeling; f feature extraction i 2 5 3 1 6 8 7 10 120 Estrazione di primitive visuali: - Misura di circolarita’ (Haralick circularity) c= / - Misura di area ( 8-connection) 8 connection) 4 9 A 11 f ( i , j )R CIRCOLARITY nuts washers bullets 100 80 60 40 20 AREA 0 100 200 1 300 400 500 600 700 800 Esempio: Pattern recognition 3. Processi di visione di alto livello: clustering, ossia classificazione non supervisionata 120 CIRCOLARITY nuts washers bullets 100 80 60 40 20 0 AREA 0 100 Clustering - K-means, …. - SVM -Neural networks --Bayesian networks 200 300 400 500 600 700 800 La Visione Artificiale Geometry, Algebra Perception psycology Optical Neurofisiologia Neurophysiology del sistema visivo physics Machine Vision Elaborazione Computer delle Immagini Computer C Visione Vision Science Elaborazione Image processing delle Immagini Pattern Recognition Robotics Human computer interaction Multimedia Signal Processing Artificial intelligence Computer Graphics Machine Learning La Visione e la Geometria Visione Robotica 23 La Visione robotica La Visione come un processo supervisionato Noti i modelli a priori Ambiente strutturato e controllato Processi decisionali cablati Facilmente impiegabile in ambiente industriale Navigazione g autonoma Controllo di processo Controllo robotico Ispezione Visiva M d ll Modello Dati Visuali Visione artificiale Obiettivo 24 A bi t Ambiente Imagelab: Esperimenti di Guida Autonoma Progetto PRIITT ItalVision- ImageLab DII 2006 Impiego di telecamere stereo su robot mobili per Riconoscimento di ostacoli in real-time Identificazione della posizione e misura delle distanze Correzione della traiettoria in real-time Su p piattaforma PC Ambiente semi-strutturato Imagelab: rilevamento ostacoli Calcolo della profondità basate sulla triangolazione stereo Immagine Singola Mappa di disparità (stereo) Omografia Imagelab: Guida Autonoma Riconoscimento di pattern artificiali Pattern Artificiale Pattern orizzontali Video: Confronto di gguida autonoma Pattern Verticali 27 La Visione e il Movimento: Video Sorveglianza 28 La Visione e il movimento Aspetti visuali: Colore, forma, Tessitura Nel video: Il movimento Calcolo dei movimenti dei punti (optical flow) Rilevazione degli oggetti in movimento Calcolo e predizione dello stato di moto (tracking) 29 Imagelab:la videosorveglianza Progetti: 2005-07 2005 07 LAICA (Laboratorio di Ambient Intelligence per una Città Amica) Regione EmiliaEmilia Romagna, Italy with Univ. Parma Bologna, Comune Reggio Emilia 2006-08 2006 08 Automatic A t matic real-time real time detecti detection n off infiltrated objects bjects for f r security sec rit off airports air rts and train stations (Australian Research Council with University of technlogy, Sidney) 2006 08 FREE-SURF: 2006-08 FREE SURF Free F S Surveillance ill i a P in Privacy i R Respectful f l way Italian I li MUR PRIN Project P j 2007-09 BE-SAFE Bheavior lEarning foir Surveillance application with feature extraction –NATO Science for Peace program (Israel Hebrew Univ) 2009-2010 Smoke detection (Bridge 129) 2010-2012 THIS European project JLS (transportation hub intelligent system) 2010-2013 2010 2013 Surveillance Library TECNOPOLO TECNOPOLO-SOFTECH SOFTECH 2 2009-2011 Surveillance at working place (PRIITT Bridge 129) 30 Geometrical Computer Vision 4. Calibrazione della telecamera Dall’immagine Da specifiche tecniche della telecamera Da informazioni note a priori Object Obj t #8 Type:nuts Diameter: 22.3 mm Position (47 Position: (47,38) 38) mm Video La Visione: Movimento e Geometria Modena Soft‐biometry Estrazione, riconoscimento automatico di persone automatico di persone (Sakbot ImageLab) Prof. Rita Cucchiara – Università di Modena e Reggio Emilia Correzione prospettica altezza persona in cm: 177,43 Analisi automatica a posteriori Con PTZ Anche Volti (Video) Prof. Rita Cucchiara – Università di Modena e Reggio Emilia People Surveillance Vid Video Vid Video 35 R. Cucchiara, C. Grana, M. Piccardi, A. Prati,"Detecting Moving Objects, Ghosts and Shadows in Video Streams“ in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 25, n. 10, pp. 1337-1342, 2003 Imagelab: Laica et al. al Project Laboratorio di Ambient Intelligence per una Città Amica Piano Telematico ER Video: Public park in Reggio Emilia Emilia,, Modena Campus Abandoned Paks Il movimento per ll’analisi analisi del comportamento Video acquisition preprocessing Action Interaction Bheaviors.. Motion analysis l i Motion segmentation People d t ti detection 1) studio delle traiettorie delle persone nello spazio 2) studio del movimento delle persone (postura) 3) studio e riconoscimento delle azioni 4) riconoscimento i i d delle ll iinterazioni i i tra persone Analisi del comportamento 37 Studi sulla postura Supervised learning 38 R. Cucchiara, C. Grana, A. Prati, R. Vezzani,"Probabilistic Posture Classification for Human Behaviour Analysis" in IEEE Transactions on Systems, Man, and Cybernetics, Part A: Systems and Humans, vol. 35, n. 1, pp. 42-54, 2005 Hidden Markov Models for action analysis Pipelined HMMM for action analysis* Probabilistic parameters of a hidden Markov model (example) x — states y — possible observations a — state transition probabilities b — output probabilities 39 Video pipelined HMM *R. Vezzani, M. Piccardi, R. Cucchiara,"An efficient Bayesian framework for on-line action recognition" in Proceedings of the IEEE International Conference on Image Processing, Cairo, Egypt, November 7-11, 2009 Traiettorie e movimento 40 S. Calderara, C. Alaimo, A. Prati, R. Cucchiara,"A Real-Time System for Abnormal Path Detection" in Proceedings of 3rd IEE International Conference on Imaging for Crime Detection and Prevention (ICDP 2009), London, UK, 2009 La Visione e l’apprendimento l apprendimento Se l’ambiente e’ complesso Se il modello non definibile a priori: Impiego di feature percettive Machine Learning (apprendimento automatico da esempi) 41 Esempio: riconoscimento di persone con LogitBoost Cl Classifier ifi on Riemannian Ri i M if ld Manifolds Casc 1 Casc 2 Casc N Extract Pixel‐wise Feature 1 Image g Sub Region R Mean, var E t t Pi l i F t Extract Pixel‐wise Feature 2 2 M Mean, var Extract Pixel‐wise Feature M Mean, var Covariance CR (MxM matrix, sym pos def) Covariance C i Descriptor Riconoscimento di persone in aree aperte Sicurezza nei cantieri Dove sono gli operai? Imagelab 2009 Bridge 129 Tecnopolo di Modena Emilia Romagna Prof. Rita Cucchiara – Università di Modena e Reggio Emilia Riconoscimento di operai Telecamera ad alta definizione Selezione Regione di Interesse Rilevamento del moto Rilevamento delle prospettive Controllo di sicurezza (elmetto) Rilevamento operai Rilevamento volti e teste Prof. Rita Cucchiara – Università di Modena e Reggio Emilia Covariance Matrix on Riemannian Manifold Casc 1 Casc 2 Linear Logistic Regressor 45 Casc N on Riemannian Manifolds Euclidean Space needed Machine Laarning & Pattern Recognition Positivi Negativi Apprendimento Apprendimento parametri Estrazione di descrittori visuali i li Prof. Rita Cucchiara – Università di Modena e Reggio Emilia Sicurezza nei cantieri Prof. Rita Cucchiara – Università di Modena e Reggio Emilia La Visione e il colore: Medical Imaging 48 Il Colore: ll’analisi analisi di immagini mediche Analisi di immagini mediche in supporto alla diagnosi Visione semi-supervisionata Strumenti di ausilio Per la diagnosi precoce del melanoma 49 C. Grana, G. Pellacani, R. Cucchiara, S. Seidenari,"A New Algorithm for Border Description of Polarized Light Surface Microscopic Images of Pigmented Skin Lesions”in IEEE Transactions on Medical Imaging, vol. 22, n. 8, pp. 959-964, Aug., 2003 Percezione di colore e forma: clustering La scuola della Gestalt: • “Grouping “G is key k to visuall perception”” • (“The whole is greater than the sum of its parts”) • • • 50 Impiego di tecniche di clustering ( classificazione non supervisionata) b basate sull colore l e vicinanza spaziale l Clustering con “Mean Mean shift shift” 51 Imagelab: ll’analisi analisi di immagini mediche Median Cut 52 K-Means Fuzzy C-Means Mean Shift La Visione e l’apprendimento pp Artistic Digital Library 53 Apprendimento automatico per la ricerca di similarità Progetto Rerum Novarum (24 settembre 2010) Franco Cosimo Panini Biblioteca universitaria Estense 54 Rerum Novarum Immagini digitali: Pre-elaborazione Segmentazione e labeling Classificazione testo-immagini testo immagini Riconoscimento vignette Ricerca di similarità visuale 55 Immagini digitali: Pre-elaborazione Segmentazione e labeling Classificazione testo-immagini testo immagini Riconoscimento vignette Ricerca di similarità visuale 56 Immagini digitali: Pre-elaborazione Segmentazione e labeling Classificazione testo-immagini testo immagini Riconoscimento vignette Ricerca di similarità visuale 57 Immagini digitali: Pre-elaborazione Segmentazione e labeling Classificazione testo-immagini testo immagini Riconoscimento vignette Ricerca di similarità visuale 58 Immagini digitali: Pre-elaborazione Segmentazione e labeling Classificazione testo-immagini testo immagini Riconoscimento vignette Ricerca di similarità visuale 59 Immagini digitali: Pre-elaborazione Segmentazione e labeling Classificazione testo-immagini testo immagini Riconoscimento vignette Ricerca di similarità visuale Rerum Novarum: eseprienze virtuali nella Bibbia di Borso d’Este Modena, Biblioteca estense universitaria 24 Settembre 2010 ACM Int. Conf. on Multimedia Firenze Ottobre2010 60 Demo LA Visione artificiale nel (prossimo) futuro: Gesture e posture recognition 3D vision ( face, body..) Affective Computing: visione ed emozioni Video Mining A Augmented t d Reality R lit …….. 61 Grazie a Imagelab Prof. Rita Cucchiara Di ti Dipartimento t di Ingegneria I i dell’Informazione d ll’I f i Università degli Studi di Modena e Reggio Emilia Tel 059 2056136 Ri [email protected] hi @ i i Imagelab Andrea d Prati e DISMI Costantino Grana Roberto Vezzani Simone Calderara Giovanni Gualdi Paolo Piccinini Daniele Borghesani Paolo Santinelli Davide Baltieri Sara Chiossi Anhan Rashid http://imagelab.ing.unimo.it VISION-E srl