Diapositive della presentazione in PDF. - Imagelab

Accademia Nazione di Scienze,
Lettere e Arti di Modena
La Visione Artificiale
Ovvero: le macchine possono Vedere?
5 maggio 2010
Prof. Ing. Rita Cucchiara
p
di Ingegneria
g g
dell’ Informazione
Dipartimento
Università degli studi di Modena e Reggio Emilia
Agenda

Introduzione alla Visione Artificiale

La Visione e la geometria :Visione Robotica

La Visione e il movimento: Video Sorveglianza

La Visione e il colore: Medical Imaging

La Visione e l’apprendimento:
pp
Artistic Digital
g Libraryy
2
La Visione Artificiale

La Visione Artificiale (Computer Vision) e’ una disciplina informatica che
p
ppercettivi e visivi simili a
studia come emulare al calcolatore comportamenti
quelli biologici .
Sistema di
visione
artificiale

SStudia
di modelli,
d lli algoritmi
l i i e tecniche
i h e realizza
li
sistemi,
i
i per elaborare
l b
iin modo
d
automatico singole o multiple immagini 2D e riconoscere oggetti ed eventi nel
mondo 3D.
Che Dati?

La Visione come disciplina scientifica

si occupa della
d ll teoria d
di modellazione
d ll
d
di sistemi artificiali
f l per estrarre informazioni
f
e conoscenza da immagini, quali:
 singole foto o immagini artificiali,
 frame di sequenze video
 viste sincronizzate da telecamere multiple e distribuite
 dati visuali acquisiti da range scanner 3D e altri sensori
 dati multi-dimensionali da scanner e strumenti medici

La Visione come disciplina tecnologica

si occupa della costruzione di sistemi di visione basati sul calcolatore (machine
vision robot vision,
vision,
vision visual-based
visual based multimedia systems)
4
Che Dati?
Immagini industriali
Machine vision
Visione Robotica
Immagini e video
live per il
broadcasting
(S
(Sport,
news…))
Immagini e video
per la
Sorveglianza e
sicurezza e
Biometria
Immagini
scientifiche, fisiche, biologiche
astrofisiche, mediche…
WEB: Da www.flickr.com
www flickr com
Query”Accademia Modena”
4.219 upload nell’ultimo minuto ·
10.134 contenuti provvisti di tag tigre ·
2,7 milione di contenuti provvisti di tag
questo mese Yahoo 1/5/2010
5
Visione Artificiale: la storia

1) Studi sull’ intelligenza artificiale

2) Studi sull’ elaborazione del segnale (immagine)

3) Studi di pattern recognition

4) Studi di psicologia della percezione

5)) Studi sull’ architettura dei calcolatori
6
Studi sull
sull’architettura
architettura dei calcolatori

Ad es. Convoluzione

Filtro 5 x 5 c.a. 100 oper.
g(i, j)  f  h 
 
  f (i  m, j  n)h(m, n)dmdn
 
g(i, j)  f  h   f (i  m, j  n)h(m, n)
m n

Requisiti Computazionali:

Formato 352 × 288 PAL SIF

352x288 101.376 pixel
p
x 3 (RGB) 304.128 byte

Convoluzione 5 x 5

 30.4 MOPs milioni di operazioni …

25 fps

ENIAC 1946
5Kops
760MOPS
VAX 1970
1MoPS
BLUGENE 2009
500 T(Fl)OPS
PC x86 2009
70 G(Fl)OPS
7
Studi sull
sull’architettura
architettura dei Calcolatori

Shot detection
GP - Barein 2004

I video sono spesso codificati in
forma compressa. Se non codificati
hanno dimensioni notevoli.
N° Frame
125.000
Durata
1h 23m 20s
Risoluzione spaziale
352 x 288
Profondità colore
24 bit
Dimensione (compresso MPEG) 1,96 Gb

8
Ora analisi in real-time di video.
Di
Dimensione
i
ddecompresso
35 4 Gb
35,4
Decodifica MPEG 2 di un frame
27.1 ms
Frame rate (della decodifica)
37 fps
Tempo per l’analisi di una
transizione
1.76 s
Tempo totale per shot detection
1h 16m 16s
Studi sull
sull’elaborazione
elaborazione del Segnale

L’immagine come un segnale bidimensionale nello spazio x-y

Si applicano i modelli e tecniche di elaborazione del segnale

Es Fourier, J. B. Joseph (1822)
Image Processing
9
Studi sulla Pattern recognition

Pattern Recognition: scienza che si occupa delle metodologie per estrarre
informazioni da dati,
dati interpretandone o riconoscendone la struttura ( JJ.
Bezdek).

Scienza di base nell’informatica:

1968 Primo journal “Pattern Recognition”

1970 Fondamenti : “Picture Processing by Computer” (A. Rosenfeld)

1970 ICPR

1977 CVPR (IEEE)

1978 International Association for Pattern Recognition (IAPR) (in italia il
GIRPR nel 1983)

1979 IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI)
10
Studi di psicologia della percezione*

Pitagora: teoria Emissionistica: L’occhio emette un fascio di raggi
((“tentacoli
tentacoli visuali”)
visuali ) che
che, viaggiando nello spazio vanno a urtare gli
oggetti. L’urto tra il raggio visivo e l’oggetto suscita la sensazione della
visione.

Epicuro: teoria Intromissionista Gli oggetti inviano continuamente nello
spazio ad essi circostante le immagini di se stessi. Queste immagini
(eidola-simulacra ) entrano nell’occhio attraverso la pupilla, cosi’
rivelandosi.
rivelandosi

Platone teoria dei due fluidi : É l'incontro del fuoco visuale che è
dentro di noi, emesso dagli occhi, con il fuoco esterno della luce diurna
a determinare la visione
visione.

…

Keplero sviluppa la moderna teoria delle immagini retiniche.

Studio dell’ottica fisica
David C. Lindberg Theories of Vision Chicago University Press 1976
Studi di Psicologia Percettiva

1800 nascita della psicologia percettiva. Empirismo e nativismo: Il
problema dei fattori innati e acquisiti nella costituzione dell
dell'oggetto
oggetto
percettivo;

la teoria della percezione del colore: per l’empirismo(Helmholtz  Gregory)
deriva dall'esistenza nella retina di tre tipi di coni che ricevono segnali poi elaborati;
per il nativismo ( HeringKanizsa) esistono principi organizzatori della percezione
precedenti l’esperienza,..

‘80 la teoria della Gestalt*
*Gaetano KANIZSA: La grammatica del vedere. Bologna: Il Mulino (1980).
Studi di Psicologia Percettiva

1970 la Teoria della Gestalt
TEORIA DELLA GESTALT
proximity
p
y
similarity
y
y
z
x
t
continuity
closeness
“prägnanz” (structural coherence)
Introduzione
Studi di Psicologia Percettiva
Salvador Dali 1976
Gala Contemplating
the Mediterranean Sea
1973 LLeon Harmon
H
(B ll Labs)
(Bell
L b)
“The Recognition of Faces”
Storia della Visione

David Marr l’approccio computazionale

1982 Vision:
V
A Computational
C
l Investigation
I
into the
h Human
H
Representation
R
andd
Processing of Visual Information

La Visione computazionale: con tre tre livelli
di elaborazione:
 livello computazionale descrive il fine del sistema e le strategie che
può impiegare per conseguirlo: specifica cosa il sistema deve fare.

livello algoritmico determina le regole di input ed output del
sistema ai differenti ordini rappresentazionali.

livello di implementazione  determina quale hardware,
sostanzialmente quale livello neuronale, è in grado di supportare un tale
sistema.
I livelli della visione (computazionale)
images
Data
A priori
knowledge
models
Image acquisition
Image processing
I
Image
analysis
l i
Image
undestanding
Computational vision
Vision
16
Visione
Retinica
Visione
Corticale
Visione
Nervo ottico
corteccia
cervello
· Pre -elaborazione del segnale
· Compressione
· Selezione della regione di
interesse
· Focalizzazione della
attenzione
· Fotorecettori
· Estrazione delle primitive
visuali (colore, forma,
Tessitura, movimento..)
· Associazione a modelli di
conoscenza
· R iconoscimento
· R agionamento visuale
· Localizzazione pianificazione
· Classificazione apprendimento
Elaborazione di
immagini
Analisi di
immagini
Comprensione
delle immagini
Sistema di
elaborazione
Vissione Artifificiale
Vissione umaana
La Visione Umana e Artificiale
Un esempio

Cosa vediamo?

Che oggetti ci sono?

Ci sono oggetti?

Quanti oggetti?
Q
gg

Come sono gli oggetti?

Quanti tipi di oggetti?

Cosa sono gli oggetti?
Modelli
18
Un Esempio: Image processing

1. Processi di visione di basso livello
Immagine sorgente
Selezione di contorni
filtro gaussiano
estrazione di contorni
labeling 
segmentazione
Esempio: Image analysis

2. Processi di image analysis:

L b li
Labeling;
f
feature
extraction
i
2
5
3
1
6
8
7
10
120
Estrazione di primitive visuali:
- Misura di circolarita’ (Haralick circularity) c= /
- Misura di area ( 8-connection)
8 connection)
4
9
A
11
f ( i , j )R
CIRCOLARITY
nuts
washers
bullets
100
80
60
40
20
AREA
0
100
200
1
300
400
500
600
700
800
Esempio: Pattern recognition
3. Processi di visione di alto livello:

clustering, ossia classificazione non supervisionata
120
CIRCOLARITY
nuts
washers
bullets
100
80
60
40
20
0
AREA
0
100
Clustering
- K-means, ….
- SVM
-Neural networks
--Bayesian networks
200
300
400
500
600
700
800
La Visione Artificiale
Geometry, Algebra
Perception
psycology
Optical
Neurofisiologia
Neurophysiology
del sistema
visivo
physics
Machine Vision
Elaborazione
Computer
delle Immagini
Computer
C
Visione
Vision
Science
Elaborazione
Image processing
delle Immagini
Pattern
Recognition
Robotics
Human computer
interaction
Multimedia
Signal Processing
Artificial
intelligence
Computer
Graphics
Machine
Learning
La Visione e la Geometria
Visione Robotica
23
La Visione robotica

La Visione come un processo supervisionato

Noti i modelli a priori

Ambiente strutturato e controllato

Processi decisionali cablati

Facilmente impiegabile in ambiente industriale
 Navigazione
g
autonoma
 Controllo di processo
 Controllo robotico
 Ispezione Visiva
M d ll
Modello
Dati Visuali
Visione
artificiale
Obiettivo
24
A bi t
Ambiente
Imagelab: Esperimenti di Guida Autonoma

Progetto PRIITT ItalVision- ImageLab DII 2006

Impiego di telecamere stereo su robot mobili per
 Riconoscimento di ostacoli in real-time
 Identificazione della posizione e misura delle distanze
 Correzione della traiettoria in real-time

Su p
piattaforma PC

Ambiente semi-strutturato
Imagelab: rilevamento ostacoli

Calcolo della profondità basate sulla triangolazione
stereo
Immagine Singola
Mappa di disparità (stereo)
Omografia
Imagelab: Guida Autonoma

Riconoscimento di pattern artificiali
Pattern Artificiale
Pattern orizzontali
Video:
Confronto di gguida autonoma
Pattern Verticali
27
La Visione e il Movimento:
Video Sorveglianza
28
La Visione e il movimento

Aspetti visuali:

Colore,

forma,

Tessitura

Nel video:
 Il movimento
 Calcolo dei movimenti dei punti (optical flow)
 Rilevazione degli oggetti in movimento
 Calcolo e predizione dello stato di moto (tracking)
29
Imagelab:la videosorveglianza
Progetti:
2005-07
2005
07 LAICA (Laboratorio di Ambient Intelligence per una Città Amica) Regione EmiliaEmilia
Romagna, Italy with Univ. Parma Bologna, Comune Reggio Emilia
2006-08
2006
08 Automatic
A t matic real-time
real time detecti
detection
n off infiltrated objects
bjects for
f r security
sec rit off airports
air rts and train
stations (Australian Research Council with University of technlogy, Sidney)
2006 08 FREE-SURF:
2006-08
FREE SURF Free
F
S
Surveillance
ill
i a P
in
Privacy
i
R
Respectful
f l way Italian
I li MUR PRIN Project
P j
2007-09 BE-SAFE Bheavior lEarning foir Surveillance application with feature extraction –NATO
Science for Peace program (Israel Hebrew Univ)

2009-2010 Smoke detection (Bridge 129)

2010-2012 THIS European project JLS (transportation hub intelligent system)

2010-2013
2010
2013 Surveillance Library TECNOPOLO
TECNOPOLO-SOFTECH
SOFTECH 2

2009-2011 Surveillance at working place (PRIITT Bridge 129)
30
Geometrical Computer Vision

4. Calibrazione della telecamera
Dall’immagine
Da specifiche tecniche
della telecamera
Da informazioni note a priori
Object
Obj
t #8
Type:nuts
Diameter: 22.3 mm
Position (47
Position:
(47,38)
38) mm
Video
La Visione: Movimento e Geometria
Modena
Soft‐biometry
Estrazione, riconoscimento automatico di persone
automatico di persone
(Sakbot ImageLab)
Prof. Rita Cucchiara – Università di
Modena e Reggio Emilia
Correzione prospettica
altezza persona in cm: 177,43
Analisi automatica a posteriori
Con PTZ
Anche Volti (Video)
Prof. Rita Cucchiara – Università di
Modena e Reggio Emilia
People Surveillance
Vid
Video
Vid
Video
35 R. Cucchiara, C. Grana, M. Piccardi, A. Prati,"Detecting Moving Objects, Ghosts and Shadows in Video Streams“
in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 25, n. 10, pp. 1337-1342, 2003
Imagelab: Laica et al.
al

Project Laboratorio di Ambient Intelligence per una Città Amica Piano Telematico ER
Video:
Public
park in Reggio Emilia
Emilia,,
Modena Campus
Abandoned Paks
Il movimento per ll’analisi
analisi del comportamento
Video
acquisition
preprocessing
Action
Interaction
Bheaviors..





Motion
analysis
l i
Motion
segmentation
People
d t ti
detection
1) studio delle traiettorie delle persone
nello spazio
2) studio del movimento delle persone
(postura)
3) studio e riconoscimento delle azioni
4) riconoscimento
i
i
d
delle
ll iinterazioni
i i tra
persone
Analisi del comportamento
37
Studi sulla postura
Supervised learning
38
R. Cucchiara, C. Grana, A. Prati, R. Vezzani,"Probabilistic Posture Classification for Human Behaviour Analysis"
in IEEE Transactions on Systems, Man, and Cybernetics, Part A: Systems and Humans, vol. 35, n. 1, pp. 42-54, 2005
Hidden Markov Models for action analysis

Pipelined HMMM for action analysis*
Probabilistic parameters of a hidden Markov
model (example)
x — states
y — possible observations
a — state transition probabilities
b — output probabilities
39
Video pipelined HMM
*R. Vezzani, M. Piccardi, R. Cucchiara,"An efficient Bayesian framework for on-line action recognition"
in Proceedings of the IEEE International Conference on Image Processing, Cairo, Egypt, November 7-11, 2009
Traiettorie e movimento
40
S. Calderara, C. Alaimo, A. Prati, R. Cucchiara,"A Real-Time System for Abnormal Path Detection"
in Proceedings of 3rd IEE International Conference on Imaging for Crime Detection and Prevention (ICDP 2009), London, UK, 2009
La Visione e l’apprendimento
l apprendimento

Se l’ambiente e’ complesso

Se il modello non definibile a priori:

Impiego di feature percettive

Machine Learning (apprendimento automatico da esempi)
41
Esempio: riconoscimento di persone con LogitBoost
Cl
Classifier
ifi on Riemannian
Ri
i
M if ld
Manifolds
Casc 1
Casc 2
Casc N
Extract Pixel‐wise Feature 1
Image
g
Sub
Region R
Mean, var
E t t Pi l i F t
Extract Pixel‐wise Feature 2
2
M
Mean, var
Extract Pixel‐wise Feature M
Mean, var
Covariance
CR
(MxM
matrix, sym
pos def)
Covariance
C
i
Descriptor
Riconoscimento di persone in aree aperte
Sicurezza nei cantieri
Dove sono gli operai?
Imagelab 2009
Bridge 129
Tecnopolo di Modena
Emilia Romagna
Prof. Rita Cucchiara – Università di
Modena e Reggio Emilia
Riconoscimento di operai
Telecamera ad
alta definizione
Selezione
Regione di
Interesse
Rilevamento
del moto
Rilevamento
delle
prospettive
Controllo di
sicurezza
(elmetto)
Rilevamento
operai
Rilevamento
volti e teste
Prof. Rita Cucchiara – Università di
Modena e Reggio Emilia
Covariance Matrix on Riemannian Manifold
Casc 1
Casc 2
Linear Logistic Regressor
45
Casc N
on Riemannian Manifolds
Euclidean Space needed
Machine Laarning & Pattern Recognition
Positivi
Negativi
Apprendimento
Apprendimento
parametri
Estrazione di
descrittori
visuali
i li
Prof. Rita Cucchiara – Università di
Modena e Reggio Emilia
Sicurezza nei cantieri
Prof. Rita Cucchiara – Università di
Modena e Reggio Emilia
La Visione e il colore:
Medical Imaging
48
Il Colore: ll’analisi
analisi di immagini mediche

Analisi di immagini mediche in supporto alla diagnosi

Visione semi-supervisionata
Strumenti di ausilio
Per la diagnosi precoce del
melanoma
49
C. Grana, G. Pellacani, R. Cucchiara, S. Seidenari,"A New Algorithm for Border Description of Polarized Light Surface
Microscopic Images of Pigmented Skin Lesions”in IEEE Transactions on Medical Imaging, vol. 22, n. 8, pp. 959-964, Aug., 2003
Percezione di colore e forma: clustering

La scuola della Gestalt:
• “Grouping
“G
is key
k to visuall perception””
• (“The whole is greater than the sum of its parts”)
•
•
•
50
Impiego di tecniche di clustering
( classificazione non supervisionata)
b
basate
sull colore
l
e vicinanza spaziale
l
Clustering con “Mean
Mean shift
shift”
51
Imagelab: ll’analisi
analisi di immagini mediche
Median Cut
52
K-Means
Fuzzy C-Means
Mean Shift
La Visione e l’apprendimento
pp
Artistic Digital Library
53
Apprendimento automatico per la ricerca di
similarità

Progetto Rerum Novarum (24 settembre 2010)

Franco Cosimo Panini

Biblioteca universitaria Estense
54
Rerum Novarum

Immagini digitali:

Pre-elaborazione

Segmentazione e labeling

Classificazione testo-immagini
testo immagini

Riconoscimento vignette

Ricerca di similarità visuale
55

Immagini digitali:

Pre-elaborazione

Segmentazione e labeling

Classificazione testo-immagini
testo immagini

Riconoscimento vignette

Ricerca di similarità visuale
56

Immagini digitali:

Pre-elaborazione

Segmentazione e labeling

Classificazione testo-immagini
testo immagini

Riconoscimento vignette

Ricerca di similarità visuale
57

Immagini digitali:

Pre-elaborazione

Segmentazione e labeling

Classificazione testo-immagini
testo immagini

Riconoscimento vignette

Ricerca di similarità visuale
58

Immagini digitali:

Pre-elaborazione

Segmentazione e labeling

Classificazione testo-immagini
testo immagini

Riconoscimento vignette

Ricerca di similarità visuale
59

Immagini digitali:

Pre-elaborazione

Segmentazione e labeling

Classificazione testo-immagini
testo immagini

Riconoscimento vignette

Ricerca di similarità visuale
Rerum Novarum: eseprienze virtuali nella Bibbia di Borso d’Este
Modena, Biblioteca estense universitaria 24 Settembre 2010
ACM Int. Conf. on Multimedia Firenze Ottobre2010
60
Demo
LA Visione artificiale nel (prossimo) futuro:






Gesture e posture recognition
3D vision ( face, body..)
Affective Computing: visione ed emozioni
Video Mining
A
Augmented
t d Reality
R lit
……..
61
Grazie a Imagelab
Prof. Rita Cucchiara
Di ti
Dipartimento
t di Ingegneria
I
i dell’Informazione
d ll’I f
i
Università degli Studi di Modena e Reggio Emilia
Tel 059 2056136
Ri
[email protected]
hi @ i
i
Imagelab
Andrea
d
Prati e DISMI
Costantino Grana
Roberto Vezzani
Simone Calderara
Giovanni Gualdi
Paolo Piccinini
Daniele Borghesani
Paolo Santinelli
Davide Baltieri
Sara Chiossi
Anhan Rashid
http://imagelab.ing.unimo.it
VISION-E srl