Sistemi di Visione
Sistemi di Visione
Hardware
Ogni applicazione reale di pattern recognition, necessita
di un sistema hardware per l’acquisizione del segnale:
Telecamere: applicazioni on-line: visione robotica, ispezione
industriale, sorveglianza, riconoscimento volto, ecc.
Sistemi Multicamera: per la ricostruzione 3D o la visione
panoramica.
Macchine fotografiche digitali: applicazioni off-line che
richiedono alta qualità dell’immagine.
Scanner: analisi di documenti, OCR, lettura codici, ...
Frame Grabber e schede image processing.
HW specializzato (sensori infrarossi, sonde ultrasoniche, TAC,
lettori impronte digitali) medicina, biometria, telerilevamento,
...
V&R
prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna
1
Sistemi di Visione
altre risorse ...
Letteratura:
Libri: indispensabili per la comprensione approfondita di
determinati argomenti (vedi bibliografia).
Survey: articoli introduttivi ai diversi argomenti o settori
applicativi (vedi bibliografia).
Articoli su Riviste: esistono decine di riviste dedicate al settore
del PR; le più note:
IEEE transaction on Pattern Analysis and Machine Intelligence
Pattern Recognition
Pattern Recognition Letter
Archivi e motori di ricerca
Google (oramai universale anche per letteratura scientifica)
Computer Vision Bibliography - USC Los Angeles
http://www.visionbib.com/bibliography/contents.html
Siti Internet
Home Page Interessanti
Computer Vision Homepage
http://www.cs.cmu.edu/~cil/vision.html
Pattern Recognition on the Web
http://cgm.cs.mcgill.ca/~godfried/teaching/pr-web.html
International Association for Pattern Recognition (IAPR)
http://www.iapr.org/
BIOLAB
http://biolab.csr.unibo.it/
V&R
prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna
2
Sistemi di Visione
Telecamere
Obiettivo
Uscita
Alim.
CCD o CMOS
Funzionamento
Utilizzano un array bidimensionale (sensore) di elementi
fotosensibili realizzati su Silicio che convertono luce in corrente
elettrica.
Sensori CCD (migliore qualità)
Sensori CMOS (tecnologia più recente ed economica)
L’immagine è focalizzata sul sensore mediante un obiettivo
(normalmente intercambiabile) che determina l’ingrandimento e
quindi il campo visivo.
L’elettronica interna scandisce i pixel del sensore e impacchetta
l’informazione in un segnale d’uscita (analogico o digitale).
Per le versioni a colori vengono utilizzati filtri R, G, B:
Possono essere
realizzati
direttamente
all’interno del
sensore tramite una
mascheratura dei
pixel (Bayer pattern)
I modelli
professionali
utilizzano 3
sensori ognuno
mascherato su
un diverso
colore
V&R
prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna
3
Sistemi di Visione
Tipologie (1)
WebCam (entry level: 50-150€ )
Uscita digitale (direttamente interfacciabili al PC tramite USB).
Risoluzione: CIF 352x288, VGA 640x480, HD 1280×720,
Full HD 1920×1080
15-30 frame/secondo a colori
Immagini piuttosto sfuocate e otticamente distorte, anche se la
qualità dei diversi modelli è molto variabile (preferire i modelli
“Pro”).
Collegabili all’applicazione con interfacciamento VFW (Video
for Windows), TWAIN, WDM, Still Image, ...
Idonee per applicazioni dove la qualità non è fondamentale; es:
riconoscimento del volto, sorveglianza.
Esempio:
Logitech®
QuickCam® Pro 5000
V&R
prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna
4
Sistemi di Visione
Tipologie (2)
IpCam o NetCam (medium level: 200-500€ )
Uscita digitale (interfaccia di rete Ethernet, anche WiFi ).
Risoluzione CIF: 352x288 o VGA 640x480 ma anche Megapixel
Cattura a 15-30 frame/secondo a colori ma attenzione alle
limitazioni di frame rate per il trasferimento in rete (specie se
WiFi).
Immagini adeguate per applicazioni di Videosorveglianza.
Alcuni modelli possono operare anche outdoor.
Esistono modelli brandeggiati con controllo remoto (PC),
montati all’interno di cupole in plastica “dome”.
Semplicemente collegabili all’applicazione con interfacciamento
su protocollo http su TCP/IP.
Esempio:
Toshiba® IK-WB11A
V&R
prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna
5
Sistemi di Visione
Tipologie (3)
Analogiche (vasta gamma di modelli: 100€-2.000€ )
Uscita analogica  necessario Frame Grabber.
Frame Grabber interfacciabili all’applicazione con librerie
proprietarie (talvolta compatibili VFW).
Segnali Compositi inglobano intensità e colore in unico canale:
Standard
Tipo
Paese
Righe (V)
Colonne
(H = 4:3 V)
RS-170
B/N
USA
485 (525)
640
CCIR
B/N
Europa
575 (625)
768
NTSC
Colori
USA
485 (525)
640
PAL
Colori
Europa
575 (625)
768
SECAM
Colori
Francia, Russia, ...
575 (625)
768
Y/C (incorrettamente chiamato anche S-VHS) separa luminanza e
crominanza in 2 canali
RGB separa le 3 bande di colore su 3 canali diversi.
Esempi:
Matrox™
Meteor II
Sony™
V&R
prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna
6
Sistemi di Visione
Tipologie (4)
Digitali, progressive scan (professionali: 500€-10.000€ )
A differenza delle telecamere analogiche che acquisiscono frame
pari e dispari a metà risoluzione (modo interlacciato) e sono
forzate a un output “televisivo” con risoluzione verticale molto
limitata, le progressive scan camera:
Restituiscono frame a piena risoluzione (non interlacciati)
Non hanno limitazioni nella risoluzione verticale/orizzontale
Normalmente hanno pixel quadrati (non essendo vincolati a 4:3)
L’output è solitamente digitale (talvolta è previsto un ulteriore
output analogico per il controllo immediato dell’immagine su
monitor)
Numero di pixel: tipicamente  1000x1000 (fino a 9000x9000
pixel in modelli usati in astronomia!)
Interfacciamento:
Frame grabber con input digitali
USB, IEEE 1394 (FireWire)
Camera Link
Schede “ad-hoc”.
Esempi:
Kodak™
Pulnix™
V&R
prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna
7
Sistemi di Visione
Tipologie (5)
Smart Camera (professionali: 1.000€-20.000€ )
Una smart camera è un sistema di visione integrato che, oltre
alla circuiteria per l’acquisizione dell’immagine, include un
processore (Microprogessore o DSP) che è in grado di eseguire a
bordo elaborazioni dell’immagine, e un’interfaccia (es. Ethernet)
per rendere disponibili i risultati ad altri sistemi (es. un PC).
Non necessita dunque obbligatoriamente di un PC e spesso può
essere programmata con tool visuali che non richiedeono
competenze di programmazione.
Le caratteristiche delle immagini acquisite sono simili alle
progressive scan. La potenza di calcolo dei modelli base è
ridotta, ma i modelli di punta possono avere potenze superiori a
PC (8000 MIPS o più).
Esempi:
Matrox™ Series
V&R
prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna
8
Sistemi di Visione
Parametri fondamentali
Field of View
Working distance
Resolution
Depth of Field
Sensor Size
V&R
prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna
9
Sistemi di Visione
La scelta dell’obiettivo
Qualche calcolo di ottica ...
L’equazione del “costruttore di lenti da occhiale” mette in
relazione:
La distanza dell’oggetto dalla lente: o
La distanza del punto di formazione
dell’immagine dalla lente: i
1 1 1
 
f i o
La lunghezza focale dell’obiettivo: f
Oggetto
CCD
Obiettivo

l1
l2
f
i
o
d’altro canto da semplici considerazioni geometriche, il fattore di
ingrandimento M può essere calcolato come:
M
l2 o

l1 i
combinando le due formule si ottiene:
f  o
l1
l1  l2
V&R
prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna
10
Sistemi di Visione
La scelta dell’obiettivo (2)
Gli input del problema sono solitamente:
1. la dimensione del CCD (o CMOS) : l1
2. la dimensione dell’oggetto l2 e la sua distanza dall’obiettivo o
3. in alternativa a 2) l’angolo visivo (FOW): 
Data una telecamera che monta un CCD da 1/3” si vuole
inquadrare (coprendo la maggior parte possibile dell’immagine)
un oggetto di dimensione 40 cm (lato lungo) posto a una distanza
di 50 cm dall’obiettivo. Calcolare il fattore di ingrandimento, la
lungh focale dell’obiettivo e l’angolo visivo risultante ?
o = 500 mm
l1 = 4.8 mm (lato orizzontale del sensore)
l2 = 400 mm
M = 83.3 mm
f = 5.9 mm (commerciale 6 mm)
 = 2  arctg(l2/(2o))  43
Profondità di campo:
Diaframmando l’obiettivo si incrementa
f-number = lung. focale / diametro;
conseguentemente diminuisce la luce e
aumenta la profondità di campo
V&R
prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna
11
Sistemi di Visione
Distorsione
Causata da aberrazioni geometriche dell’obiettivo:
Distorsione %  
Dis tan za attuale  AD  Dis tan za vera PD
100
Dis tan za vera PD
Normalmente molto più accentuata su obiettivi di basso costo.
Viene corretta otticamente con obiettivi multi-lente.
Difficile da correggere per obiettivi a corte focali (es. <14 mm).
Correzione via software:
Conoscendo le caratteristiche del sistema ottico.
Utilizzando target campione.
V&R
prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna
12
Sistemi di Visione
Errori di prospettiva (parallasse)
Causati da riduzione a 2D di oggetti 3D:
Oggetti più vicini appaiono più grandi ...
Problemi su oggetti dotati di profondità.
Con lenti “telecentriche” si riesce a correggere il fenomeno
purché l’oggetto sia più piccolo del diametro dell’obiettivo.
Errore prospettico dovuto ad un’ottica tradizionale (a sinistra) e
assenza di errore prospettico (a destra) con un obiettivo
telecentrico (ref: http://www.opto-engineering.it/telecentric.php )
V&R
prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna
13
Sistemi di Visione
Illuminazione
Una corretta illuminazione:
Consente di catturare immagini di elevata qualità
Può semplificare il compito del processing dell’immagine.
Frontale diffusa
Direzionale
Anello guida
V&R
prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna
14
Sistemi di Visione
Illuminazione (2)
Luce Radente
Luce polarizzata
Fasci laser
semplificano la ricostruzione dei
profili 3D degli oggetti
Assiale diffusa
V&R
prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna
15
Sistemi di Visione
Filtri ottici
Anteponendo all’obiettivo un filtro:
E’ possibile aumentare il contrasto di determinati particolari
dell’immagine.
Utilizzare una telecamera monocromatica (risoluzione più
elevata e costo inferiore) per la discriminazione dei colori.
V&R
prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna
16
Sistemi di Visione
Macchine Fotografiche Digitali
Il funzionamento è identico a quello delle telecamere, ovvero è
sempre basato su un CCD o CMOS. La differenza principale è
dovuta al fatto di dover catturare un solo frame (snapshot) invece di
una sequenza di frame.
In realtà con molti modelli di macchine fotografiche digitali è
possibile:
Catturare e salvare su Flash Memory brevi filmati
Inviare l’output analogico (live) a un TV o frame grabber
(segnale videocomposito)
Inviare l’output digitale (live) a un PC tramite USB o FireWire
ed essere pilotata dal PC (sincronizzazione) per l’acquisizione
di uno o più frame.
Quest’ultima caratteristiche rende questo nuovo tipo di periferica
estremamente interessante per lo sviluppo di sistemi di visione PCbased in quanto:
la qualità delle immagini (grazie anche all’ottica di qualità) è
spesso comparabile a quella di modelli “industriali” molto più
costosi.
per l’interfacciamento è necessario SDK del fornitore
V&R
prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna
17
Sistemi di Visione
Scanner
Funzionamento
Utilizzano un array lineare (sensore) di elementi fotosensibili
realizzati su Silicio che convertono luce in corrente elettrica.
Questo array è in grado di catturare una sola riga dell’immagine
per volta (ma a risoluzione molto elevata rispetto a una
telecamera) pertanto viene meccanicamente trascinato per
scandire l’intera immagine.
Hanno una risoluzione molto più elevata delle telecamere ma
sono molto più lenti. Parametri fondamentali per la scelta:
Risoluzione in DPI (es: 4800  9600). Attenzione alle differenze tra
risoluzione ottica e quella interpolata!
Profondità del colore in bit (es: 48 bit)
Velocità di acquisizione/trasferimento
Attenzione ! un’immagine A4 a colori acquisita da scanner a 300
DPI in formato RGB non compresso occupa:
21 cm  29.7 cm = 8.27”  11.69” = 2481  3507 pixel  25 Mbyte
Sono preferibili alle telecamere nella maggior parte delle
applicazioni che richiedono l’acquisizione di documenti cartacei
(OCR, Document Analysis, CAD).
Esempio:
HP Scanjet
V&R
prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna
18