1
Capitolo 2 - Formazione ed Acquisizione delle Immagini
INTRODUZIONE
Prima di studiare le metodologie di elaborazione delle immagini mediante un calcolatore,
è opportuno analizzare la relazione che sussiste fra la scena 3D osservata e l’immagine
della scena che viene immagazzinata nella memoria del calcolatore .
• FORMAZIONE DELL’IMMAGINE
Relazione che sussiste fra la scena e l’immagine prodotta sul piano sensibile della
telecamera. Tale studio riguarda due quesiti fondamentali:
– Qual’è la relazione geometrica che determina la corrispondenza fra punti della
scena e punti dell’immagine ?
– Che cosa determina l’intensità luminosa di un dato punto dell’immagine ?
• ACQUISIZIONE DELL’IMMAGINE
Relazione che sussiste fra l’immagine prodotta sul piano sensibile della telecamera
e quella disponibile nella memoria del calcolatore.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
2
Capitolo 2 - Formazione ed Acquisizione delle Immagini
TELECAMERA DI TIPO “PINHOLE”
La “pinhole camera” è il più semplice dispositivo in grado di formare un’immagine di una
scena tridimensionale: la luce passa attraverso un piccolissimo foro e forma sul piano
sensibile un’immagine invertita della scena.
“Pinhole”
Immagine
Oggetto
Geometricamente l’immagine può essere costruita tracciando dei raggi rettilinei che
partono dai punti della scena ed intersecano il piano immagine passando attraverso il foro.
Anche se un dispositivo di questo tipo può essere usato per ottenere delle immagini, la
sua importanza risiede principalmente nel fatto che esso costituisce un modello adeguato
del processo di formazione dell’immagine proprio delle moderne telecamere VIDICON e
CCD.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
Capitolo 2 - Formazione ed Acquisizione delle Immagini
3
PROIEZIONE PROSPETTICA
La proiezione prospettica (o proiezione centrale) costituisce il modello geometrico adatto
a rappresentare la formazione dell’immagine in una telecamera di tipo pinhole.
M : punto della scena
m : immagine di M
I : piano immagine
C : centro ottico
Semiretta passante per C e normale a I : asse ottico
c : intersezione dell’asse ottico con il piano immagine (“piercing point”)
f : lunghezza focale
F : piano focale
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
Capitolo 2 - Formazione ed Acquisizione delle Immagini
4
PROIEZIONE PROSPETTICA
Considerando un sistema di riferimento centrato nel centro ottico, le equazioni (nonlineari) che legano le coordinate 3D di un punto e le sue coordinate immagine sono date
da :
u v
f
fx
fy
= =− ⇒u=− ,v=−
x y
z
z
z
Generalmente si preferisce eliminare l’inversione del segno delle coordinate che caratterizza le equazioni precedenti considerando come piano immagine il piano parallelo ad I e
localizzato a distanza f da C. In tal caso:
u=
fy
fx
,v=
z
z
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
Capitolo 2 - Formazione ed Acquisizione delle Immagini
5
PROIEZIONE PROSPETTICA
Il processo di formazione dell’immagine implica il “mapping” di una scena 3D in un
immagine 2D. Evidentemente, ciò comporta una perdita di informazione.
Le equazioni della proiezione prospettica indicano chiaramente come la corrispondenza
fra punti della scena e punti dell’immagine non sia biunivoca: ad un punto della scena
corrisponde un unico punto dell’immagine, ma ad un punto dell’immagine corrispondono
infiniti punti della scena (con riferimento alla figura del lucido precedente, il punto m è
l’immagine di tutti i punti della scena appartenenti alla semiretta CM).
L’immagine non ci dice nulla sulla distanza dei punti 3D, ci dice solo che un punto appartiene ad un determinato raggio ma non a quale distanza esso si trova lungo il raggio
di appartenenza.
La perdita di informazione associata alla formazione dell’immagine fa si che il problema
di ricostruire la struttura 3D della scena a partire da un’unica immagine non ammetta
una soluzione univoca.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
6
Capitolo 2 - Formazione ed Acquisizione delle Immagini
VARIAZIONE DELLE DIMENSIONI IN FUNZIONE DELLA DISTANZA
Quanto più gli oggetti sono lontani dalla telecamera, tanto più appaiono piccoli nell’immagine.
Dimostriamo questa proprietà della proiezione prospettica considerando un segmento di
T
lunghezza L centrato nel punto M0 = x0 y0 z0
. Gli estremi del segmento possono
essere espressi come:
⎡
M1 = M0 −
dove a b c
T
L ⎢⎢
⎢
2⎣
⎤
a⎥
b ⎥⎥⎦ ,
c
⎡
M2 = M0 +
L ⎢⎢
⎢
2⎣
a
b
c
⎤
⎥
⎥
⎥
⎦
è il vettore dei coseni direttori del segmento.
Proiettando M1 ed M2 sul piano immagine otteniamo:
m1 = f
x0 − L2 a
z0 − L2 c
y0 − L2 b
z0 − L2 c
T
,
m2 = f
x0 + L2 a
z0 + L2 c
y0 + L2 b
z0 + L2 c
T
da cui segue che la lunghezza dell’immagine del segmento può essere espressa come:
l=
√
w2 + h2 ,
w = fL
az0 − cx0
2
z02 − L4 c2
h = fL
bz0 − cy0
2
z02 − L4 c2
Dalle espressioni di w ed h si deduce che l decresce all’aumentare di z0 : il segmento
appare più piccolo al crescere della sua distanza dalla telecamera.
Nel caso particolare in cui il segmento sia parallelo al piano immagine (c = 0), la sua
lunghezza è inversamente proporzionale alla distanza dalla telecamera:
l=
Elaborazione dell’Immagine L-S, A.A. 2003-2004
fL
z0
Luigi Di Stefano
7
Capitolo 2 - Formazione ed Acquisizione delle Immagini
PROPRIETÀ RELATIVE ALLA TRASFORMAZIONE DI RETTE
• Le proiezione prospettica trasforma le rette dello spazio 3D in rette del piano immagine.
Consideriamo una retta dello spazio 3D espressa mediante l’equazione:
⎧
⎨
x = mz + p
y = nz + q
⎩
Applicando le equazioni della proiezione prospettica ad un generico punto appartenente alla retta si ottiene:
⎧
⎨
⎩
Ricavando
f
z
u = f mz+p
= f m + f pz
z
v = f nz+q
= f n + f zq
z
dalla prima equazione si ottiene
u − fm
f
=
z
p
e sostituendo nella seconda
q
q
v = u+f n−m
p
p
che rappresenta l’equazione di una retta del piano immagine.
• La proiezione prospettica non conserva i rapporti di lunghezze lungo le rette.
Verifichiamo la proprietà considerando il segmento del lucido precedente ed osservando che il punto medio dell’immagine del segmento (m0 ) non coincide, in
generale, con l’immagine del punto medio del segmento 3D (m0 ):
⎡
2
L
⎢ x0 z0 − 4 ac
m0 = f ⎣ 2 L2 2
z0 − 4 c
2
⎤T
y0 z0 − L4 bc ⎥
⎦ ,
2
z02 − L4 c2
x0
m0 = f
z0
y0
z0
T
• Le immagini di rette parallele dello spazio 3D aventi pendenza non nulla lungo l’asse
z si incontrano in un punto di fuga.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
Capitolo 2 - Formazione ed Acquisizione delle Immagini
8
PUNTI DI FUGA
Nell’ immagine seguente le rette orizzontali della scena convergono verso un punto di
fuga nell’immagine.
L’uso della prospettiva e dei punti fuga fu introdotto dagli artisti del Rinascimento al
fine di rappresentare in modo realistico la struttura 3D della scena. In questo celebre
dipinto del Masaccio le rette parallele della volta convergono verso un punto di fuga
situato nella parte bassa del dipinto. Ciò consente all’artista di rendere la struttura 3D
della volta cosı̀ come apparirebbe ad un osservatore che guarda la scena dal basso verso
l’alto.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
Capitolo 2 - Formazione ed Acquisizione delle Immagini
9
PUNTI DI FUGA
Il punto di fuga di una retta 3D è l’immagine del punto della retta situato a distanza
infinita dal centro della proiezione prospettica (“vanishing point”).
La figura mostra che il punto di fuga di una retta è dato dall’intersezione con il piano
immagine della parallela alla retta passante per il centro ottico. Ne segue che il punto di
fuga dipende solo dall’orientazione della retta e che, ad eccezione delle rette parallele al
piano immagine, rette parallele nello spazio si incontrano in un punto di fuga del piano
immagine.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
10
Capitolo 2 - Formazione ed Acquisizione delle Immagini
PUNTI DI FUGA
Determiniamo le espressioni delle coordinate immmagine del punto di fuga di una generica
retta dello spazio. A tal fine consideriamo la retta:
⎡
⎢
M = M0 + λD = ⎢⎢⎣
x0
y0
z0
⎡
⎤
a
⎢
⎥
⎢
⎥
⎥+λ⎢ b
⎣
⎦
c
⎤
⎥
⎥
⎥
⎦
dove M0 è un punto appartenente alla retta (posizione) e D è il vettore dei coseni
direttori (orientazione).
La proiezione sul piano immagine di un punto appartenente alla retta è data da:
⎡
m=⎣
⎤
u⎦
,
v
u=f
x0 + λa
,
z0 + λc
v=f
y0 + λb
z0 + λc
Poiché il punto di fuga è la proiezione del punto all’infinito della retta:
⎡
m∞ = ⎣
u∞
v∞
⎤
a
u∞ = lim u = f ,
λ→∞
c
⎦,
v∞ = lim v = f
λ→∞
b
c
Come ci si attendeva, il punto di fuga dipende solo dall’orientazione della retta, e non
dalla posizione, e quando c = 0 la retta è parallela al piano immagine ed il punto di fuga
è all’infinito. Inoltre, nel caso c = 0 l’immagine della retta è parallela alla retta 3D:
u=f
x0 + λa
,
z0
v=f
y0 + λb
z0
moltiplicando la prima equazione per b e la seconda per a:
bu = f
bx0 + λab
,
z0
av = f
ay0 + λab
z0
sottraendo la prima alla seconda ed esprimendo v in funzione di u:
b
f
v = u+
(ay0 − bx0)
a
z0 a
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
11
Capitolo 2 - Formazione ed Acquisizione delle Immagini
ORIENTAZIONE DI UN FASCIO DI RETTE 3D PARALLELE
La conoscenza del punto di fuga di un fascio di rette 3D parallele consente di determinare
l’orientazione del fascio.
Dimostriamo quindi che a partire dalle coordinate del punto di fuga è possibile ricavare
il vettore dei coseni direttori delle rette 3D parallele che, nell’immagine, si incontrano
nel punto di fuga.
A tale scopo consideriamo le equazioni che forniscono le coordinate del punto di fuga
in funzione dell’orientazione della retta ed imponiamo che il vettore dei coseni direttori
abbia lunghezza unitaria:
⎧
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎨
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎩
u∞ = f ac
v∞ = f bc
a2 + b2 + c2 = 1
Elevando al quadrato e sommando le prime due equazioni, e sfruttando la terza:
2
c2 u2∞ + v∞
= f 2 1 − c2
da cui si ottiene:
c=
f
2 + f2
u2∞ + v∞
Sostituendo c nelle prime 2:
a=√
u∞
2 +f 2
u2∞ +v∞
b= √
v∞
2
2 +f 2
u∞ +v∞
Il vettore dei coseni direttori può quindi essere espresso come:
⎡
⎢
⎢
⎢
⎣
a
b
c
⎤
⎥
⎥
⎥
⎦
⎡
=
⎢
1
⎢
⎢
2
2
2
u∞ + v∞ + f ⎣
Elaborazione dell’Immagine L-S, A.A. 2003-2004
u∞
v∞
f
⎤
⎥
⎥
⎥
⎦
Luigi Di Stefano
12
Capitolo 2 - Formazione ed Acquisizione delle Immagini
PUNTO DI FUGA ED ORIENTAZIONE A PARTIRE DALLE IMMAGINI
DI 2 SEGMENTI 3D PARALLELI
L’orientazione di un fascio di rette 3D parallele può essere determinata a partire dalle
immagini di due segmenti paralleli. Difatti il punto di fuga può essere determinato
calcolando l’intersezione delle immagini dei due segmenti ed una volta noto il punto di
fuga è possibile determinare l’orientazione del fascio come visto nel lucido precedente.
⎡
m1 = ⎣
u1
v1
⎤
⎡
m2 = ⎣
⎦,
u2
v2
⎤
⎡
m3 = ⎣
⎦,
u3
v3
⎤
⎦,
⎡
m4 = ⎣
u4
v4
⎤
⎦
Le rette per m1 , m2 ed m3 , m4 hanno equazioni:
(v − v1 ) =
v2 −v1
u2 −u1
(u − u1)
(v − v3 ) =
v4 −v3
u4 −u3
(u − u3)
imponendo il passaggio per il punto di fuga m∞ = u∞ v∞
⎧
⎪
⎪
⎪
⎨
⎪
⎪
⎪
⎩
(v∞ − v1) =
v2 −v1
u2 −u1
(u∞ − u1)
(v∞ − v3) =
v4 −v3
u4 −u3
(u∞ − u3)
Elaborazione dell’Immagine L-S, A.A. 2003-2004
T :
Luigi Di Stefano
13
Capitolo 2 - Formazione ed Acquisizione delle Immagini
PUNTO DI FUGA ED ORIENTAZIONE A PARTIRE DALLE IMMAGINI
DI 2 SEGMENTI 3D PARALLELI
Tramite semplici manipolazioni algebriche il sistema precedente può essere posto nella
forma:
⎧
⎪
⎪
⎪
⎨
u∞ (v2 − v1) + v∞ (u1 − u2) = (u1 v2 − u2v1 )
⎪
⎪
⎪
⎩
u∞ (v4 − v3) + v∞ (u3 − u4) = (u3 v4 − u4v3 )
equivalente a:
⎡
⎣
v2 − v1 u1 − u2
v4 − v3 u3 − u4
⎤⎡
⎦⎣
u∞
u∞
⎤
⎡
⎦
=⎣
u1 v2 − u2 v1
u3 v4 − u4 v3
⎤
⎦
La soluzione del sistema è esprimibile (Teorema di Cramer) come:
u∞
v∞
u2v1 u1 − u2 u4v3 u3 − u4 v1 u1 − u2 v3 u3 − u4 u1 v2 −
u3 v4 −
= v2 −
v4 −
v2 − v1 u1 v2 − u2 v1
v4 − v3 u3 v4 − u4 v3
= v2 − v1 u1 − u2 v4 − v3 u3 − u4 Osserviamo che il sistema non ammette soluzione se:
v2 − v1
v4 − v3
v2 − v1 u1 − u2 =
= 0 ⇐⇒
v4 − v3 u3 − u4 u2 − u1
u4 − u3
cioè le due rette dell’immagine sono parallele ed il punto di fuga è all’infinito. Tuttavia,
anche in questo caso è possibile determinare l’orientazione delle rette 3D:
⎡
⎢
⎢
⎢
⎣
a
b
c
⎡
⎤
⎥
⎥
⎥
⎦
=
1
⎢
⎢
⎢
2 ⎣
(u2 − u1)2 + (v2 − v1)
u2 − u1
v2 − v1
0
Elaborazione dell’Immagine L-S, A.A. 2003-2004
⎡
⎤
⎥
⎥
⎥
⎦
=
1
⎢
⎢
⎢
2 ⎣
(u4 − u3)2 + (v4 − v3 )
u4 − u3
v4 − v3
0
⎤
⎥
⎥
⎥
⎦
Luigi Di Stefano
Capitolo 2 - Formazione ed Acquisizione delle Immagini
14
PROIEZIONE ORTOGRAFICA
• In numerose immagini gli effetti della prospettiva sono poco evidenti. Ad esempio,
nell’immagine che segue gli spigoli del cubo appaiono grosso modo paralleli.
• In tali casi il processo di formazione dell’immagine può essere approssimato, a
meno di una fattore di scala, da una trasformazione più semplice detta proiezione
ortografica.
nella proiezione ortografica i punti 3D vengono proiettati su un piano mediante rette
perpendicolari al piano. Nel caso mostrato in figura u = x, v = y.
• Vediamo allora sotto quali condizioni la proiezione ortografica costituisce un modello
adeguato della formazione dell’immagine.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
15
Capitolo 2 - Formazione ed Acquisizione delle Immagini
PROIEZIONE ORTOGRAFICA
• Se l’oggetto è caratterizzato da un intervallo di distanze, 2∆z, piccolo rispetto alla
sua distanza media dalla telecamera, z0 :
f
f
f
≈
≈
z0 + ∆z
z0 − ∆z
z0
u≈
f
x,
z0
v≈
f
y
z0
queste trasformazioni corrispondono ad una proiezione ortografica, u = x, v = y,
seguita da un cambiamento di scala, f /z0. È possibile pensare alla trasformazione
complessiva come ad una proiezione ortografica sul piano z = z0 seguita da una
proiezione prospettica sul piano immagine (poiché z = z0 è parallelo al piano
immagine quest’ultima trasformazione corrisponde ad un semplice cambiamento di
scala).
• Osserviamo inoltre che l’approssimazione della proiezione prospettica con la proiezione
ortografica è tanto migliore quanto più l’oggetto è vicino all’asse ottico (relativamente alla sua distanza media dalla telecamera).
M = ∆x ∆y z0 + ∆z
T
: mpp =
f
z0 +∆z ∆x
f
z0 +∆z ∆y
x =
f ∆x
z0
−
f z0∆x
+∆z
∆y
y = f ∆y
z0 − f z0 +∆z
T
, mpo =
f
z0 ∆x
f
z0 ∆y
∆x
z0
=f
1−
z0
z0 + ∆z
∆y
z0
=f
1−
z0
z0 + ∆z
• Conseguentemente, la proiezione ortografica è un modello adeguato del processo
di formazione dell’immagine se l’oggetto è vicino all’asse ottico e la variazione di
distanza è piccola. I termini “vicino” è “piccolo” vanno intesi relativamente alla
distanza media dalla telecamera.
• La proiezione ortografica è un modello particolarmente adeguato quando si usa un
teleobiettivo (lunghezza focale molto elevata → campo visivo molto piccolo →
oggetto vicino all’asse ottico) per riprendere un oggetto lontano caratterizzato da
una piccola variazione di profondità.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
T
16
Capitolo 2 - Formazione ed Acquisizione delle Immagini
LIMITI DELLA TELECAMERA PINHOLE ED IMPIEGO DI LENTI
• Affinché l’immagine di P sia a fuoco è necessario che tutti i raggi luminosi provenienti da P convergano in un unico punto del piano immagine. Nel caso di telecamera
pinhole questo implica che il foro sia tenuto il più piccolo possibile:
Purtroppo, se il foro è molto piccolo il sistema è in grado di raccogliere una quantità di luce molto limitata, e per ottenere immagini caratterizzate da un livello di
luminosità accettabile è necessario fare ricorso a tempi di esposizione molto lunghi,
tipicamente di diversi secondi (il tempo di esposizione è grosso modo inversamente
proporzionale al quadrato dell’apertura). L’uso di tali tempi di esposizione è possibile solo nel caso di scena totalmente statiche, viceversa l’immagine risulterebbe
sfocata a causa del movimento.
• Le telecamere utilizzate in pratica dispongono quindi di lenti, o sistemi di lenti,
che raccolgono la luce emessa da un punto della scena e la focalizzano in un unico
punto del piano immagine.
Una lente può avera una apertura molto maggiore del foro di una telecamera pinhole,
e quindi lavorare con tempi di esposizione molto minori.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
Capitolo 2 - Formazione ed Acquisizione delle Immagini
17
EQUAZIONE DELLE LENTI SOTTILI
• Gli obiettivi utilizzati nelle telecamere sono tipicamente sistemi di lenti molto complessi. Tuttavia, il loro funzionamento può essere modellato in prima approssimazione
tramite l’equazione della lenti sottili, che stabilisce un legame fra lunghezza focale
(f ), distanza dell’oggetto dalla lente (u) e distanza dell’immagine a fuoco dalla
lente (v):
1
1
1
+
=
u
v
f
F : fuoco della lente,
C : centro della lente
Le seguenti due proprietà della lente sottile consentono di determinare mediante una
semplice costruzione geometrica la posizione dell’immagine di un punto a fuoco:
1. I raggi paralleli all’asse ottico vengono rifratti in modo da attraversare il fuoco.
2. I raggi passanti per il centro della lente rimangono inalterati.
• Il processo di formazione dell’immagine mediante una lente può essere modellato
mediante una proiezione prospettica in cui il centro ottico è il centro della lente e
la lunghezza focale è data da v (che viene anche detta “focale effettiva”).
• Notiamo inoltre che i punti a distanza infinita vengono messi a fuoco ad una distanza
dalla lente pari alla lunghezza focale:
u = ∞ →
Elaborazione dell’Immagine L-S, A.A. 2003-2004
1
=0 → v=f
u
Luigi Di Stefano
Capitolo 2 - Formazione ed Acquisizione delle Immagini
18
CERCHI DI CONFUSIONE
• L’equazione delle lenti sottili stabilisce che data la posizione del piano immagine e
la lunghezza focale solo i punti che si trovano ad una ben precisa distanza dalla
lente saranno a fuoco :
1
1
1
vf
+
=
→ u=
u
v
f
v−f
Conseguentemente, se si vogliono mettere a fuoco punti situati ad una determinata
distanza è necessario fissare opportunamente la posizione del piano immagine:
1
1
1
uf
+
=
→ v=
u
v
f
u−f
• Fissata allora la posizione del piano immagine, i punti della scena situati davanti o
dietro il piano a fuoco non saranno a fuoco e la loro immagine sarà costituita da
un cerchio, detto “cerchio di confusione”, invece che da un punto:
• Si noti che la telecamera pinhole consente invece di avere simultaneamente a fuoco
punti che si trovano a distanze diverse dal foro.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
19
Capitolo 2 - Formazione ed Acquisizione delle Immagini
PROFONDITÀ DI CAMPO E DIAFRAMMA
• Abbiamo visto quindi che con una lente “ideale” è possibile avere simultaneamente a fuoco solo i punti situati ad una data distanza. Tuttavia, gli obiettivi
reali sono costruiti in modo da garantire che lo sfocamento si mantenga molto piccolo all’interno di un dato intervallo di distanze. Tale intervallo è detto profondità
di campo (depth of field).
In particolare lo sfocamento non sarà apprezzabile finché il cerchio di confusione
non supera le dimensioni dell’elemento fotosensibile del sensore.
• Gli obiettivi che vengono montati sulle telecamere dispongono tipicamente del meccanismo del diaframma, che consente di controllare mediante un’apposita ghiera la
dimensione del diametro effettivo della lente (apertura della lente), che può essere
reso minore di quello fisico.
• Evidentemente quanto più il diaframma è “aperto” tanto maggiore è la quantità di
luce raccolta dalla lente e la luminosità dell’immagine. Nello stesso tempo però ,
all’aumentare dell’apertura del diaframma aumenta anche la dimensione dei cerchi di
confusione associati ai punti non appartenenti al piano a fuoco, e quindi diminuisce
la profondità di campo.
Tipicamente quando si ha la necessità di incrementare la profondità di campo si
riduce l’apertura della lente, “chiudendo” il diaframma. Se in seguito alla chiusura
del diaframma la luminosità dell’immagine cala troppo si può aumentare, se possibile, il tempo di esposizione.
• La ghiera del diaframma fa riferimento al cosidetto Numero-f (f-number), che rappresenta il rapporto fra la focale ed il diametro effettivo della lente:
f − number =
f
d
I valori riportati sulla ghiera sono tipicamente 1.4, 2, 2.8, 4, 5.6, 8, 11, 16 . . .
Di conseguenza, per aprire il diaframma bisogna muovere la ghiera nel verso dei
valori descrescenti, per chiuderlo nel verso dei valori crescenti.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
Capitolo 2 - Formazione ed Acquisizione delle Immagini
20
MESSA A FUOCO
• Gli obiettivi che vengono utilizzati nelle applicazioni di visione dispongono tipicamente di una seconda ghiera che consente la messa a fuoco a diverse distanze. Il
movimento della ghiera provoca lo spostamento della lente ( o del sistema di lenti)
rispetto alla posizione del piano immagine, che è fisso.
• Riprendendo ancora l’equazione delle lenti u1 + 1v = f1 , data la focale dell’obiettivo
(f ), il meccanismo di messa a fuoco consente di variare la distanza fra piano
immagine e lente (v), al fine di mettere a fuoco punti situati a distanze diverse
(u).
• Una delle due posizioni di fine corsa della ghiera corrisponde alla messa a fuoco dei
punti situati all’infinito (v = f ). Rispetto a tale posizione la ghiera consente lo
spostamento in avanti della lente (allontanamento dal piano immagine) e quindi la
messa a fuoco di punti via via sempre più vicini.
L’altra posizione di fine corsa corrisponde alla massima distanza fra lente e piano
immagine, e quindi alla distanza minima di messa a fuoco (v = vmax → u = umin),
che è un dato caratteristico dell’obiettivo.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
21
Capitolo 2 - Formazione ed Acquisizione delle Immagini
CAMPO VISIVO
• Il campo visivo (FOV: Field of View ) di una telecamera dipende sia dalla focale
dell’obiettivo sia dalle dimensioni del piano immagine.
Definiamo allora il FOV come l’angolo di ripresa nella posizione di messa a fuoco
all’infinito dell’obiettivo (v = f ):
Dato il piano immagine, il campo visivo risulta inversamente proporzionale alla
lunghezza focale dell’obiettivo.
• Poiché il piano immagine tipicamente è rettangolare (w·h), è necessario distinguere
fra campo visivo orizzontale e verticale:
F OVHoriz.
w
= 2 arctan
,
2f
F OVV ert.
h
= 2 arctan
2f
• A titolo di esempio, consideriamo un sensore con w · h = 8.8 mm. · 6.6 mm. e
lunghezze focali f1 = 12 mm. ed f2 = 50 mm.:
f1 :
F OVHoriz.
8.8
= 2 arctan
2 · 12
f2 :
F OVHoriz.
8.8
= 2 arctan
2 · 50
Elaborazione dell’Immagine L-S, A.A. 2003-2004
◦
≈ 40 ,
◦
≈ 10 ,
F OVV ert.
F OVV ert.
6.6
= 2 arctan
2 · 12
6.6
= 2 arctan
2 · 50
≈ 30◦
≈ 7.5◦
Luigi Di Stefano
22
Capitolo 2 - Formazione ed Acquisizione delle Immagini
RAPPORTO DI MAGNIFICAZIONE
• Il Rapporto di Magnificazione è definito come
Dimensioni dell oggetto nell immagine
M =
Dimensioni dell oggetto nella scena
Facendo riferimento come prima alla posizione di messa a fuoco all’infinito dell’obiettivo
(v = f ):
M =
v
f
x
=
=
X
u
u
Il Rapporto di Magnificazione risulta quindi proporzionale alla lunghezza focale.
• A titolo di esempio, valutiamo le dimensioni dell’immagine di un oggetto di larghezza
0.5 m. posto a una distanza di 3 m. dalla telecamera con lunghezze focali f1 =
12 mm. ed f2 = 50 mm.:
f1 :
x=M · X =
f2 :
x=M · X =
Elaborazione dell’Immagine L-S, A.A. 2003-2004
12
3000
50
3000
· 500 = 2mm.
· 500 = 8.33mm.
Luigi Di Stefano
23
Capitolo 2 - Formazione ed Acquisizione delle Immagini
CAMPO VISIVO E RAPPORTO DI MAGNIFICAZIONE
• Sinora abbiamo fatto riferimento alla posizione di messa a fuoco all’infinito. Nel
caso in cui la ghiera di messa a fuoco venga posizionata in una posizione diversa,
è v (focale effettiva) che svolge le veci della focale nella definizioni di FOV e M:
F OVHoriz.
w
= 2 arctan
,
2v
M =
F OVV ert.
h
= 2 arctan
2v
v
u
• Poiché tramite il movimento di messa a fuoco la focale effettiva viene aumentata
rispetto alla focale nominale (f), i valori di FOV ed M definiti nel lucido precedente
rappresentano rispettivamente FOV massimo ed M minimo
• Tuttavia, la differenza fra focale effettiva e focale nominale è in genere abbastanza
piccola, soprattutto nel caso di oggetti sufficientemente distanti dalla telecamera.
Di conseguenza, il valore della focale nominale fornisce un’indicazione significativa
di Campo Visivo e Magnificazione:
f “piccola” → FOV “grande”, M “piccolo”
f “grande” → FOV “piccolo”, M “grande”
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
24
Capitolo 2 - Formazione ed Acquisizione delle Immagini
SCELTA DELL’OTTICA
• La scelta dell’ottica adatta ad una determinata applicazione viene effettuata dimensionando la focale sulla base dei requisiti in termini di campo visivo o magnificazione
(abbiamo visto che tali requisiti sono strettamente legati fra loro).
• Ad esempio, è possibile esprimere la lunghezza focale in funzione del rapporto di
magnificazione:
⎧
1
⎪
⎪
⎪
⎨ u
⎪
⎪
⎪
⎩
+
1
v
M =
=
1
f
=⇒ f =
v
u
uM
M +1
e poi ricavare la focale in funzione della distanza e del rapporto di magnificazione
necessario.
• Supponiamo di dover riprendere una scena di larghezza W = 30 cm dalla distanza
di 1 m e di utilizzare un sensore di dimensioni w · h = 8.8mm · 6.6mm :
M =
8.8
= 0.0293
300
=⇒ f =
1000 · 0.0293
= 28.46
0.0293 + 1
Poiché una lente con focale di 28.46 mm non è reperibile, sceglieremo f = 25 mm,
accettando una leggera perdita di risoluzione (la scena inquadrata è leggermente
più ampia del necessario).
Vediamo qual’ è la larghezza della scena inquadrata una volta scelta la focale f =
25 mm:
f =
M =
w
W
uM
M +1
=⇒ M =
=⇒ W =
f
25
=
= 0.0256
u−f
1000 − 25
w
8.8 mm
=
= 343.75 mm = 34.375 cm
M
0.0256
Supponiamo ora di aver fissato f = 25 mm e di voler comunque ottenere esattamente un campo visivo di 30 cm. Possiamo agire sulla distanza della scena,
avvicinando leggermente la telecamera (fissati f ed M determiniamo u):
f =
uM
M +1
=⇒ u =
f · (M + 1)
25 · (1 + 0.0293)
=
= 87.82 cm
M
0.0293
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
25
Capitolo 2 - Formazione ed Acquisizione delle Immagini
EQUAZIONE RADIOMETRICA DELLA FORMAZIONE DELL’IMMAGINE
• Analizziamo ora il legame radiometrico che sussiste far punti della scena e punti
dell’immagine. L’obiettivo è rispondere alla domanda: che cosa determina l’intensità
luminosa (“brightness”) di un dato punto dell’immagine ?.
• Le grandezze radiometriche coinvolte nel processo di formazione dell’immagine
sono:
Irradianza = E = Potenza per unità di area W · m−2 di energia radiante (luce)
incidente su una superficie.
E (p) =
δP
δA
E (p) dipende dalla quantità di luce che incide su una punto di una superficie.
Radianza = L = Potenza
per unità di area sottesa emessa in un angolo solido
−2
−1
unitario W · m · sr
da una superficie.
δ2P
L (P ) =
δA · cosθ · δω
L (P ) dipende dalla quantità di luce emessa dal punto della superficie. In generale la
radianza di un punto di una superficie varia in funzione dalla direzione di emissione.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
26
Capitolo 2 - Formazione ed Acquisizione delle Immagini
EQUAZIONE RADIOMETRICA DELLA FORMAZIONE DELL’IMMAGINE
• Si può dimostrare che se p è l’immagine di P
fra E(p) ed L(P ) sussiste la seguente relazione:
d
π
E(p) = L(P ) · ·
4 f
2
· cos4 α
• La quantità di luce incidente in un punto del piano immagine, E(p), è proporzionale
alla quantità di luce emessa dal corrispondente punto della scena, L(P ). Il sensore
che costituisce il piano immagine di una telecamera misura quindi la luce emessa
dai punti della scena.
2
d
,
f
• Il fattore di proporzionalità contiene il termine
che rappresenta l’inverso del
quadrato del Numero-f, che determina il diametro effettivo della lente. Quanto
minore è il Numero-f tanto maggiore è il diametro effettivo e quindi la porzione
della luce proceviente da P che viene raccolta dalla lente.
• Il termine cos4 α indica che la quantità di luce incidente sul piano immagine decresce
man mano che aumenta l’inclinazione del raggio principale rispetto all’asse ottico.
La parte periferica dell’immagine tenderà quindi ad apparire meno luminosa.
In caso di FOV piccolo questo effetto può essere trascurato. Inoltre, in genere è
molto difficile apprezzare questo effetto nelle immagini a causa della predominanza
delle varizioni di irradianza dovute delle variazioni spaziali della radianza.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
27
Capitolo 2 - Formazione ed Acquisizione delle Immagini
RIFLETTANZA DI UNA SUPERFICIE
• La domanda che discende logicamente dalla trattazione precedente è che cosa determina la quantità di luce (radianza) emessa da un punto nella direzione della
telecamera ?
• La radianza di una superficie dipende in generale dalla quantità e dalla direzione
della luce con cui viene illuminata, dalla direzione dalla quale viene vista e dalla
modalità con cui il materiale di cui è costituita riflette la luce.
• Le proprietà di riflessione di una superficie vengono espresse mediante una funzione
detta BDRF (Bidirectional Reflectance Distribution Function) che consente di
stabilire la radianza nella direzione di vista in funzione dell’irradianza nella direzione
di illuminazione:
BDRF (θi , φi, θe, φe) =
δL (θe, φe )
δE (θi, φi )
e dove le direzioni sono specificate mediante gli angoli θ (angolo polare) e φ (azimuth) definiti nel sistema di riferimento locale mostrato nella figura seguente:
• Un modello di riflettanza che viene spesso adottato nell’ambito della Computer
Vision è quello della superficie lambertiana o diffusore ideale. Una superficie lambertiana diffonde tutta la luce incidente uniformemente in tutte le direzioni (quindi
non assorbe alcuna porzione della luce incidente ed appare ugualmente luminosa
da ogni punto di vista). Questo modello approssima abbastanza bene il comportamento di superfici opache. La BDRF di una superficie lambertiana è una costante:
BDRF (θi , φi, θe, φe) =
Elaborazione dell’Immagine L-S, A.A. 2003-2004
1
π
Luigi Di Stefano
28
Capitolo 2 - Formazione ed Acquisizione delle Immagini
RIFLETTANZA DI UNA SUPERFICIE
• Il comportamento opposto a quello del diffusore ideale è quello della superficie
perfettamente speculare. In tal caso tutta la luce incidente viene riflessa in un’unica
direzione, quella per cui il raggio riflesso e quello incidente sono coplanari e l’angolo
di riflessione è uguale a quello di incidenza:
⎧
⎪
⎪
⎪
⎨
BDRF = ⎪
⎪
⎪
⎩
1:
θe = θi ,
0:
altrove
φe = φi + π
• Le superfici reale sono caratterizzate da un comportamento che è una combinazione
di riflessione speculare e diffusione. Conseguentemente sono stati sviluppato modelli di riflettanza complessi che tengono conto di entrambi comportamenti. Tali
modelli inglobano dei parametri che consentono di combinare opportunamente le
componenti diffusiva e speculare.
• I modelli di riflettanza vengono impiegati nella Computer Graphics al fine di descrivere le caratteristiche di riflessione delle superfici che devono essere visualizzate.
• Nella visione artificiale i modelli di riflettanza vengono impiegati prevalentemente
nell’ambito delle tecniche dette di Shape from Shading. Tali tecniche mirano a
risolvere il problema inverso rispetto a quello della Computer Graphics: note le
sorgenti luminose ed il modello di riflessione determinare la forma 3D delle superfici
a partire dall’immagine.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
29
Capitolo 2 - Formazione ed Acquisizione delle Immagini
DIGITALIZZAZIONE DELL’IMMAGINE
• Il piano immagine di una telecamera è costituito da un sensore in grado di convertire
l’irradianza di ciascun punto in una grandezza elettrica, I(x, y).
• Tipicamente la funzione I(x, y) viene convertita dall’elettronica della telecamera in
un segnale analogico V (t) che è utilizzabile per pilotare direttamente un monitor
televisivo (“legacy” delle applicazioni di video broadcasting).
• Questa conversione non è però ancora sufficiente ai fini dell’elaborazione dell’immagine
mediante un calcolatore. L’immagine continua deve infatti essere digitalizzata mediante campionamento e quantizzazione :
255 204 77 255 255 255
255 255 204 51 102 255
Campionamento
Quantizzazione
255 178 204 178 178 255
255 230 230 230 204 204
255 255 153 153 255 255
255 102 128 153 178 204
Immagine Continua
Immagine Campionata
Immagine Campionata e
Quantizzata
– Campionamento
A partire dall I(x, y) viene generata una matrice rettangolare di N ∗M campioni
equispaziati detti picture elements o, più comunemente, pixels:
⎡
I(x, y)
=⇒
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎣
I(0, 0)
I(0, 1)
...
I(0, M − 1)
..
.
..
.
I(N − 1, 0) I(N − 1, 1) . . . I(N − 1, M − 1)
⎤
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎦
– Quantizzazione
Il range continuo di valori associato alla I(x, y) viene rappresentato mediante
l valori discreti detti livelli di grigio ( gray-levels ), con l = 2m . m è quindi il
numero di bit necessari a rappresentare un pixel.
• Conseguentemente, il numero di bit necessari a rappresentare l’intera immagine
digitale è dato da:
B = N ·M ·m
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
30
Capitolo 2 - Formazione ed Acquisizione delle Immagini
DIGITALIZZAZIONE DELL’IMMAGINE
• La tabella seguente riporta l’occupazione di memoria (in bit) di un’immagine digitale
per diversi valori di N = M ed m
N\m
32
64
128
256
512
1024
1
2
3
1024
2048
3072
4096
8192
12288
16384
32768
49152
65536 131072 196608
262144 524288 786432
1048576 2097152 3145728
4
4096
16384
65536
262144
1048576
4194304
5
5120
20480
81920
327680
1310720
5242880
6
6144
24576
98304
393216
1572864
6291456
7
7168
28672
114688
458752
1835008
7340032
8
8192
32768
131072
524288
2097152
8388608
• Qual’è la qualità con cui un’immagine digitale è in grado di rappresentare la scena
osservata ? Oppure, essendo l’immagine digitale un’approssimazione dell’immagine
ideale, continua prodotta sul piano immagine del sensore, qual’è la qualità di
quest’approssimazione ?
• Evidentemente, quanto maggiore è B (risoluzione) tanto maggiore è la qualità
dell’immagine digitale. Nei lucidi successivi viene mostrato separatamente l’impatto
di campionamento e quantizzazione sulla qualità dell’immagine digitale utilizzando
la notissima immagine“Lenna” (512x512 pixels, 256 livelli di grigio).
• Una curiosità , la storia dell’immagine “Lenna”:
http://www-2.cs.cmu.edu/~chuck/lennapg/lenna.shtml
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
Capitolo 2 - Formazione ed Acquisizione delle Immagini
31
IMPATTO DEL CAMPIONAMENTO SULLA QUALITÀ DELL’IMMAGINE
Immagine originaria 512x512 pixels
Immagine sottocampionata 256x256
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
Capitolo 2 - Formazione ed Acquisizione delle Immagini
32
IMPATTO DEL CAMPIONAMENTO SULLA QUALITÀ DELL’IMMAGINE
Immagine sottocampionata 128x128
Immagine sottocampionata 64x64
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
Capitolo 2 - Formazione ed Acquisizione delle Immagini
33
IMPATTO DEL CAMPIONAMENTO SULLA QUALITÀ DELL’IMMAGINE
Immagine sottocampionata 32x32
Immagine sottocampionata 16x16
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
34
Capitolo 2 - Formazione ed Acquisizione delle Immagini
IMPATTO DELLA QUANTIZZAZIONE SULLA QUALITÀ
DELL’IMMAGINE
Immagine originaria a 256 livelli di grigio
Immagine a 128 livelli di grigio
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
35
Capitolo 2 - Formazione ed Acquisizione delle Immagini
IMPATTO DELLA QUANTIZZAZIONE SULLA QUALITÀ
DELL’IMMAGINE
Immagine 64 livelli di grigio
Immagine a 32 livelli di grigio
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
36
Capitolo 2 - Formazione ed Acquisizione delle Immagini
IMPATTO DELLA QUANTIZZAZIONE SULLA QUALITÀ
DELL’IMMAGINE
Immagine 16 livelli di grigio
Immagine a 8 livelli di grigio
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
37
Capitolo 2 - Formazione ed Acquisizione delle Immagini
IMPATTO DELLA QUANTIZZAZIONE SULLA QUALITÀ
DELL’IMMAGINE
Immagine 4 livelli di grigio
Immagine a 2 livelli di grigio
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano