INTRODUZIONE - UniNa STiDuE

1
Capitolo 2 - Formazione ed Acquisizione delle Immagini
INTRODUZIONE
Prima di studiare le metodologie di elaborazione delle immagini mediante un calcolatore,
è opportuno analizzare la relazione che sussiste fra la scena 3D osservata e l’immagine
della scena che viene immagazzinata nella memoria del calcolatore .
• FORMAZIONE DELL’IMMAGINE
Relazione che sussiste fra la scena e l’immagine prodotta sul piano sensibile della
telecamera. Tale studio riguarda due quesiti fondamentali:
– Qual’è la relazione geometrica che determina la corrispondenza fra punti della
scena e punti dell’immagine ?
– Che cosa determina l’intensità luminosa di un dato punto dell’immagine ?
• ACQUISIZIONE DELL’IMMAGINE
Relazione che sussiste fra l’immagine prodotta sul piano sensibile della telecamera
e quella disponibile nella memoria del calcolatore.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
2
Capitolo 2 - Formazione ed Acquisizione delle Immagini
TELECAMERA DI TIPO “PINHOLE”
La “pinhole camera” è il più semplice dispositivo in grado di formare un’immagine di una
scena tridimensionale: la luce passa attraverso un piccolissimo foro e forma sul piano
sensibile un’immagine invertita della scena.
“Pinhole”
Immagine
Oggetto
Geometricamente l’immagine può essere costruita tracciando dei raggi rettilinei che
partono dai punti della scena ed intersecano il piano immagine passando attraverso il foro.
Anche se un dispositivo di questo tipo può essere usato per ottenere delle immagini, la
sua importanza risiede principalmente nel fatto che esso costituisce un modello adeguato
del processo di formazione dell’immagine proprio delle moderne telecamere VIDICON e
CCD.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
Capitolo 2 - Formazione ed Acquisizione delle Immagini
3
PROIEZIONE PROSPETTICA
La proiezione prospettica (o proiezione centrale) costituisce il modello geometrico adatto
a rappresentare la formazione dell’immagine in una telecamera di tipo pinhole.
M : punto della scena
m : immagine di M
I : piano immagine
C : centro ottico
Semiretta passante per C e normale a I : asse ottico
c : intersezione dell’asse ottico con il piano immagine (“piercing point”)
f : lunghezza focale
F : piano focale
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
Capitolo 2 - Formazione ed Acquisizione delle Immagini
4
PROIEZIONE PROSPETTICA
Considerando un sistema di riferimento centrato nel centro ottico, le equazioni (nonlineari) che legano le coordinate 3D di un punto e le sue coordinate immagine sono date
da :
u v
f
fx
fy
= =− ⇒u=− ,v=−
x y
z
z
z
Generalmente si preferisce eliminare l’inversione del segno delle coordinate che caratterizza le equazioni precedenti considerando come piano immagine il piano parallelo ad I e
localizzato a distanza f da C. In tal caso:
u=
fy
fx
,v=
z
z
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
Capitolo 2 - Formazione ed Acquisizione delle Immagini
5
PROIEZIONE PROSPETTICA
Il processo di formazione dell’immagine implica il “mapping” di una scena 3D in un
immagine 2D. Evidentemente, ciò comporta una perdita di informazione.
Le equazioni della proiezione prospettica indicano chiaramente come la corrispondenza
fra punti della scena e punti dell’immagine non sia biunivoca: ad un punto della scena
corrisponde un unico punto dell’immagine, ma ad un punto dell’immagine corrispondono
inﬁniti punti della scena (con riferimento alla ﬁgura del lucido precedente, il punto m è
l’immagine di tutti i punti della scena appartenenti alla semiretta CM).
L’immagine non ci dice nulla sulla distanza dei punti 3D, ci dice solo che un punto appartiene ad un determinato raggio ma non a quale distanza esso si trova lungo il raggio
di appartenenza.
La perdita di informazione associata alla formazione dell’immagine fa si che il problema
di ricostruire la struttura 3D della scena a partire da un’unica immagine non ammetta
una soluzione univoca.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
6
Capitolo 2 - Formazione ed Acquisizione delle Immagini
VARIAZIONE DELLE DIMENSIONI IN FUNZIONE DELLA DISTANZA
Quanto più gli oggetti sono lontani dalla telecamera, tanto più appaiono piccoli nell’immagine.
Dimostriamo questa proprietà della proiezione prospettica considerando un segmento di
T
lunghezza L centrato nel punto M0 = x0 y0 z0
. Gli estremi del segmento possono
essere espressi come:
⎡
M1 = M0 −
dove a b c
T
L ⎢⎢
⎢
2⎣
⎤
a⎥
b ⎥⎥⎦ ,
c
⎡
M2 = M0 +
L ⎢⎢
⎢
2⎣
a
b
c
⎤
⎥
⎥
⎥
⎦
è il vettore dei coseni direttori del segmento.
Proiettando M1 ed M2 sul piano immagine otteniamo:
m1 = f
x0 − L2 a
z0 − L2 c
y0 − L2 b
z0 − L2 c
T
,
m2 = f
x0 + L2 a
z0 + L2 c
y0 + L2 b
z0 + L2 c
T
da cui segue che la lunghezza dell’immagine del segmento può essere espressa come:
l=
√
w2 + h2 ,
w = fL
az0 − cx0
2
z02 − L4 c2
h = fL
bz0 − cy0
2
z02 − L4 c2
Dalle espressioni di w ed h si deduce che l decresce all’aumentare di z0 : il segmento
appare più piccolo al crescere della sua distanza dalla telecamera.
Nel caso particolare in cui il segmento sia parallelo al piano immagine (c = 0), la sua
lunghezza è inversamente proporzionale alla distanza dalla telecamera:
l=
Elaborazione dell’Immagine L-S, A.A. 2003-2004
fL
z0
Luigi Di Stefano
7
Capitolo 2 - Formazione ed Acquisizione delle Immagini
PROPRIETÀ RELATIVE ALLA TRASFORMAZIONE DI RETTE
• Le proiezione prospettica trasforma le rette dello spazio 3D in rette del piano immagine.
Consideriamo una retta dello spazio 3D espressa mediante l’equazione:
⎧
⎨
x = mz + p
y = nz + q
⎩
Applicando le equazioni della proiezione prospettica ad un generico punto appartenente alla retta si ottiene:
⎧
⎨
⎩
Ricavando
f
z
u = f mz+p
= f m + f pz
z
v = f nz+q
= f n + f zq
z
dalla prima equazione si ottiene
u − fm
f
=
z
p
e sostituendo nella seconda
q
q
v = u+f n−m
p
p
che rappresenta l’equazione di una retta del piano immagine.
• La proiezione prospettica non conserva i rapporti di lunghezze lungo le rette.
Veriﬁchiamo la proprietà considerando il segmento del lucido precedente ed osservando che il punto medio dell’immagine del segmento (m0 ) non coincide, in
generale, con l’immagine del punto medio del segmento 3D (m0 ):
⎡
2
L
⎢ x0 z0 − 4 ac
m0 = f ⎣ 2 L2 2
z0 − 4 c
2
⎤T
y0 z0 − L4 bc ⎥
⎦ ,
2
z02 − L4 c2
x0
m0 = f
z0
y0
z0
T
• Le immagini di rette parallele dello spazio 3D aventi pendenza non nulla lungo l’asse
z si incontrano in un punto di fuga.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
Capitolo 2 - Formazione ed Acquisizione delle Immagini
8
PUNTI DI FUGA
Nell’ immagine seguente le rette orizzontali della scena convergono verso un punto di
fuga nell’immagine.
L’uso della prospettiva e dei punti fuga fu introdotto dagli artisti del Rinascimento al
ﬁne di rappresentare in modo realistico la struttura 3D della scena. In questo celebre
dipinto del Masaccio le rette parallele della volta convergono verso un punto di fuga
situato nella parte bassa del dipinto. Ciò consente all’artista di rendere la struttura 3D
della volta cosı̀ come apparirebbe ad un osservatore che guarda la scena dal basso verso
l’alto.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
Capitolo 2 - Formazione ed Acquisizione delle Immagini
9
PUNTI DI FUGA
Il punto di fuga di una retta 3D è l’immagine del punto della retta situato a distanza
inﬁnita dal centro della proiezione prospettica (“vanishing point”).
La ﬁgura mostra che il punto di fuga di una retta è dato dall’intersezione con il piano
immagine della parallela alla retta passante per il centro ottico. Ne segue che il punto di
fuga dipende solo dall’orientazione della retta e che, ad eccezione delle rette parallele al
piano immagine, rette parallele nello spazio si incontrano in un punto di fuga del piano
immagine.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
10
Capitolo 2 - Formazione ed Acquisizione delle Immagini
PUNTI DI FUGA
Determiniamo le espressioni delle coordinate immmagine del punto di fuga di una generica
retta dello spazio. A tal ﬁne consideriamo la retta:
⎡
⎢
M = M0 + λD = ⎢⎢⎣
x0
y0
z0
⎡
⎤
a
⎢
⎥
⎢
⎥
⎥+λ⎢ b
⎣
⎦
c
⎤
⎥
⎥
⎥
⎦
dove M0 è un punto appartenente alla retta (posizione) e D è il vettore dei coseni
direttori (orientazione).
La proiezione sul piano immagine di un punto appartenente alla retta è data da:
⎡
m=⎣
⎤
u⎦
,
v
u=f
x0 + λa
,
z0 + λc
v=f
y0 + λb
z0 + λc
Poiché il punto di fuga è la proiezione del punto all’inﬁnito della retta:
⎡
m∞ = ⎣
u∞
v∞
⎤
a
u∞ = lim u = f ,
λ→∞
c
⎦,
v∞ = lim v = f
λ→∞
b
c
Come ci si attendeva, il punto di fuga dipende solo dall’orientazione della retta, e non
dalla posizione, e quando c = 0 la retta è parallela al piano immagine ed il punto di fuga
è all’inﬁnito. Inoltre, nel caso c = 0 l’immagine della retta è parallela alla retta 3D:
u=f
x0 + λa
,
z0
v=f
y0 + λb
z0
moltiplicando la prima equazione per b e la seconda per a:
bu = f
bx0 + λab
,
z0
av = f
ay0 + λab
z0
sottraendo la prima alla seconda ed esprimendo v in funzione di u:
b
f
v = u+
(ay0 − bx0)
a
z0 a
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
11
Capitolo 2 - Formazione ed Acquisizione delle Immagini
ORIENTAZIONE DI UN FASCIO DI RETTE 3D PARALLELE
La conoscenza del punto di fuga di un fascio di rette 3D parallele consente di determinare
l’orientazione del fascio.
Dimostriamo quindi che a partire dalle coordinate del punto di fuga è possibile ricavare
il vettore dei coseni direttori delle rette 3D parallele che, nell’immagine, si incontrano
nel punto di fuga.
A tale scopo consideriamo le equazioni che forniscono le coordinate del punto di fuga
in funzione dell’orientazione della retta ed imponiamo che il vettore dei coseni direttori
abbia lunghezza unitaria:
⎧
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎨
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎩
u∞ = f ac
v∞ = f bc
a2 + b2 + c2 = 1
Elevando al quadrato e sommando le prime due equazioni, e sfruttando la terza:
2
c2 u2∞ + v∞
= f 2 1 − c2
da cui si ottiene:
c=
f
2 + f2
u2∞ + v∞
Sostituendo c nelle prime 2:
a=√
u∞
2 +f 2
u2∞ +v∞
b= √
v∞
2
2 +f 2
u∞ +v∞
Il vettore dei coseni direttori può quindi essere espresso come:
⎡
⎢
⎢
⎢
⎣
a
b
c
⎤
⎥
⎥
⎥
⎦
⎡
=
⎢
1
⎢
⎢
2
2
2
u∞ + v∞ + f ⎣
Elaborazione dell’Immagine L-S, A.A. 2003-2004
u∞
v∞
f
⎤
⎥
⎥
⎥
⎦
Luigi Di Stefano
12
Capitolo 2 - Formazione ed Acquisizione delle Immagini
PUNTO DI FUGA ED ORIENTAZIONE A PARTIRE DALLE IMMAGINI
DI 2 SEGMENTI 3D PARALLELI
L’orientazione di un fascio di rette 3D parallele può essere determinata a partire dalle
immagini di due segmenti paralleli. Difatti il punto di fuga può essere determinato
calcolando l’intersezione delle immagini dei due segmenti ed una volta noto il punto di
fuga è possibile determinare l’orientazione del fascio come visto nel lucido precedente.
⎡
m1 = ⎣
u1
v1
⎤
⎡
m2 = ⎣
⎦,
u2
v2
⎤
⎡
m3 = ⎣
⎦,
u3
v3
⎤
⎦,
⎡
m4 = ⎣
u4
v4
⎤
⎦
Le rette per m1 , m2 ed m3 , m4 hanno equazioni:
(v − v1 ) =
v2 −v1
u2 −u1
(u − u1)
(v − v3 ) =
v4 −v3
u4 −u3
(u − u3)
imponendo il passaggio per il punto di fuga m∞ = u∞ v∞
⎧
⎪
⎪
⎪
⎨
⎪
⎪
⎪
⎩
(v∞ − v1) =
v2 −v1
u2 −u1
(u∞ − u1)
(v∞ − v3) =
v4 −v3
u4 −u3
(u∞ − u3)
Elaborazione dell’Immagine L-S, A.A. 2003-2004
T :
Luigi Di Stefano
13
Capitolo 2 - Formazione ed Acquisizione delle Immagini
PUNTO DI FUGA ED ORIENTAZIONE A PARTIRE DALLE IMMAGINI
DI 2 SEGMENTI 3D PARALLELI
Tramite semplici manipolazioni algebriche il sistema precedente può essere posto nella
forma:
⎧
⎪
⎪
⎪
⎨
u∞ (v2 − v1) + v∞ (u1 − u2) = (u1 v2 − u2v1 )
⎪
⎪
⎪
⎩
u∞ (v4 − v3) + v∞ (u3 − u4) = (u3 v4 − u4v3 )
equivalente a:
⎡
⎣
v2 − v1 u1 − u2
v4 − v3 u3 − u4
⎤⎡
⎦⎣
u∞
u∞
⎤
⎡
⎦
=⎣
u1 v2 − u2 v1
u3 v4 − u4 v3
⎤
⎦
La soluzione del sistema è esprimibile (Teorema di Cramer) come:
u∞
v∞
u2v1 u1 − u2 u4v3 u3 − u4 v1 u1 − u2 v3 u3 − u4 u1 v2 −
u3 v4 −
= v2 −
v4 −
v2 − v1 u1 v2 − u2 v1
v4 − v3 u3 v4 − u4 v3
= v2 − v1 u1 − u2 v4 − v3 u3 − u4 Osserviamo che il sistema non ammette soluzione se:
v2 − v1
v4 − v3
v2 − v1 u1 − u2 =
= 0 ⇐⇒
v4 − v3 u3 − u4 u2 − u1
u4 − u3
cioè le due rette dell’immagine sono parallele ed il punto di fuga è all’inﬁnito. Tuttavia,
anche in questo caso è possibile determinare l’orientazione delle rette 3D:
⎡
⎢
⎢
⎢
⎣
a
b
c
⎡
⎤
⎥
⎥
⎥
⎦
=
1
⎢
⎢
⎢
2 ⎣
(u2 − u1)2 + (v2 − v1)
u2 − u1
v2 − v1
0
Elaborazione dell’Immagine L-S, A.A. 2003-2004
⎡
⎤
⎥
⎥
⎥
⎦
=
1
⎢
⎢
⎢
2 ⎣
(u4 − u3)2 + (v4 − v3 )
u4 − u3
v4 − v3
0
⎤
⎥
⎥
⎥
⎦
Luigi Di Stefano
Capitolo 2 - Formazione ed Acquisizione delle Immagini
14
PROIEZIONE ORTOGRAFICA
• In numerose immagini gli eﬀetti della prospettiva sono poco evidenti. Ad esempio,
nell’immagine che segue gli spigoli del cubo appaiono grosso modo paralleli.
• In tali casi il processo di formazione dell’immagine può essere approssimato, a
meno di una fattore di scala, da una trasformazione più semplice detta proiezione
ortograﬁca.
nella proiezione ortograﬁca i punti 3D vengono proiettati su un piano mediante rette
perpendicolari al piano. Nel caso mostrato in ﬁgura u = x, v = y.
• Vediamo allora sotto quali condizioni la proiezione ortograﬁca costituisce un modello
adeguato della formazione dell’immagine.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
15
Capitolo 2 - Formazione ed Acquisizione delle Immagini
PROIEZIONE ORTOGRAFICA
• Se l’oggetto è caratterizzato da un intervallo di distanze, 2∆z, piccolo rispetto alla
sua distanza media dalla telecamera, z0 :
f
f
f
≈
≈
z0 + ∆z
z0 − ∆z
z0
u≈
f
x,
z0
v≈
f
y
z0
queste trasformazioni corrispondono ad una proiezione ortograﬁca, u = x, v = y,
seguita da un cambiamento di scala, f /z0. È possibile pensare alla trasformazione
complessiva come ad una proiezione ortograﬁca sul piano z = z0 seguita da una
proiezione prospettica sul piano immagine (poiché z = z0 è parallelo al piano
immagine quest’ultima trasformazione corrisponde ad un semplice cambiamento di
scala).
• Osserviamo inoltre che l’approssimazione della proiezione prospettica con la proiezione
ortograﬁca è tanto migliore quanto più l’oggetto è vicino all’asse ottico (relativamente alla sua distanza media dalla telecamera).
M = ∆x ∆y z0 + ∆z
T
: mpp =
f
z0 +∆z ∆x
f
z0 +∆z ∆y
x =
f ∆x
z0
−
f z0∆x
+∆z
∆y
y = f ∆y
z0 − f z0 +∆z
T
, mpo =
f
z0 ∆x
f
z0 ∆y
∆x
z0
=f
1−
z0
z0 + ∆z
∆y
z0
=f
1−
z0
z0 + ∆z
• Conseguentemente, la proiezione ortograﬁca è un modello adeguato del processo
di formazione dell’immagine se l’oggetto è vicino all’asse ottico e la variazione di
distanza è piccola. I termini “vicino” è “piccolo” vanno intesi relativamente alla
distanza media dalla telecamera.
• La proiezione ortograﬁca è un modello particolarmente adeguato quando si usa un
teleobiettivo (lunghezza focale molto elevata → campo visivo molto piccolo →
oggetto vicino all’asse ottico) per riprendere un oggetto lontano caratterizzato da
una piccola variazione di profondità.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
T
16
Capitolo 2 - Formazione ed Acquisizione delle Immagini
LIMITI DELLA TELECAMERA PINHOLE ED IMPIEGO DI LENTI
• Aﬃnché l’immagine di P sia a fuoco è necessario che tutti i raggi luminosi provenienti da P convergano in un unico punto del piano immagine. Nel caso di telecamera
pinhole questo implica che il foro sia tenuto il più piccolo possibile:
Purtroppo, se il foro è molto piccolo il sistema è in grado di raccogliere una quantità di luce molto limitata, e per ottenere immagini caratterizzate da un livello di
luminosità accettabile è necessario fare ricorso a tempi di esposizione molto lunghi,
tipicamente di diversi secondi (il tempo di esposizione è grosso modo inversamente
proporzionale al quadrato dell’apertura). L’uso di tali tempi di esposizione è possibile solo nel caso di scena totalmente statiche, viceversa l’immagine risulterebbe
sfocata a causa del movimento.
• Le telecamere utilizzate in pratica dispongono quindi di lenti, o sistemi di lenti,
che raccolgono la luce emessa da un punto della scena e la focalizzano in un unico
punto del piano immagine.
Una lente può avera una apertura molto maggiore del foro di una telecamera pinhole,
e quindi lavorare con tempi di esposizione molto minori.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
Capitolo 2 - Formazione ed Acquisizione delle Immagini
17
EQUAZIONE DELLE LENTI SOTTILI
• Gli obiettivi utilizzati nelle telecamere sono tipicamente sistemi di lenti molto complessi. Tuttavia, il loro funzionamento può essere modellato in prima approssimazione
tramite l’equazione della lenti sottili, che stabilisce un legame fra lunghezza focale
(f ), distanza dell’oggetto dalla lente (u) e distanza dell’immagine a fuoco dalla
lente (v):
1
1
1
+
=
u
v
f
F : fuoco della lente,
C : centro della lente
Le seguenti due proprietà della lente sottile consentono di determinare mediante una
semplice costruzione geometrica la posizione dell’immagine di un punto a fuoco:
1. I raggi paralleli all’asse ottico vengono rifratti in modo da attraversare il fuoco.
2. I raggi passanti per il centro della lente rimangono inalterati.
• Il processo di formazione dell’immagine mediante una lente può essere modellato
mediante una proiezione prospettica in cui il centro ottico è il centro della lente e
la lunghezza focale è data da v (che viene anche detta “focale eﬀettiva”).
• Notiamo inoltre che i punti a distanza inﬁnita vengono messi a fuoco ad una distanza
dalla lente pari alla lunghezza focale:
u = ∞ →
Elaborazione dell’Immagine L-S, A.A. 2003-2004
1
=0 → v=f
u
Luigi Di Stefano
Capitolo 2 - Formazione ed Acquisizione delle Immagini
18
CERCHI DI CONFUSIONE
• L’equazione delle lenti sottili stabilisce che data la posizione del piano immagine e
la lunghezza focale solo i punti che si trovano ad una ben precisa distanza dalla
lente saranno a fuoco :
1
1
1
vf
+
=
→ u=
u
v
f
v−f
Conseguentemente, se si vogliono mettere a fuoco punti situati ad una determinata
distanza è necessario ﬁssare opportunamente la posizione del piano immagine:
1
1
1
uf
+
=
→ v=
u
v
f
u−f
• Fissata allora la posizione del piano immagine, i punti della scena situati davanti o
dietro il piano a fuoco non saranno a fuoco e la loro immagine sarà costituita da
un cerchio, detto “cerchio di confusione”, invece che da un punto:
• Si noti che la telecamera pinhole consente invece di avere simultaneamente a fuoco
punti che si trovano a distanze diverse dal foro.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
19
Capitolo 2 - Formazione ed Acquisizione delle Immagini
PROFONDITÀ DI CAMPO E DIAFRAMMA
• Abbiamo visto quindi che con una lente “ideale” è possibile avere simultaneamente a fuoco solo i punti situati ad una data distanza. Tuttavia, gli obiettivi
reali sono costruiti in modo da garantire che lo sfocamento si mantenga molto piccolo all’interno di un dato intervallo di distanze. Tale intervallo è detto profondità
di campo (depth of ﬁeld).
In particolare lo sfocamento non sarà apprezzabile ﬁnché il cerchio di confusione
non supera le dimensioni dell’elemento fotosensibile del sensore.
• Gli obiettivi che vengono montati sulle telecamere dispongono tipicamente del meccanismo del diaframma, che consente di controllare mediante un’apposita ghiera la
dimensione del diametro eﬀettivo della lente (apertura della lente), che può essere
reso minore di quello ﬁsico.
• Evidentemente quanto più il diaframma è “aperto” tanto maggiore è la quantità di
luce raccolta dalla lente e la luminosità dell’immagine. Nello stesso tempo però ,
all’aumentare dell’apertura del diaframma aumenta anche la dimensione dei cerchi di
confusione associati ai punti non appartenenti al piano a fuoco, e quindi diminuisce
la profondità di campo.
Tipicamente quando si ha la necessità di incrementare la profondità di campo si
riduce l’apertura della lente, “chiudendo” il diaframma. Se in seguito alla chiusura
del diaframma la luminosità dell’immagine cala troppo si può aumentare, se possibile, il tempo di esposizione.
• La ghiera del diaframma fa riferimento al cosidetto Numero-f (f-number), che rappresenta il rapporto fra la focale ed il diametro eﬀettivo della lente:
f − number =
f
d
I valori riportati sulla ghiera sono tipicamente 1.4, 2, 2.8, 4, 5.6, 8, 11, 16 . . .
Di conseguenza, per aprire il diaframma bisogna muovere la ghiera nel verso dei
valori descrescenti, per chiuderlo nel verso dei valori crescenti.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
Capitolo 2 - Formazione ed Acquisizione delle Immagini
20
MESSA A FUOCO
• Gli obiettivi che vengono utilizzati nelle applicazioni di visione dispongono tipicamente di una seconda ghiera che consente la messa a fuoco a diverse distanze. Il
movimento della ghiera provoca lo spostamento della lente ( o del sistema di lenti)
rispetto alla posizione del piano immagine, che è ﬁsso.
• Riprendendo ancora l’equazione delle lenti u1 + 1v = f1 , data la focale dell’obiettivo
(f ), il meccanismo di messa a fuoco consente di variare la distanza fra piano
immagine e lente (v), al ﬁne di mettere a fuoco punti situati a distanze diverse
(u).
• Una delle due posizioni di ﬁne corsa della ghiera corrisponde alla messa a fuoco dei
punti situati all’inﬁnito (v = f ). Rispetto a tale posizione la ghiera consente lo
spostamento in avanti della lente (allontanamento dal piano immagine) e quindi la
messa a fuoco di punti via via sempre più vicini.
L’altra posizione di ﬁne corsa corrisponde alla massima distanza fra lente e piano
immagine, e quindi alla distanza minima di messa a fuoco (v = vmax → u = umin),
che è un dato caratteristico dell’obiettivo.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
21
Capitolo 2 - Formazione ed Acquisizione delle Immagini
CAMPO VISIVO
• Il campo visivo (FOV: Field of View ) di una telecamera dipende sia dalla focale
dell’obiettivo sia dalle dimensioni del piano immagine.
Deﬁniamo allora il FOV come l’angolo di ripresa nella posizione di messa a fuoco
all’inﬁnito dell’obiettivo (v = f ):
Dato il piano immagine, il campo visivo risulta inversamente proporzionale alla
lunghezza focale dell’obiettivo.
• Poiché il piano immagine tipicamente è rettangolare (w·h), è necessario distinguere
fra campo visivo orizzontale e verticale:
F OVHoriz.
w
= 2 arctan
,
2f
F OVV ert.
h
= 2 arctan
2f
• A titolo di esempio, consideriamo un sensore con w · h = 8.8 mm. · 6.6 mm. e
lunghezze focali f1 = 12 mm. ed f2 = 50 mm.:
f1 :
F OVHoriz.
8.8
= 2 arctan
2 · 12
f2 :
F OVHoriz.
8.8
= 2 arctan
2 · 50
Elaborazione dell’Immagine L-S, A.A. 2003-2004
◦
≈ 40 ,
◦
≈ 10 ,
F OVV ert.
F OVV ert.
6.6
= 2 arctan
2 · 12
6.6
= 2 arctan
2 · 50
≈ 30◦
≈ 7.5◦
Luigi Di Stefano
22
Capitolo 2 - Formazione ed Acquisizione delle Immagini
RAPPORTO DI MAGNIFICAZIONE
• Il Rapporto di Magniﬁcazione è deﬁnito come
Dimensioni dell oggetto nell immagine
M =
Dimensioni dell oggetto nella scena
Facendo riferimento come prima alla posizione di messa a fuoco all’inﬁnito dell’obiettivo
(v = f ):
M =
v
f
x
=
=
X
u
u
Il Rapporto di Magniﬁcazione risulta quindi proporzionale alla lunghezza focale.
• A titolo di esempio, valutiamo le dimensioni dell’immagine di un oggetto di larghezza
0.5 m. posto a una distanza di 3 m. dalla telecamera con lunghezze focali f1 =
12 mm. ed f2 = 50 mm.:
f1 :
x=M · X =
f2 :
x=M · X =
Elaborazione dell’Immagine L-S, A.A. 2003-2004
12
3000
50
3000
· 500 = 2mm.
· 500 = 8.33mm.
Luigi Di Stefano
23
Capitolo 2 - Formazione ed Acquisizione delle Immagini
CAMPO VISIVO E RAPPORTO DI MAGNIFICAZIONE
• Sinora abbiamo fatto riferimento alla posizione di messa a fuoco all’inﬁnito. Nel
caso in cui la ghiera di messa a fuoco venga posizionata in una posizione diversa,
è v (focale eﬀettiva) che svolge le veci della focale nella deﬁnizioni di FOV e M:
F OVHoriz.
w
= 2 arctan
,
2v
M =
F OVV ert.
h
= 2 arctan
2v
v
u
• Poiché tramite il movimento di messa a fuoco la focale eﬀettiva viene aumentata
rispetto alla focale nominale (f), i valori di FOV ed M deﬁniti nel lucido precedente
rappresentano rispettivamente FOV massimo ed M minimo
• Tuttavia, la diﬀerenza fra focale eﬀettiva e focale nominale è in genere abbastanza
piccola, soprattutto nel caso di oggetti suﬃcientemente distanti dalla telecamera.
Di conseguenza, il valore della focale nominale fornisce un’indicazione signiﬁcativa
di Campo Visivo e Magniﬁcazione:
f “piccola” → FOV “grande”, M “piccolo”
f “grande” → FOV “piccolo”, M “grande”
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
24
Capitolo 2 - Formazione ed Acquisizione delle Immagini
SCELTA DELL’OTTICA
• La scelta dell’ottica adatta ad una determinata applicazione viene eﬀettuata dimensionando la focale sulla base dei requisiti in termini di campo visivo o magniﬁcazione
(abbiamo visto che tali requisiti sono strettamente legati fra loro).
• Ad esempio, è possibile esprimere la lunghezza focale in funzione del rapporto di
magniﬁcazione:
⎧
1
⎪
⎪
⎪
⎨ u
⎪
⎪
⎪
⎩
+
1
v
M =
=
1
f
=⇒ f =
v
u
uM
M +1
e poi ricavare la focale in funzione della distanza e del rapporto di magniﬁcazione
necessario.
• Supponiamo di dover riprendere una scena di larghezza W = 30 cm dalla distanza
di 1 m e di utilizzare un sensore di dimensioni w · h = 8.8mm · 6.6mm :
M =
8.8
= 0.0293
300
=⇒ f =
1000 · 0.0293
= 28.46
0.0293 + 1
Poiché una lente con focale di 28.46 mm non è reperibile, sceglieremo f = 25 mm,
accettando una leggera perdita di risoluzione (la scena inquadrata è leggermente
più ampia del necessario).
Vediamo qual’ è la larghezza della scena inquadrata una volta scelta la focale f =
25 mm:
f =
M =
w
W
uM
M +1
=⇒ M =
=⇒ W =
f
25
=
= 0.0256
u−f
1000 − 25
w
8.8 mm
=
= 343.75 mm = 34.375 cm
M
0.0256
Supponiamo ora di aver ﬁssato f = 25 mm e di voler comunque ottenere esattamente un campo visivo di 30 cm. Possiamo agire sulla distanza della scena,
avvicinando leggermente la telecamera (ﬁssati f ed M determiniamo u):
f =
uM
M +1
=⇒ u =
f · (M + 1)
25 · (1 + 0.0293)
=
= 87.82 cm
M
0.0293
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
25
Capitolo 2 - Formazione ed Acquisizione delle Immagini
EQUAZIONE RADIOMETRICA DELLA FORMAZIONE DELL’IMMAGINE
• Analizziamo ora il legame radiometrico che sussiste far punti della scena e punti
dell’immagine. L’obiettivo è rispondere alla domanda: che cosa determina l’intensità
luminosa (“brightness”) di un dato punto dell’immagine ?.
• Le grandezze radiometriche coinvolte nel processo di formazione dell’immagine
sono:
Irradianza = E = Potenza per unità di area W · m−2 di energia radiante (luce)
incidente su una superﬁcie.
E (p) =
δP
δA
E (p) dipende dalla quantità di luce che incide su una punto di una superﬁcie.
Radianza = L = Potenza
per unità di area sottesa emessa in un angolo solido
−2
−1
unitario W · m · sr
da una superﬁcie.
δ2P
L (P ) =
δA · cosθ · δω
L (P ) dipende dalla quantità di luce emessa dal punto della superﬁcie. In generale la
radianza di un punto di una superﬁcie varia in funzione dalla direzione di emissione.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
26
Capitolo 2 - Formazione ed Acquisizione delle Immagini
EQUAZIONE RADIOMETRICA DELLA FORMAZIONE DELL’IMMAGINE
• Si può dimostrare che se p è l’immagine di P
fra E(p) ed L(P ) sussiste la seguente relazione:
d
π
E(p) = L(P ) · ·
4 f
2
· cos4 α
• La quantità di luce incidente in un punto del piano immagine, E(p), è proporzionale
alla quantità di luce emessa dal corrispondente punto della scena, L(P ). Il sensore
che costituisce il piano immagine di una telecamera misura quindi la luce emessa
dai punti della scena.
2
d
,
f
• Il fattore di proporzionalità contiene il termine
che rappresenta l’inverso del
quadrato del Numero-f, che determina il diametro eﬀettivo della lente. Quanto
minore è il Numero-f tanto maggiore è il diametro eﬀettivo e quindi la porzione
della luce proceviente da P che viene raccolta dalla lente.
• Il termine cos4 α indica che la quantità di luce incidente sul piano immagine decresce
man mano che aumenta l’inclinazione del raggio principale rispetto all’asse ottico.
La parte periferica dell’immagine tenderà quindi ad apparire meno luminosa.
In caso di FOV piccolo questo eﬀetto può essere trascurato. Inoltre, in genere è
molto diﬃcile apprezzare questo eﬀetto nelle immagini a causa della predominanza
delle varizioni di irradianza dovute delle variazioni spaziali della radianza.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
27
Capitolo 2 - Formazione ed Acquisizione delle Immagini
RIFLETTANZA DI UNA SUPERFICIE
• La domanda che discende logicamente dalla trattazione precedente è che cosa determina la quantità di luce (radianza) emessa da un punto nella direzione della
telecamera ?
• La radianza di una superﬁcie dipende in generale dalla quantità e dalla direzione
della luce con cui viene illuminata, dalla direzione dalla quale viene vista e dalla
modalità con cui il materiale di cui è costituita riﬂette la luce.
• Le proprietà di riﬂessione di una superﬁcie vengono espresse mediante una funzione
detta BDRF (Bidirectional Reﬂectance Distribution Function) che consente di
stabilire la radianza nella direzione di vista in funzione dell’irradianza nella direzione
di illuminazione:
BDRF (θi , φi, θe, φe) =
δL (θe, φe )
δE (θi, φi )
e dove le direzioni sono speciﬁcate mediante gli angoli θ (angolo polare) e φ (azimuth) deﬁniti nel sistema di riferimento locale mostrato nella ﬁgura seguente:
• Un modello di riﬂettanza che viene spesso adottato nell’ambito della Computer
Vision è quello della superﬁcie lambertiana o diﬀusore ideale. Una superﬁcie lambertiana diﬀonde tutta la luce incidente uniformemente in tutte le direzioni (quindi
non assorbe alcuna porzione della luce incidente ed appare ugualmente luminosa
da ogni punto di vista). Questo modello approssima abbastanza bene il comportamento di superﬁci opache. La BDRF di una superﬁcie lambertiana è una costante:
BDRF (θi , φi, θe, φe) =
Elaborazione dell’Immagine L-S, A.A. 2003-2004
1
π
Luigi Di Stefano
28
Capitolo 2 - Formazione ed Acquisizione delle Immagini
RIFLETTANZA DI UNA SUPERFICIE
• Il comportamento opposto a quello del diﬀusore ideale è quello della superﬁcie
perfettamente speculare. In tal caso tutta la luce incidente viene riﬂessa in un’unica
direzione, quella per cui il raggio riﬂesso e quello incidente sono coplanari e l’angolo
di riﬂessione è uguale a quello di incidenza:
⎧
⎪
⎪
⎪
⎨
BDRF = ⎪
⎪
⎪
⎩
1:
θe = θi ,
0:
altrove
φe = φi + π
• Le superﬁci reale sono caratterizzate da un comportamento che è una combinazione
di riﬂessione speculare e diﬀusione. Conseguentemente sono stati sviluppato modelli di riﬂettanza complessi che tengono conto di entrambi comportamenti. Tali
modelli inglobano dei parametri che consentono di combinare opportunamente le
componenti diﬀusiva e speculare.
• I modelli di riﬂettanza vengono impiegati nella Computer Graphics al ﬁne di descrivere le caratteristiche di riﬂessione delle superﬁci che devono essere visualizzate.
• Nella visione artiﬁciale i modelli di riﬂettanza vengono impiegati prevalentemente
nell’ambito delle tecniche dette di Shape from Shading. Tali tecniche mirano a
risolvere il problema inverso rispetto a quello della Computer Graphics: note le
sorgenti luminose ed il modello di riﬂessione determinare la forma 3D delle superﬁci
a partire dall’immagine.
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
29
Capitolo 2 - Formazione ed Acquisizione delle Immagini
DIGITALIZZAZIONE DELL’IMMAGINE
• Il piano immagine di una telecamera è costituito da un sensore in grado di convertire
l’irradianza di ciascun punto in una grandezza elettrica, I(x, y).
• Tipicamente la funzione I(x, y) viene convertita dall’elettronica della telecamera in
un segnale analogico V (t) che è utilizzabile per pilotare direttamente un monitor
televisivo (“legacy” delle applicazioni di video broadcasting).
• Questa conversione non è però ancora suﬃciente ai ﬁni dell’elaborazione dell’immagine
mediante un calcolatore. L’immagine continua deve infatti essere digitalizzata mediante campionamento e quantizzazione :
255 204 77 255 255 255
255 255 204 51 102 255
Campionamento
Quantizzazione
255 178 204 178 178 255
255 230 230 230 204 204
255 255 153 153 255 255
255 102 128 153 178 204
Immagine Continua
Immagine Campionata
Immagine Campionata e
Quantizzata
– Campionamento
A partire dall I(x, y) viene generata una matrice rettangolare di N ∗M campioni
equispaziati detti picture elements o, più comunemente, pixels:
⎡
I(x, y)
=⇒
⎢
⎢
⎢
⎢
⎢
⎢
⎢
⎣
I(0, 0)
I(0, 1)
...
I(0, M − 1)
..
.
..
.
I(N − 1, 0) I(N − 1, 1) . . . I(N − 1, M − 1)
⎤
⎥
⎥
⎥
⎥
⎥
⎥
⎥
⎦
– Quantizzazione
Il range continuo di valori associato alla I(x, y) viene rappresentato mediante
l valori discreti detti livelli di grigio ( gray-levels ), con l = 2m . m è quindi il
numero di bit necessari a rappresentare un pixel.
• Conseguentemente, il numero di bit necessari a rappresentare l’intera immagine
digitale è dato da:
B = N ·M ·m
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
30
Capitolo 2 - Formazione ed Acquisizione delle Immagini
DIGITALIZZAZIONE DELL’IMMAGINE
• La tabella seguente riporta l’occupazione di memoria (in bit) di un’immagine digitale
per diversi valori di N = M ed m
N\m
32
64
128
256
512
1024
1
2
3
1024
2048
3072
4096
8192
12288
16384
32768
49152
65536 131072 196608
262144 524288 786432
1048576 2097152 3145728
4
4096
16384
65536
262144
1048576
4194304
5
5120
20480
81920
327680
1310720
5242880
6
6144
24576
98304
393216
1572864
6291456
7
7168
28672
114688
458752
1835008
7340032
8
8192
32768
131072
524288
2097152
8388608
• Qual’è la qualità con cui un’immagine digitale è in grado di rappresentare la scena
osservata ? Oppure, essendo l’immagine digitale un’approssimazione dell’immagine
ideale, continua prodotta sul piano immagine del sensore, qual’è la qualità di
quest’approssimazione ?
• Evidentemente, quanto maggiore è B (risoluzione) tanto maggiore è la qualità
dell’immagine digitale. Nei lucidi successivi viene mostrato separatamente l’impatto
di campionamento e quantizzazione sulla qualità dell’immagine digitale utilizzando
la notissima immagine“Lenna” (512x512 pixels, 256 livelli di grigio).
• Una curiosità , la storia dell’immagine “Lenna”:
http://www-2.cs.cmu.edu/~chuck/lennapg/lenna.shtml
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
Capitolo 2 - Formazione ed Acquisizione delle Immagini
31
IMPATTO DEL CAMPIONAMENTO SULLA QUALITÀ DELL’IMMAGINE
Immagine originaria 512x512 pixels
Immagine sottocampionata 256x256
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
Capitolo 2 - Formazione ed Acquisizione delle Immagini
32
IMPATTO DEL CAMPIONAMENTO SULLA QUALITÀ DELL’IMMAGINE
Immagine sottocampionata 128x128
Immagine sottocampionata 64x64
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
Capitolo 2 - Formazione ed Acquisizione delle Immagini
33
IMPATTO DEL CAMPIONAMENTO SULLA QUALITÀ DELL’IMMAGINE
Immagine sottocampionata 32x32
Immagine sottocampionata 16x16
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
34
Capitolo 2 - Formazione ed Acquisizione delle Immagini
IMPATTO DELLA QUANTIZZAZIONE SULLA QUALITÀ
DELL’IMMAGINE
Immagine originaria a 256 livelli di grigio
Immagine a 128 livelli di grigio
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
35
Capitolo 2 - Formazione ed Acquisizione delle Immagini
IMPATTO DELLA QUANTIZZAZIONE SULLA QUALITÀ
DELL’IMMAGINE
Immagine 64 livelli di grigio
Immagine a 32 livelli di grigio
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
36
Capitolo 2 - Formazione ed Acquisizione delle Immagini
IMPATTO DELLA QUANTIZZAZIONE SULLA QUALITÀ
DELL’IMMAGINE
Immagine 16 livelli di grigio
Immagine a 8 livelli di grigio
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano
37
Capitolo 2 - Formazione ed Acquisizione delle Immagini
IMPATTO DELLA QUANTIZZAZIONE SULLA QUALITÀ
DELL’IMMAGINE
Immagine 4 livelli di grigio
Immagine a 2 livelli di grigio
Elaborazione dell’Immagine L-S, A.A. 2003-2004
Luigi Di Stefano