1 Capitolo 2 - Formazione ed Acquisizione delle Immagini INTRODUZIONE Prima di studiare le metodologie di elaborazione delle immagini mediante un calcolatore, è opportuno analizzare la relazione che sussiste fra la scena 3D osservata e l’immagine della scena che viene immagazzinata nella memoria del calcolatore . • FORMAZIONE DELL’IMMAGINE Relazione che sussiste fra la scena e l’immagine prodotta sul piano sensibile della telecamera. Tale studio riguarda due quesiti fondamentali: – Qual’è la relazione geometrica che determina la corrispondenza fra punti della scena e punti dell’immagine ? – Che cosa determina l’intensità luminosa di un dato punto dell’immagine ? • ACQUISIZIONE DELL’IMMAGINE Relazione che sussiste fra l’immagine prodotta sul piano sensibile della telecamera e quella disponibile nella memoria del calcolatore. Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano 2 Capitolo 2 - Formazione ed Acquisizione delle Immagini TELECAMERA DI TIPO “PINHOLE” La “pinhole camera” è il più semplice dispositivo in grado di formare un’immagine di una scena tridimensionale: la luce passa attraverso un piccolissimo foro e forma sul piano sensibile un’immagine invertita della scena. “Pinhole” Immagine Oggetto Geometricamente l’immagine può essere costruita tracciando dei raggi rettilinei che partono dai punti della scena ed intersecano il piano immagine passando attraverso il foro. Anche se un dispositivo di questo tipo può essere usato per ottenere delle immagini, la sua importanza risiede principalmente nel fatto che esso costituisce un modello adeguato del processo di formazione dell’immagine proprio delle moderne telecamere VIDICON e CCD. Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano Capitolo 2 - Formazione ed Acquisizione delle Immagini 3 PROIEZIONE PROSPETTICA La proiezione prospettica (o proiezione centrale) costituisce il modello geometrico adatto a rappresentare la formazione dell’immagine in una telecamera di tipo pinhole. M : punto della scena m : immagine di M I : piano immagine C : centro ottico Semiretta passante per C e normale a I : asse ottico c : intersezione dell’asse ottico con il piano immagine (“piercing point”) f : lunghezza focale F : piano focale Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano Capitolo 2 - Formazione ed Acquisizione delle Immagini 4 PROIEZIONE PROSPETTICA Considerando un sistema di riferimento centrato nel centro ottico, le equazioni (nonlineari) che legano le coordinate 3D di un punto e le sue coordinate immagine sono date da : u v f fx fy = =− ⇒u=− ,v=− x y z z z Generalmente si preferisce eliminare l’inversione del segno delle coordinate che caratterizza le equazioni precedenti considerando come piano immagine il piano parallelo ad I e localizzato a distanza f da C. In tal caso: u= fy fx ,v= z z Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano Capitolo 2 - Formazione ed Acquisizione delle Immagini 5 PROIEZIONE PROSPETTICA Il processo di formazione dell’immagine implica il “mapping” di una scena 3D in un immagine 2D. Evidentemente, ciò comporta una perdita di informazione. Le equazioni della proiezione prospettica indicano chiaramente come la corrispondenza fra punti della scena e punti dell’immagine non sia biunivoca: ad un punto della scena corrisponde un unico punto dell’immagine, ma ad un punto dell’immagine corrispondono infiniti punti della scena (con riferimento alla figura del lucido precedente, il punto m è l’immagine di tutti i punti della scena appartenenti alla semiretta CM). L’immagine non ci dice nulla sulla distanza dei punti 3D, ci dice solo che un punto appartiene ad un determinato raggio ma non a quale distanza esso si trova lungo il raggio di appartenenza. La perdita di informazione associata alla formazione dell’immagine fa si che il problema di ricostruire la struttura 3D della scena a partire da un’unica immagine non ammetta una soluzione univoca. Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano 6 Capitolo 2 - Formazione ed Acquisizione delle Immagini VARIAZIONE DELLE DIMENSIONI IN FUNZIONE DELLA DISTANZA Quanto più gli oggetti sono lontani dalla telecamera, tanto più appaiono piccoli nell’immagine. Dimostriamo questa proprietà della proiezione prospettica considerando un segmento di T lunghezza L centrato nel punto M0 = x0 y0 z0 . Gli estremi del segmento possono essere espressi come: ⎡ M1 = M0 − dove a b c T L ⎢⎢ ⎢ 2⎣ ⎤ a⎥ b ⎥⎥⎦ , c ⎡ M2 = M0 + L ⎢⎢ ⎢ 2⎣ a b c ⎤ ⎥ ⎥ ⎥ ⎦ è il vettore dei coseni direttori del segmento. Proiettando M1 ed M2 sul piano immagine otteniamo: m1 = f x0 − L2 a z0 − L2 c y0 − L2 b z0 − L2 c T , m2 = f x0 + L2 a z0 + L2 c y0 + L2 b z0 + L2 c T da cui segue che la lunghezza dell’immagine del segmento può essere espressa come: l= √ w2 + h2 , w = fL az0 − cx0 2 z02 − L4 c2 h = fL bz0 − cy0 2 z02 − L4 c2 Dalle espressioni di w ed h si deduce che l decresce all’aumentare di z0 : il segmento appare più piccolo al crescere della sua distanza dalla telecamera. Nel caso particolare in cui il segmento sia parallelo al piano immagine (c = 0), la sua lunghezza è inversamente proporzionale alla distanza dalla telecamera: l= Elaborazione dell’Immagine L-S, A.A. 2003-2004 fL z0 Luigi Di Stefano 7 Capitolo 2 - Formazione ed Acquisizione delle Immagini PROPRIETÀ RELATIVE ALLA TRASFORMAZIONE DI RETTE • Le proiezione prospettica trasforma le rette dello spazio 3D in rette del piano immagine. Consideriamo una retta dello spazio 3D espressa mediante l’equazione: ⎧ ⎨ x = mz + p y = nz + q ⎩ Applicando le equazioni della proiezione prospettica ad un generico punto appartenente alla retta si ottiene: ⎧ ⎨ ⎩ Ricavando f z u = f mz+p = f m + f pz z v = f nz+q = f n + f zq z dalla prima equazione si ottiene u − fm f = z p e sostituendo nella seconda q q v = u+f n−m p p che rappresenta l’equazione di una retta del piano immagine. • La proiezione prospettica non conserva i rapporti di lunghezze lungo le rette. Verifichiamo la proprietà considerando il segmento del lucido precedente ed osservando che il punto medio dell’immagine del segmento (m0 ) non coincide, in generale, con l’immagine del punto medio del segmento 3D (m0 ): ⎡ 2 L ⎢ x0 z0 − 4 ac m0 = f ⎣ 2 L2 2 z0 − 4 c 2 ⎤T y0 z0 − L4 bc ⎥ ⎦ , 2 z02 − L4 c2 x0 m0 = f z0 y0 z0 T • Le immagini di rette parallele dello spazio 3D aventi pendenza non nulla lungo l’asse z si incontrano in un punto di fuga. Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano Capitolo 2 - Formazione ed Acquisizione delle Immagini 8 PUNTI DI FUGA Nell’ immagine seguente le rette orizzontali della scena convergono verso un punto di fuga nell’immagine. L’uso della prospettiva e dei punti fuga fu introdotto dagli artisti del Rinascimento al fine di rappresentare in modo realistico la struttura 3D della scena. In questo celebre dipinto del Masaccio le rette parallele della volta convergono verso un punto di fuga situato nella parte bassa del dipinto. Ciò consente all’artista di rendere la struttura 3D della volta cosı̀ come apparirebbe ad un osservatore che guarda la scena dal basso verso l’alto. Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano Capitolo 2 - Formazione ed Acquisizione delle Immagini 9 PUNTI DI FUGA Il punto di fuga di una retta 3D è l’immagine del punto della retta situato a distanza infinita dal centro della proiezione prospettica (“vanishing point”). La figura mostra che il punto di fuga di una retta è dato dall’intersezione con il piano immagine della parallela alla retta passante per il centro ottico. Ne segue che il punto di fuga dipende solo dall’orientazione della retta e che, ad eccezione delle rette parallele al piano immagine, rette parallele nello spazio si incontrano in un punto di fuga del piano immagine. Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano 10 Capitolo 2 - Formazione ed Acquisizione delle Immagini PUNTI DI FUGA Determiniamo le espressioni delle coordinate immmagine del punto di fuga di una generica retta dello spazio. A tal fine consideriamo la retta: ⎡ ⎢ M = M0 + λD = ⎢⎢⎣ x0 y0 z0 ⎡ ⎤ a ⎢ ⎥ ⎢ ⎥ ⎥+λ⎢ b ⎣ ⎦ c ⎤ ⎥ ⎥ ⎥ ⎦ dove M0 è un punto appartenente alla retta (posizione) e D è il vettore dei coseni direttori (orientazione). La proiezione sul piano immagine di un punto appartenente alla retta è data da: ⎡ m=⎣ ⎤ u⎦ , v u=f x0 + λa , z0 + λc v=f y0 + λb z0 + λc Poiché il punto di fuga è la proiezione del punto all’infinito della retta: ⎡ m∞ = ⎣ u∞ v∞ ⎤ a u∞ = lim u = f , λ→∞ c ⎦, v∞ = lim v = f λ→∞ b c Come ci si attendeva, il punto di fuga dipende solo dall’orientazione della retta, e non dalla posizione, e quando c = 0 la retta è parallela al piano immagine ed il punto di fuga è all’infinito. Inoltre, nel caso c = 0 l’immagine della retta è parallela alla retta 3D: u=f x0 + λa , z0 v=f y0 + λb z0 moltiplicando la prima equazione per b e la seconda per a: bu = f bx0 + λab , z0 av = f ay0 + λab z0 sottraendo la prima alla seconda ed esprimendo v in funzione di u: b f v = u+ (ay0 − bx0) a z0 a Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano 11 Capitolo 2 - Formazione ed Acquisizione delle Immagini ORIENTAZIONE DI UN FASCIO DI RETTE 3D PARALLELE La conoscenza del punto di fuga di un fascio di rette 3D parallele consente di determinare l’orientazione del fascio. Dimostriamo quindi che a partire dalle coordinate del punto di fuga è possibile ricavare il vettore dei coseni direttori delle rette 3D parallele che, nell’immagine, si incontrano nel punto di fuga. A tale scopo consideriamo le equazioni che forniscono le coordinate del punto di fuga in funzione dell’orientazione della retta ed imponiamo che il vettore dei coseni direttori abbia lunghezza unitaria: ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ u∞ = f ac v∞ = f bc a2 + b2 + c2 = 1 Elevando al quadrato e sommando le prime due equazioni, e sfruttando la terza: 2 c2 u2∞ + v∞ = f 2 1 − c2 da cui si ottiene: c= f 2 + f2 u2∞ + v∞ Sostituendo c nelle prime 2: a=√ u∞ 2 +f 2 u2∞ +v∞ b= √ v∞ 2 2 +f 2 u∞ +v∞ Il vettore dei coseni direttori può quindi essere espresso come: ⎡ ⎢ ⎢ ⎢ ⎣ a b c ⎤ ⎥ ⎥ ⎥ ⎦ ⎡ = ⎢ 1 ⎢ ⎢ 2 2 2 u∞ + v∞ + f ⎣ Elaborazione dell’Immagine L-S, A.A. 2003-2004 u∞ v∞ f ⎤ ⎥ ⎥ ⎥ ⎦ Luigi Di Stefano 12 Capitolo 2 - Formazione ed Acquisizione delle Immagini PUNTO DI FUGA ED ORIENTAZIONE A PARTIRE DALLE IMMAGINI DI 2 SEGMENTI 3D PARALLELI L’orientazione di un fascio di rette 3D parallele può essere determinata a partire dalle immagini di due segmenti paralleli. Difatti il punto di fuga può essere determinato calcolando l’intersezione delle immagini dei due segmenti ed una volta noto il punto di fuga è possibile determinare l’orientazione del fascio come visto nel lucido precedente. ⎡ m1 = ⎣ u1 v1 ⎤ ⎡ m2 = ⎣ ⎦, u2 v2 ⎤ ⎡ m3 = ⎣ ⎦, u3 v3 ⎤ ⎦, ⎡ m4 = ⎣ u4 v4 ⎤ ⎦ Le rette per m1 , m2 ed m3 , m4 hanno equazioni: (v − v1 ) = v2 −v1 u2 −u1 (u − u1) (v − v3 ) = v4 −v3 u4 −u3 (u − u3) imponendo il passaggio per il punto di fuga m∞ = u∞ v∞ ⎧ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎩ (v∞ − v1) = v2 −v1 u2 −u1 (u∞ − u1) (v∞ − v3) = v4 −v3 u4 −u3 (u∞ − u3) Elaborazione dell’Immagine L-S, A.A. 2003-2004 T : Luigi Di Stefano 13 Capitolo 2 - Formazione ed Acquisizione delle Immagini PUNTO DI FUGA ED ORIENTAZIONE A PARTIRE DALLE IMMAGINI DI 2 SEGMENTI 3D PARALLELI Tramite semplici manipolazioni algebriche il sistema precedente può essere posto nella forma: ⎧ ⎪ ⎪ ⎪ ⎨ u∞ (v2 − v1) + v∞ (u1 − u2) = (u1 v2 − u2v1 ) ⎪ ⎪ ⎪ ⎩ u∞ (v4 − v3) + v∞ (u3 − u4) = (u3 v4 − u4v3 ) equivalente a: ⎡ ⎣ v2 − v1 u1 − u2 v4 − v3 u3 − u4 ⎤⎡ ⎦⎣ u∞ u∞ ⎤ ⎡ ⎦ =⎣ u1 v2 − u2 v1 u3 v4 − u4 v3 ⎤ ⎦ La soluzione del sistema è esprimibile (Teorema di Cramer) come: u∞ v∞ u2v1 u1 − u2 u4v3 u3 − u4 v1 u1 − u2 v3 u3 − u4 u1 v2 − u3 v4 − = v2 − v4 − v2 − v1 u1 v2 − u2 v1 v4 − v3 u3 v4 − u4 v3 = v2 − v1 u1 − u2 v4 − v3 u3 − u4 Osserviamo che il sistema non ammette soluzione se: v2 − v1 v4 − v3 v2 − v1 u1 − u2 = = 0 ⇐⇒ v4 − v3 u3 − u4 u2 − u1 u4 − u3 cioè le due rette dell’immagine sono parallele ed il punto di fuga è all’infinito. Tuttavia, anche in questo caso è possibile determinare l’orientazione delle rette 3D: ⎡ ⎢ ⎢ ⎢ ⎣ a b c ⎡ ⎤ ⎥ ⎥ ⎥ ⎦ = 1 ⎢ ⎢ ⎢ 2 ⎣ (u2 − u1)2 + (v2 − v1) u2 − u1 v2 − v1 0 Elaborazione dell’Immagine L-S, A.A. 2003-2004 ⎡ ⎤ ⎥ ⎥ ⎥ ⎦ = 1 ⎢ ⎢ ⎢ 2 ⎣ (u4 − u3)2 + (v4 − v3 ) u4 − u3 v4 − v3 0 ⎤ ⎥ ⎥ ⎥ ⎦ Luigi Di Stefano Capitolo 2 - Formazione ed Acquisizione delle Immagini 14 PROIEZIONE ORTOGRAFICA • In numerose immagini gli effetti della prospettiva sono poco evidenti. Ad esempio, nell’immagine che segue gli spigoli del cubo appaiono grosso modo paralleli. • In tali casi il processo di formazione dell’immagine può essere approssimato, a meno di una fattore di scala, da una trasformazione più semplice detta proiezione ortografica. nella proiezione ortografica i punti 3D vengono proiettati su un piano mediante rette perpendicolari al piano. Nel caso mostrato in figura u = x, v = y. • Vediamo allora sotto quali condizioni la proiezione ortografica costituisce un modello adeguato della formazione dell’immagine. Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano 15 Capitolo 2 - Formazione ed Acquisizione delle Immagini PROIEZIONE ORTOGRAFICA • Se l’oggetto è caratterizzato da un intervallo di distanze, 2∆z, piccolo rispetto alla sua distanza media dalla telecamera, z0 : f f f ≈ ≈ z0 + ∆z z0 − ∆z z0 u≈ f x, z0 v≈ f y z0 queste trasformazioni corrispondono ad una proiezione ortografica, u = x, v = y, seguita da un cambiamento di scala, f /z0. È possibile pensare alla trasformazione complessiva come ad una proiezione ortografica sul piano z = z0 seguita da una proiezione prospettica sul piano immagine (poiché z = z0 è parallelo al piano immagine quest’ultima trasformazione corrisponde ad un semplice cambiamento di scala). • Osserviamo inoltre che l’approssimazione della proiezione prospettica con la proiezione ortografica è tanto migliore quanto più l’oggetto è vicino all’asse ottico (relativamente alla sua distanza media dalla telecamera). M = ∆x ∆y z0 + ∆z T : mpp = f z0 +∆z ∆x f z0 +∆z ∆y x = f ∆x z0 − f z0∆x +∆z ∆y y = f ∆y z0 − f z0 +∆z T , mpo = f z0 ∆x f z0 ∆y ∆x z0 =f 1− z0 z0 + ∆z ∆y z0 =f 1− z0 z0 + ∆z • Conseguentemente, la proiezione ortografica è un modello adeguato del processo di formazione dell’immagine se l’oggetto è vicino all’asse ottico e la variazione di distanza è piccola. I termini “vicino” è “piccolo” vanno intesi relativamente alla distanza media dalla telecamera. • La proiezione ortografica è un modello particolarmente adeguato quando si usa un teleobiettivo (lunghezza focale molto elevata → campo visivo molto piccolo → oggetto vicino all’asse ottico) per riprendere un oggetto lontano caratterizzato da una piccola variazione di profondità. Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano T 16 Capitolo 2 - Formazione ed Acquisizione delle Immagini LIMITI DELLA TELECAMERA PINHOLE ED IMPIEGO DI LENTI • Affinché l’immagine di P sia a fuoco è necessario che tutti i raggi luminosi provenienti da P convergano in un unico punto del piano immagine. Nel caso di telecamera pinhole questo implica che il foro sia tenuto il più piccolo possibile: Purtroppo, se il foro è molto piccolo il sistema è in grado di raccogliere una quantità di luce molto limitata, e per ottenere immagini caratterizzate da un livello di luminosità accettabile è necessario fare ricorso a tempi di esposizione molto lunghi, tipicamente di diversi secondi (il tempo di esposizione è grosso modo inversamente proporzionale al quadrato dell’apertura). L’uso di tali tempi di esposizione è possibile solo nel caso di scena totalmente statiche, viceversa l’immagine risulterebbe sfocata a causa del movimento. • Le telecamere utilizzate in pratica dispongono quindi di lenti, o sistemi di lenti, che raccolgono la luce emessa da un punto della scena e la focalizzano in un unico punto del piano immagine. Una lente può avera una apertura molto maggiore del foro di una telecamera pinhole, e quindi lavorare con tempi di esposizione molto minori. Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano Capitolo 2 - Formazione ed Acquisizione delle Immagini 17 EQUAZIONE DELLE LENTI SOTTILI • Gli obiettivi utilizzati nelle telecamere sono tipicamente sistemi di lenti molto complessi. Tuttavia, il loro funzionamento può essere modellato in prima approssimazione tramite l’equazione della lenti sottili, che stabilisce un legame fra lunghezza focale (f ), distanza dell’oggetto dalla lente (u) e distanza dell’immagine a fuoco dalla lente (v): 1 1 1 + = u v f F : fuoco della lente, C : centro della lente Le seguenti due proprietà della lente sottile consentono di determinare mediante una semplice costruzione geometrica la posizione dell’immagine di un punto a fuoco: 1. I raggi paralleli all’asse ottico vengono rifratti in modo da attraversare il fuoco. 2. I raggi passanti per il centro della lente rimangono inalterati. • Il processo di formazione dell’immagine mediante una lente può essere modellato mediante una proiezione prospettica in cui il centro ottico è il centro della lente e la lunghezza focale è data da v (che viene anche detta “focale effettiva”). • Notiamo inoltre che i punti a distanza infinita vengono messi a fuoco ad una distanza dalla lente pari alla lunghezza focale: u = ∞ → Elaborazione dell’Immagine L-S, A.A. 2003-2004 1 =0 → v=f u Luigi Di Stefano Capitolo 2 - Formazione ed Acquisizione delle Immagini 18 CERCHI DI CONFUSIONE • L’equazione delle lenti sottili stabilisce che data la posizione del piano immagine e la lunghezza focale solo i punti che si trovano ad una ben precisa distanza dalla lente saranno a fuoco : 1 1 1 vf + = → u= u v f v−f Conseguentemente, se si vogliono mettere a fuoco punti situati ad una determinata distanza è necessario fissare opportunamente la posizione del piano immagine: 1 1 1 uf + = → v= u v f u−f • Fissata allora la posizione del piano immagine, i punti della scena situati davanti o dietro il piano a fuoco non saranno a fuoco e la loro immagine sarà costituita da un cerchio, detto “cerchio di confusione”, invece che da un punto: • Si noti che la telecamera pinhole consente invece di avere simultaneamente a fuoco punti che si trovano a distanze diverse dal foro. Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano 19 Capitolo 2 - Formazione ed Acquisizione delle Immagini PROFONDITÀ DI CAMPO E DIAFRAMMA • Abbiamo visto quindi che con una lente “ideale” è possibile avere simultaneamente a fuoco solo i punti situati ad una data distanza. Tuttavia, gli obiettivi reali sono costruiti in modo da garantire che lo sfocamento si mantenga molto piccolo all’interno di un dato intervallo di distanze. Tale intervallo è detto profondità di campo (depth of field). In particolare lo sfocamento non sarà apprezzabile finché il cerchio di confusione non supera le dimensioni dell’elemento fotosensibile del sensore. • Gli obiettivi che vengono montati sulle telecamere dispongono tipicamente del meccanismo del diaframma, che consente di controllare mediante un’apposita ghiera la dimensione del diametro effettivo della lente (apertura della lente), che può essere reso minore di quello fisico. • Evidentemente quanto più il diaframma è “aperto” tanto maggiore è la quantità di luce raccolta dalla lente e la luminosità dell’immagine. Nello stesso tempo però , all’aumentare dell’apertura del diaframma aumenta anche la dimensione dei cerchi di confusione associati ai punti non appartenenti al piano a fuoco, e quindi diminuisce la profondità di campo. Tipicamente quando si ha la necessità di incrementare la profondità di campo si riduce l’apertura della lente, “chiudendo” il diaframma. Se in seguito alla chiusura del diaframma la luminosità dell’immagine cala troppo si può aumentare, se possibile, il tempo di esposizione. • La ghiera del diaframma fa riferimento al cosidetto Numero-f (f-number), che rappresenta il rapporto fra la focale ed il diametro effettivo della lente: f − number = f d I valori riportati sulla ghiera sono tipicamente 1.4, 2, 2.8, 4, 5.6, 8, 11, 16 . . . Di conseguenza, per aprire il diaframma bisogna muovere la ghiera nel verso dei valori descrescenti, per chiuderlo nel verso dei valori crescenti. Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano Capitolo 2 - Formazione ed Acquisizione delle Immagini 20 MESSA A FUOCO • Gli obiettivi che vengono utilizzati nelle applicazioni di visione dispongono tipicamente di una seconda ghiera che consente la messa a fuoco a diverse distanze. Il movimento della ghiera provoca lo spostamento della lente ( o del sistema di lenti) rispetto alla posizione del piano immagine, che è fisso. • Riprendendo ancora l’equazione delle lenti u1 + 1v = f1 , data la focale dell’obiettivo (f ), il meccanismo di messa a fuoco consente di variare la distanza fra piano immagine e lente (v), al fine di mettere a fuoco punti situati a distanze diverse (u). • Una delle due posizioni di fine corsa della ghiera corrisponde alla messa a fuoco dei punti situati all’infinito (v = f ). Rispetto a tale posizione la ghiera consente lo spostamento in avanti della lente (allontanamento dal piano immagine) e quindi la messa a fuoco di punti via via sempre più vicini. L’altra posizione di fine corsa corrisponde alla massima distanza fra lente e piano immagine, e quindi alla distanza minima di messa a fuoco (v = vmax → u = umin), che è un dato caratteristico dell’obiettivo. Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano 21 Capitolo 2 - Formazione ed Acquisizione delle Immagini CAMPO VISIVO • Il campo visivo (FOV: Field of View ) di una telecamera dipende sia dalla focale dell’obiettivo sia dalle dimensioni del piano immagine. Definiamo allora il FOV come l’angolo di ripresa nella posizione di messa a fuoco all’infinito dell’obiettivo (v = f ): Dato il piano immagine, il campo visivo risulta inversamente proporzionale alla lunghezza focale dell’obiettivo. • Poiché il piano immagine tipicamente è rettangolare (w·h), è necessario distinguere fra campo visivo orizzontale e verticale: F OVHoriz. w = 2 arctan , 2f F OVV ert. h = 2 arctan 2f • A titolo di esempio, consideriamo un sensore con w · h = 8.8 mm. · 6.6 mm. e lunghezze focali f1 = 12 mm. ed f2 = 50 mm.: f1 : F OVHoriz. 8.8 = 2 arctan 2 · 12 f2 : F OVHoriz. 8.8 = 2 arctan 2 · 50 Elaborazione dell’Immagine L-S, A.A. 2003-2004 ◦ ≈ 40 , ◦ ≈ 10 , F OVV ert. F OVV ert. 6.6 = 2 arctan 2 · 12 6.6 = 2 arctan 2 · 50 ≈ 30◦ ≈ 7.5◦ Luigi Di Stefano 22 Capitolo 2 - Formazione ed Acquisizione delle Immagini RAPPORTO DI MAGNIFICAZIONE • Il Rapporto di Magnificazione è definito come Dimensioni dell oggetto nell immagine M = Dimensioni dell oggetto nella scena Facendo riferimento come prima alla posizione di messa a fuoco all’infinito dell’obiettivo (v = f ): M = v f x = = X u u Il Rapporto di Magnificazione risulta quindi proporzionale alla lunghezza focale. • A titolo di esempio, valutiamo le dimensioni dell’immagine di un oggetto di larghezza 0.5 m. posto a una distanza di 3 m. dalla telecamera con lunghezze focali f1 = 12 mm. ed f2 = 50 mm.: f1 : x=M · X = f2 : x=M · X = Elaborazione dell’Immagine L-S, A.A. 2003-2004 12 3000 50 3000 · 500 = 2mm. · 500 = 8.33mm. Luigi Di Stefano 23 Capitolo 2 - Formazione ed Acquisizione delle Immagini CAMPO VISIVO E RAPPORTO DI MAGNIFICAZIONE • Sinora abbiamo fatto riferimento alla posizione di messa a fuoco all’infinito. Nel caso in cui la ghiera di messa a fuoco venga posizionata in una posizione diversa, è v (focale effettiva) che svolge le veci della focale nella definizioni di FOV e M: F OVHoriz. w = 2 arctan , 2v M = F OVV ert. h = 2 arctan 2v v u • Poiché tramite il movimento di messa a fuoco la focale effettiva viene aumentata rispetto alla focale nominale (f), i valori di FOV ed M definiti nel lucido precedente rappresentano rispettivamente FOV massimo ed M minimo • Tuttavia, la differenza fra focale effettiva e focale nominale è in genere abbastanza piccola, soprattutto nel caso di oggetti sufficientemente distanti dalla telecamera. Di conseguenza, il valore della focale nominale fornisce un’indicazione significativa di Campo Visivo e Magnificazione: f “piccola” → FOV “grande”, M “piccolo” f “grande” → FOV “piccolo”, M “grande” Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano 24 Capitolo 2 - Formazione ed Acquisizione delle Immagini SCELTA DELL’OTTICA • La scelta dell’ottica adatta ad una determinata applicazione viene effettuata dimensionando la focale sulla base dei requisiti in termini di campo visivo o magnificazione (abbiamo visto che tali requisiti sono strettamente legati fra loro). • Ad esempio, è possibile esprimere la lunghezza focale in funzione del rapporto di magnificazione: ⎧ 1 ⎪ ⎪ ⎪ ⎨ u ⎪ ⎪ ⎪ ⎩ + 1 v M = = 1 f =⇒ f = v u uM M +1 e poi ricavare la focale in funzione della distanza e del rapporto di magnificazione necessario. • Supponiamo di dover riprendere una scena di larghezza W = 30 cm dalla distanza di 1 m e di utilizzare un sensore di dimensioni w · h = 8.8mm · 6.6mm : M = 8.8 = 0.0293 300 =⇒ f = 1000 · 0.0293 = 28.46 0.0293 + 1 Poiché una lente con focale di 28.46 mm non è reperibile, sceglieremo f = 25 mm, accettando una leggera perdita di risoluzione (la scena inquadrata è leggermente più ampia del necessario). Vediamo qual’ è la larghezza della scena inquadrata una volta scelta la focale f = 25 mm: f = M = w W uM M +1 =⇒ M = =⇒ W = f 25 = = 0.0256 u−f 1000 − 25 w 8.8 mm = = 343.75 mm = 34.375 cm M 0.0256 Supponiamo ora di aver fissato f = 25 mm e di voler comunque ottenere esattamente un campo visivo di 30 cm. Possiamo agire sulla distanza della scena, avvicinando leggermente la telecamera (fissati f ed M determiniamo u): f = uM M +1 =⇒ u = f · (M + 1) 25 · (1 + 0.0293) = = 87.82 cm M 0.0293 Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano 25 Capitolo 2 - Formazione ed Acquisizione delle Immagini EQUAZIONE RADIOMETRICA DELLA FORMAZIONE DELL’IMMAGINE • Analizziamo ora il legame radiometrico che sussiste far punti della scena e punti dell’immagine. L’obiettivo è rispondere alla domanda: che cosa determina l’intensità luminosa (“brightness”) di un dato punto dell’immagine ?. • Le grandezze radiometriche coinvolte nel processo di formazione dell’immagine sono: Irradianza = E = Potenza per unità di area W · m−2 di energia radiante (luce) incidente su una superficie. E (p) = δP δA E (p) dipende dalla quantità di luce che incide su una punto di una superficie. Radianza = L = Potenza per unità di area sottesa emessa in un angolo solido −2 −1 unitario W · m · sr da una superficie. δ2P L (P ) = δA · cosθ · δω L (P ) dipende dalla quantità di luce emessa dal punto della superficie. In generale la radianza di un punto di una superficie varia in funzione dalla direzione di emissione. Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano 26 Capitolo 2 - Formazione ed Acquisizione delle Immagini EQUAZIONE RADIOMETRICA DELLA FORMAZIONE DELL’IMMAGINE • Si può dimostrare che se p è l’immagine di P fra E(p) ed L(P ) sussiste la seguente relazione: d π E(p) = L(P ) · · 4 f 2 · cos4 α • La quantità di luce incidente in un punto del piano immagine, E(p), è proporzionale alla quantità di luce emessa dal corrispondente punto della scena, L(P ). Il sensore che costituisce il piano immagine di una telecamera misura quindi la luce emessa dai punti della scena. 2 d , f • Il fattore di proporzionalità contiene il termine che rappresenta l’inverso del quadrato del Numero-f, che determina il diametro effettivo della lente. Quanto minore è il Numero-f tanto maggiore è il diametro effettivo e quindi la porzione della luce proceviente da P che viene raccolta dalla lente. • Il termine cos4 α indica che la quantità di luce incidente sul piano immagine decresce man mano che aumenta l’inclinazione del raggio principale rispetto all’asse ottico. La parte periferica dell’immagine tenderà quindi ad apparire meno luminosa. In caso di FOV piccolo questo effetto può essere trascurato. Inoltre, in genere è molto difficile apprezzare questo effetto nelle immagini a causa della predominanza delle varizioni di irradianza dovute delle variazioni spaziali della radianza. Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano 27 Capitolo 2 - Formazione ed Acquisizione delle Immagini RIFLETTANZA DI UNA SUPERFICIE • La domanda che discende logicamente dalla trattazione precedente è che cosa determina la quantità di luce (radianza) emessa da un punto nella direzione della telecamera ? • La radianza di una superficie dipende in generale dalla quantità e dalla direzione della luce con cui viene illuminata, dalla direzione dalla quale viene vista e dalla modalità con cui il materiale di cui è costituita riflette la luce. • Le proprietà di riflessione di una superficie vengono espresse mediante una funzione detta BDRF (Bidirectional Reflectance Distribution Function) che consente di stabilire la radianza nella direzione di vista in funzione dell’irradianza nella direzione di illuminazione: BDRF (θi , φi, θe, φe) = δL (θe, φe ) δE (θi, φi ) e dove le direzioni sono specificate mediante gli angoli θ (angolo polare) e φ (azimuth) definiti nel sistema di riferimento locale mostrato nella figura seguente: • Un modello di riflettanza che viene spesso adottato nell’ambito della Computer Vision è quello della superficie lambertiana o diffusore ideale. Una superficie lambertiana diffonde tutta la luce incidente uniformemente in tutte le direzioni (quindi non assorbe alcuna porzione della luce incidente ed appare ugualmente luminosa da ogni punto di vista). Questo modello approssima abbastanza bene il comportamento di superfici opache. La BDRF di una superficie lambertiana è una costante: BDRF (θi , φi, θe, φe) = Elaborazione dell’Immagine L-S, A.A. 2003-2004 1 π Luigi Di Stefano 28 Capitolo 2 - Formazione ed Acquisizione delle Immagini RIFLETTANZA DI UNA SUPERFICIE • Il comportamento opposto a quello del diffusore ideale è quello della superficie perfettamente speculare. In tal caso tutta la luce incidente viene riflessa in un’unica direzione, quella per cui il raggio riflesso e quello incidente sono coplanari e l’angolo di riflessione è uguale a quello di incidenza: ⎧ ⎪ ⎪ ⎪ ⎨ BDRF = ⎪ ⎪ ⎪ ⎩ 1: θe = θi , 0: altrove φe = φi + π • Le superfici reale sono caratterizzate da un comportamento che è una combinazione di riflessione speculare e diffusione. Conseguentemente sono stati sviluppato modelli di riflettanza complessi che tengono conto di entrambi comportamenti. Tali modelli inglobano dei parametri che consentono di combinare opportunamente le componenti diffusiva e speculare. • I modelli di riflettanza vengono impiegati nella Computer Graphics al fine di descrivere le caratteristiche di riflessione delle superfici che devono essere visualizzate. • Nella visione artificiale i modelli di riflettanza vengono impiegati prevalentemente nell’ambito delle tecniche dette di Shape from Shading. Tali tecniche mirano a risolvere il problema inverso rispetto a quello della Computer Graphics: note le sorgenti luminose ed il modello di riflessione determinare la forma 3D delle superfici a partire dall’immagine. Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano 29 Capitolo 2 - Formazione ed Acquisizione delle Immagini DIGITALIZZAZIONE DELL’IMMAGINE • Il piano immagine di una telecamera è costituito da un sensore in grado di convertire l’irradianza di ciascun punto in una grandezza elettrica, I(x, y). • Tipicamente la funzione I(x, y) viene convertita dall’elettronica della telecamera in un segnale analogico V (t) che è utilizzabile per pilotare direttamente un monitor televisivo (“legacy” delle applicazioni di video broadcasting). • Questa conversione non è però ancora sufficiente ai fini dell’elaborazione dell’immagine mediante un calcolatore. L’immagine continua deve infatti essere digitalizzata mediante campionamento e quantizzazione : 255 204 77 255 255 255 255 255 204 51 102 255 Campionamento Quantizzazione 255 178 204 178 178 255 255 230 230 230 204 204 255 255 153 153 255 255 255 102 128 153 178 204 Immagine Continua Immagine Campionata Immagine Campionata e Quantizzata – Campionamento A partire dall I(x, y) viene generata una matrice rettangolare di N ∗M campioni equispaziati detti picture elements o, più comunemente, pixels: ⎡ I(x, y) =⇒ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ I(0, 0) I(0, 1) ... I(0, M − 1) .. . .. . I(N − 1, 0) I(N − 1, 1) . . . I(N − 1, M − 1) ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ – Quantizzazione Il range continuo di valori associato alla I(x, y) viene rappresentato mediante l valori discreti detti livelli di grigio ( gray-levels ), con l = 2m . m è quindi il numero di bit necessari a rappresentare un pixel. • Conseguentemente, il numero di bit necessari a rappresentare l’intera immagine digitale è dato da: B = N ·M ·m Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano 30 Capitolo 2 - Formazione ed Acquisizione delle Immagini DIGITALIZZAZIONE DELL’IMMAGINE • La tabella seguente riporta l’occupazione di memoria (in bit) di un’immagine digitale per diversi valori di N = M ed m N\m 32 64 128 256 512 1024 1 2 3 1024 2048 3072 4096 8192 12288 16384 32768 49152 65536 131072 196608 262144 524288 786432 1048576 2097152 3145728 4 4096 16384 65536 262144 1048576 4194304 5 5120 20480 81920 327680 1310720 5242880 6 6144 24576 98304 393216 1572864 6291456 7 7168 28672 114688 458752 1835008 7340032 8 8192 32768 131072 524288 2097152 8388608 • Qual’è la qualità con cui un’immagine digitale è in grado di rappresentare la scena osservata ? Oppure, essendo l’immagine digitale un’approssimazione dell’immagine ideale, continua prodotta sul piano immagine del sensore, qual’è la qualità di quest’approssimazione ? • Evidentemente, quanto maggiore è B (risoluzione) tanto maggiore è la qualità dell’immagine digitale. Nei lucidi successivi viene mostrato separatamente l’impatto di campionamento e quantizzazione sulla qualità dell’immagine digitale utilizzando la notissima immagine“Lenna” (512x512 pixels, 256 livelli di grigio). • Una curiosità , la storia dell’immagine “Lenna”: http://www-2.cs.cmu.edu/~chuck/lennapg/lenna.shtml Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano Capitolo 2 - Formazione ed Acquisizione delle Immagini 31 IMPATTO DEL CAMPIONAMENTO SULLA QUALITÀ DELL’IMMAGINE Immagine originaria 512x512 pixels Immagine sottocampionata 256x256 Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano Capitolo 2 - Formazione ed Acquisizione delle Immagini 32 IMPATTO DEL CAMPIONAMENTO SULLA QUALITÀ DELL’IMMAGINE Immagine sottocampionata 128x128 Immagine sottocampionata 64x64 Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano Capitolo 2 - Formazione ed Acquisizione delle Immagini 33 IMPATTO DEL CAMPIONAMENTO SULLA QUALITÀ DELL’IMMAGINE Immagine sottocampionata 32x32 Immagine sottocampionata 16x16 Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano 34 Capitolo 2 - Formazione ed Acquisizione delle Immagini IMPATTO DELLA QUANTIZZAZIONE SULLA QUALITÀ DELL’IMMAGINE Immagine originaria a 256 livelli di grigio Immagine a 128 livelli di grigio Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano 35 Capitolo 2 - Formazione ed Acquisizione delle Immagini IMPATTO DELLA QUANTIZZAZIONE SULLA QUALITÀ DELL’IMMAGINE Immagine 64 livelli di grigio Immagine a 32 livelli di grigio Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano 36 Capitolo 2 - Formazione ed Acquisizione delle Immagini IMPATTO DELLA QUANTIZZAZIONE SULLA QUALITÀ DELL’IMMAGINE Immagine 16 livelli di grigio Immagine a 8 livelli di grigio Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano 37 Capitolo 2 - Formazione ed Acquisizione delle Immagini IMPATTO DELLA QUANTIZZAZIONE SULLA QUALITÀ DELL’IMMAGINE Immagine 4 livelli di grigio Immagine a 2 livelli di grigio Elaborazione dell’Immagine L-S, A.A. 2003-2004 Luigi Di Stefano