Elaborazione digitale delle immagini
Dal Dizionario: rappresentazione, imitazione di un oggetto o di
una cosa; descrizione grafica o visiva di oggetti o cose;
qualcosa introdotto o rappresentare qualcos’altro.
Es.: foto di Piazza di Spagna e’ la rappresentazione di un luogo
ottenuta mediante una macchina fotografica. L’immagine
contiene l’informazione dell’oggetto che rappresenta. Tale
informazione viene riprodotta dalla fotografia in modo che
l’occhio umano e il cervello possano visualizzare l’oggetto.
Tipi di immagini: fotografie, disegni, documenti, dipinti,
immagini televisive, ologrammi (immagini formate con
dispositivi ottici come lenti, prismi ect.)
Elaborazione digitale delle immagini
Immagini digitali: funzioni f(x,y) che misurano l’intensità
luminosa nei punti di coordinate (x,y) dell’immagine stessa.
Nota1: in seguito si farà riferimento alle immagini in un
contesto di ottica non coerente (l’informazione e’ contenuta
nell’intensità luminosa del campo e.m.=intensità luminosa. Non
si utilizza l’informazione di fase)
Nota2: si farà una trattazione su singola lunghezza d’onda
(come l’occhio percepisce le variazioni d'intensità per una
lunghezza d’onda, omettendo la percezione del colore).
Elaborazione digitale delle immagini
Sono temi di image processing and understanding:
•compressione immagini (image coding)
•analisi di immagini (image analysis)
•riconoscimento di forme (pattern recognition)
•trattamento del segnale video (video processing)
Elaborazione digitale delle immagini
Esempio: robotica per l’automazione delle produzioni
industriali meccaniche ed elettromeccaniche
Scena con
oggetti
Unità di
acquisizione
(Sensori meccanici,
termici, telecamera)
Unità di
elaborazione
decisione e
controllo
(Riconoscimento e inseguimento
degli oggetti)
Unità di
attuazione
Operazione
sugli
oggetti
Elaborazione digitale delle immagini
Vantaggi dell’elaborazione digitale
Precisione:
•ingrandimento fotografico analogico produce una
degradazione dell’immagine
•si può modificare la luminosità di un’immagine con un
circuito analogico, ma il risultato e’ affetto da rumore
introdotto dal circuito stesso.
Flessibilità: permette di ottenere le più svariate combinazioni e
variazioni dei parametri senza dover ricorrere ad apparati
diversi per ciascuna operazione
Alternative: elaborazione ottica
Componenti di un sistema di elaborazione immagini
Modello dell’immagine (1/3)
Una immagine monocromatica e reale può essere caratterizzata
come la distribuzione spaziale di energia radiante prodotta da
una sorgente luminosa tramite una funzione spazio-temporale
reale, non negativa, finita e limitata (rispetto alle variabili
spaziali e temporali).
L'immagine effettivamente percepita (da un osservatore umano)
o acquisita (mediante un trasduttore) è la funzione modificata
dalla risposta dell'osservatore e/o del trasduttore, tipicamente
secondo una media temporale.
Modello dell’immagine (2/3)
L'immagine può quindi essere caratterizzata, d’accordo con
l’intuizione, come una distribuzione bidimensionale di intensità:
f= f (x,y,t)
Più precisamente, in alcuni testi la f è detta irradianza o illuminanza,
ed è definita come:
dΦ
E=
dA
Φ è un flusso luminoso (grandezza “fisiologica”) la cui unità è il Lumen (Lm);
A indica l’area (m).
L’irradianza si misura pertanto nella unità fotometrica lumen/m2 (Lux) a cui
corrisponde un parametro fisico di intensità espresso in W/m2.
Modello dell’immagine (3/3)
Altre grandezze correlate con la radiazione luminosa sono:
• Energia radiante Q [W · s = Joule] alla quale corrisponde
l’energia luminosa [Lm · s]
• Potenza [W] Φ = dQ/dt alla quale corrisponde il flusso luminoso
misurato in Lumen [Lm]
•Intensità radiante I = dΦ/dΩ [W · sr-1] alla quale corrisponde
l’intensità luminosa [Lm/sr = candela]
Acquisizione dell’immagine
• E’ il processo di rivelazione e registrazione che
"ferma" l'immagine su un supporto adatto agli usi
successivi.
• Tecnologie principali: fotochimiche (es. pellicola
fotografica) e optoelettroniche (es. telecamera +
dispositivo di memoria).
• L'acquisizione di una immagine digitale deve
produrre come risultato una immagine numerica su un
supporto accessibile da parte di un dispositivo di
calcolo.
Fasi dell’acquisizione (1/2)
• Scansione
• Trasduzione o rivelazione
• Campionamento
• Quantizzazione
• Scrittura (memorizzazione)
Fasi dell’acquisizione (2/2)
Richiami sul sistema visivo umano (1/9)
Ricettori sulla superficie della retina: coni (sensibilità ai colori, zona centrale
del campo visivo, alta risoluzione), bastoncelli (poco sensibili ai colori,
modesta risoluzione, zona estesa del campo visivo). La loro distribuzione è
radialmente simmetrica rispetto al punto centrale della fovea.
Richiami sul sistema visivo umano (2/9)
.– Supponiamo che la fovea sia un quadrato di 1.5 mm x 1.5 mm.
Poiché la densità dei coni in questa regione è di circa 150,000 per mm2, la fovea
può essere considerata come un array quadrato di circa 337,000 fotosensori.
– La tecnologia odierna consente sicuramente di realizzare chip di sensori di
dimensioni maggiori e con maggior numero di elementi sensibili (pixel
dell’immagine).
– La qualità della visione umana non è quindi dovuta ai sensori, ma
principalmente all’integrazione dell’intelligenza e dell’esperienza che gli esseri
umani usano per completare il processo di percezione visiva.
Elaborazione digitale delle immagini
Struttura dell’occhio
Fotoricettori contenuti dalla retina
Coni:
preposti alla visione diurna o fotopica;
si hanno tre tipi di coni con diverse risposte spettrali grazie hai
quali si ha la visione dei colori
producono una visione più nitida perche’ essendo più sottili
assicurano una più elevata risoluzione spaziale
singolarmente collegati ciascuno a una propria terminazione
nervosa
massima concentrazione dei coni è sulla fovea
Elaborazione digitale delle immagini
Struttura dell’occhio
Fotoricettori contenuti dalla retina
Bastoncelli:
preposti alla visione notturna o scotopica;
molto più sensibili dei coni allo stimolo luminoso
sono connessi a gruppi a un singolo nervo
danno una indefinibile tinta tra il grigio scuro il verde e il blu
massima concentrazione nelle zone periferiche della retina (di
notte posso vedere gli oggetti fissandoli con la coda dell’occhio
anziché direttamente
Richiami sul sistema visivo umano (3/9)
Il sistema visivo umano risponde
alla radiazione elettromagnetica nel
campo del visibile, tra 360 nm e
800 nm circa (anche se la sensibilità
dell’occhio è molto ridotta tra 360
nm e 410 nm circa e tra 720 nm e
800 nm circa).
L’energia luminosa è assorbita dalla pigmentazione
fotosensibile dei ricettori. Nei coni, questa pigmentazione è di
tre tipi, il che rende i coni sensibili a differenti gamme spettrali
e quindi rende possibile la percezione del colore.
Richiami sul sistema visivo umano (4/9)
La gamma dei livelli di intensità ai quali l’occhio può adattarsi è enorme
dell’ordine di 1010 (100dB), dalla soglia scotopica (visione “quasi
monocromatica” dei bastoncelli con occhi adattati al buio) al limite
dell’abbagliamento. Una dinamica così elevata è ottenuta anche tramite
l’iride, che riduce automaticamente “l’apertura relativa” dell’occhio: è
identico al diaframma degli obiettivi fotografici.
La luminosità soggettiva (cioè la luminosità percepita dal sistema visivo
umano) è una funzione logaritmica dell’intensità della luce incidente
sull’occhio.
E’ importante notare che l’occhio non funziona simultaneamente sulla
intera gamma dei livelli. Piuttosto, il sistema passa attraverso una serie di
livelli di adattamento alla intensità della luce
Richiami sul sistema visivo umano (5/9)
Richiami sul sistema visivo umano (6/9)
Se per esempio l’occhio si trova, in certe condizioni
ambientali, al livello di adattamento Ba, la gamma dei livelli
che esso può discriminare è soltanto quello indicato dalla
curva corta, che ha Bb come limite sotto il quale nessuno
stimolo produce una sensazione diversa dal nero
La porzione tratteggiata indica che a livelli superiori a Ba
in realtà l’occhio si sposta su un livello di adattamento
superiore
E’ molto importante la capacità dell’occhio di discriminare tra
variazioni della luminosità, ai diversi livelli di adattamento
Una grandezza utile, in termini quantitativi, è il cosiddetto
rapporto di Weber
Log ∆I/I
Sistema visivo umano: Il rapporto di Weber (7/9)
Log I
Sistema visivo umano: Il rapporto di Weber (8/9)
Si tratta del rapporto dI/I, essendo dI la variazione di
luminosità e I la luminosità: un piccolo valore di dI/I significa
che una piccola variazione percentuale dell’intensità è
discriminabile (quindi una buona capacità di discriminazione
delle variazioni)
Viceversa, alti valori del rapporto di Weber indicano la necessità
di forti variazioni di luminosità, affinché le variazioni stesse
siano avvertibili
Come il grafico mostra, la capacità di discriminazione
migliora al crescere del livello di illuminazione
Sistema visivo umano: percezione dell’intensità (9/9)
La luminosità percepita non è soltanto funzione
dell’intensità: un fenomeno tipico è quello del contrasto
simultaneo: il contesto contribuisce alla determinazione
della luminosità di una regione.
I quadrati hanno la stessa intensità, ma quello su sfondo scuro
appare più chiaro di quello su sfondo chiaro. Appaiono uguali
solo quando sono a contatto.
Natura ondulatoria della luce (1/2)
Natura ondulatoria della luce (2/2)
n1
c =λ⋅ f
n2>n1
c
ni =
vi
n1
vi = λi ⋅ f
Intensità delle immagini (1/2)
üL’irradianza di una scena (da ora in poi chiamata intensità, come d’uso in
Image Processing) può essere rappresentata mediante il prodotto di due
termini, l’illuminazione i(x,y) e la riflettanza r(x,y):
üL’immagine è costituita da una componente dovuta alla luce proveniente
dalla sorgente di illuminazione che è modulata e da una componente dovuta
alla luce riflessa dagli oggetti presenti nella scena.
üLa componente di illuminazione è responsabile delle variazioni lente di
luminosità (basse frequenze spaziali), mentre la componente di riflettanza
dà luogo alle variazioni brusche di luminosità, spesso in corrispondenza ai
contorni o bordi degli oggetti (alte frequenze spaziali)
Intensità delle immagini (2/2)
üL’effettiva natura di i(x,y) è determinata dalla sorgente luminosa,
mentre r(x,y) dipende dalle caratteristiche degli oggetti presenti nella
scena, e varia tra 0 (assorbimento totale) e 1 (riflessione completa)
üI limiti di cui sopra sono ovviamente teorici, valori reali (tipici) sono
i seguenti:
Sorgente luminosa
Chiaro di luna
Interno (ambiente di lavoro, almeno)
Cielo nuvoloso
Luce solare
Oggetto
Velluto nero
Grigio di riferimento (cartoncino Kodak)
Parete bianca a calce
Argento e altri metalli chiari
Neve fresca
i (candele)
0.01
100
1000
9000
r
0.01
0.18
0.80
0.90
0.93
Intensità delle immagini e scala di grigi
üSi può pertanto assumere che Lmin<f(x,y)<Lmax, dove valori
ragionevoli per Lmin e Lmax sono:
Lmin≅0.005 cd Lmax ≅200 cd(interni)
Lmax ≅ 10000 cd (esterni)
üPer una immagine monocromatica, l’intervallo [LMin, LMax]
prende il nome di scala dei grigi, mentre l’intensità f(x,y) è detta
anche livello di grigio dell’immagine nel punto di coordinate (x,y)
üIn pratica si usa una scala dei grigi convenzionalmente
compresa in [0,L-1], in cui 0 corrisponde al nero e L-1
rappresenta il bianco, nella quale si considerano L livelli discreti
di grigio per tenere conto del carattere digitale della f dopo la
quantizzazione dell’intensità.
Immagine come matrice di pixel(1/2)
üTenendo conto anche del campionamento spaziale che rende
discreti gli intervalli di variazione delle due dimensioni
dell’immagine, x e y, e assumendo che l’immagine continua sia
approssimata mediante M x N campioni equispaziati lungo x e y,
con:
Immagine come matrice di pixel(2/2)
üUn'immagine digitale monocromatica pertanto è una matrice f(x,y) di
valori discreti di intensità luminosa (livelli di grigio)
ü Essa è costituita da M*N pixel (picture elements)ciascuno dei quali ha un
valore appartenente all'intervallo [0, L-1] essendo L i livelli possibili di
intensità (o di grigio)
ü Si ha tipicamente L = 2b, dove b è il numero di bit usato per codificare
ciascun pixel (profondità del pixel)
ü Per esempio, con 8 bit si ha la possibilità di rappresentare un numero di
livelli (256) tale da consentire una discriminazione dei grigi accettabile nella
maggior parte delle applicazioni, in quanto abbastanza prossima a quella
dell'occhio umano
ü Una immagine monocromatica tipica (1024 x 768 x 8) occupa pertanto
circa 6 Mbit di memoria; con “tre” piani di colore si arriva a circa 18 Mbit,
tali valori comportano spesso necessità di “compressione” dell’immagine.
La dinamica dell’immagine (1/3)
ü Si è fatta l’ipotesi implicita di una quantizzazione lineare per
la produzione degli L livelli discreti di grigio a partire dalla
intensità luminosa
ü La risposta del sistema visivo umano, tuttavia, non è lineare,
bensì logaritmica: l’occhio può discriminare un numero enorme
di livelli di luminosità, ben maggiore dei 256 precedentemente
ipotizzati.
ü Pertanto una immagine digitalizzata ha spesso una dinamica
molto meno ampia di quella del sistema visivo umano, o in altri
termini c’è l’esigenza, per immagini di qualità, di usare più di 8
bit.
La dinamica dell’immagine (2/3)
ü Le limitazioni di dinamica sono evidenti quando la
scena è ad elevato contrasto: se il sensore è lineare, le
parti scure risulteranno sottoesposte (ripresa effettuata
con obiettivo poco aperto), oppure le parti chiare
risulteranno sovraesposte (obiettivo molto aperto):
La dinamica dell’immagine (3/3)
ü Una soluzione più generale al problema delle scene
caratterizzate da una dinamica troppo ampia è adottata nelle
videocamere, in cui la grandezza quantizzata non è direttamente
l’intensità, ma una sua funzione esponenziale.
ü Se g è il livello di grigio e f l’intensità, si ha cioè:
g=f γ
con
γ <1
ü Questa correzione permette di approssimare la caratteristica
logaritmica del sistema visivo umano
üIl valore γ che meglio realizza questa condizione è (tipicamente)
0,4.
Risoluzione spaziale e
pixel (1/6)
ü Ogni pixel rappresenta l’intensità
nella corrispondente posizione della
griglia di campionamento
ü Un pixel rappresenta in realtà non
soltanto un punto dell’immagine, ma
piuttosto una regione rettangolare
coincidente con una cella della griglia
üIl valore associato al pixel
rappresenta pertanto la intensità media
della cella
Risoluzione spaziale e pixel (2/6)
Risoluzione spaziale e pixel (3/6)
ü Se si fanno variare le dimensioni dei pixel, le dimensioni
dell’immagine restano invariate al variare della risoluzione
üSe la dimensione dei pixel resta invariata, la variazione di
risoluzione provoca invece una variazione delle dimensioni
dell’immagine
üCon pixel di grande dimensione, non solo la risoluzione
spaziale è scadente, ma appaiono ben visibili le discontinuità
di grigio al confine tra i pixel
Risoluzione spaziale e pixel (4/6)
Risoluzione spaziale e pixel (5/6)
ü Man mano che le dimensioni dei pixel si riduce, l’effetto
diventa meno visibile, fino al punto che si ha l’impressione di
un’immagine continua, quando la dimensione dei pixel
diventa più piccola della risoluzione spaziale del sistema
visivo umano
üSiccome quest’ultima dipende dalla distanza e dalle altre
condizioni di osservazione, in generale non è definibile a
priori il numero di pixel necessari a garantire una buona
qualità dell’immagine
üSicuramente la dimensione dei pixel deve essere piccola in
relazione alla scala degli oggetti rappresentati nell’immagine.
Risoluzione spaziale e pixel (6/6)
Effetti del numero di livelli di quantizzazione (1/3)
Effetti del numero di livelli di quantizzazione (2/3)
Effetti del numero di livelli di quantizzazione (3/3)