EI1-B1-Percezione Visiva, Formazione Presentazione di

B.1 Percezione Visiva, Formazione
Presentazione di sequenze video
Materiale di supporto all’insegnamento di
Elaborazione di Immagini 1 (EI1)
Contenuti
• Descriveremo:
– Basi di percezione del colore
– Architettura di un sistema di acquisizione Video Analogico e Digitale
– Principi e principali dispositivi di cattura e rappresentazione video
– Caratteristiche del segnale video Analogico e Digitale
2
Percezione e Caratteristiche del Colore
• Definizione
– Un segnale video è una sequenza di immagini bidimensionali
proiettate da una scena dinamica tridimensionale al piano
immagine della video camera.
– Il valore del colore in ogni punto di un’immagine (video)
corrisponde al colore emesso o riflesso dal corpo osservato.
– Per capire il significato fisico del colore descriviamo le
caratteristiche fisiche di luce e colore e come l’uomo
percepisce le percepisce.
3
Luce e Colore
• La luce è un’ onda elettromagnetica con lunghezza nel
range 380-780 nm
• Il colore percepito della luce dipende dal suo contenuto
spettrale.
• Una luce con contenuto spettrale uniforme appare bianca.
4
Luce e Colore
• L’ intensità radiante della luce, che è direttamente in relazione
con la luminosità che si percepisce, è definita come il flusso
radiato attraverso l’ angolo solido in una particolare direzione,
misurato in Watt/angolo solido.
I=Φ/A
• Usiamo C(X,t, λ) per rappresentare la distribuzione dell’
intensità radiante della luce.
• L’ energia della luce è misurata dal flusso in Watt come tasso di
energia emessa
5
Luce e Colore
• Ci sono due tipi di sorgenti luminose:
– Illuminanti: emettono un’ onda elettromagnetica. Il colore percepito
dipende dalla lunghezza d’onda della luce emessa. Sorgenti illuminanti
possono essere: sole, lampadine, televisioni;
– Riflettenti: la luce incidente viene riflessa: quando un raggio di luce
colpisce un oggetto l’energia in una certa lunghezza d’onda viene
assorbita mentre il resto viene riflessa. Le piu rilevanti sorgenti di luce
riflessa sono le superfici colorate:
per esempio se la luce incidente è bianca e
colpisce una superficie che assorbe
lunghezze d’ onda attorno ai 700nm la luce
riflessa apparirà color ciano.
6
Percezione Umana del Colore
• La percezione della luce è regolata da due tipi di recettori
localizzati nella retina:
– Coni: lavorano in
condizione di alta illuminazione
percepiscono i toni del colore
– Bastoncelli: lavorano in
condizione di scarsa
illuminazione e possono solo
estrarre informazione riguardante
la luminostà.
• Le informazioni visive dalla retina vengono passate al cervello
attraverso il nervo ottico.
7
Percezione Umana del Colore
• Ci sono tre tipi di coni che
hanno banda passante
sovrapposta nello spettro
visibile come si può notare
in figura.
• La risposta di questi recettori alla luce incidente
C(λ) può essere descritta come:
ai() sono le risposte
in frequenza dei tre
tipi di coni
8
Percezione Umana del Colore
• Ci sono due attributi che descrivono le sensazioni di
colore:
– Luminanza: luminosità percepita di una luce che è
proporzionale all’ energia totale nella banda;
– Crominanza: tono di colore percepito che dipende dalla
lunghezza d’ onda della luce;
• La crominanza è caratterizzata da:
– Tinta (Hue): tono del colore che dipende dal picco della
lunghezza d’onda;
– Saturazione: descrive il tono di colore in termini di
spreading dello spettro della luce.
9
Percezione Umana del Colore
• Sperimentazioni mostrano che esiste un secondo stadio
di elaborazione nel sistema visivo umano (HVS), che
converte i tre valori di colore ottenuti dai coni in un
valore proporzionale alla luminanza e in due altri valori
che sono responsabili della percezione della crominanza.
• Questo è conosciuto come sistema di colore opposto al
HSV. (La differente percezione di luminosità, e questa
variazione della percezione dipendente dalla lunghezza
d’onda, è caratterizzato dalla funzione mostrata in figura
nella slide successiva.)
10
Percezione Umana del Colore
Verde e rosso contribuiscono
maggiormente alla percezione
della luminosità. La luminosità
è in relazione con lo spettro
della luce secondo la seguente
formula:
11
La teoria tricromatica della Color Mixture
• Un’ importante scoperta nella fisica del colore è che i
colori possono essere prodotti dalla “miscela” dei tre
colori primari. Questo effetto è conosciuto come teoria
tricromatica del Color Mixture dimostrata da Maxwell
nel 1855. Siano Ck con k=1,2,3 i te colori primari
allora essendo C un colore qualsiasi:
Dove Tk è il peso di ogni colore (Tristimulus Values)
12
La teoria tricromatica della Color Mixture
• L’ insieme piu conosciuto di combinazione di colori
primari è formato dai colori rosso, verde e blu (RGB).
• L’ insieme più comune per la luce riflessa contiene i
colori ciano, magenta e giallo ed è conosciuto come
CMY.
• RGB e CMY sono complementari nel senso che
combinando due colori di un insieme si produce un
colore dell’altro insieme.
• Per acquisire i colori da una luce una telecamera è
fornita di opportuni sensori.
13
Principi di Rappresentazione Video del Colore
• Un video è una registrazione dell’ intensità di luce
emessa/riflessa C(X; t; λ) dall’oggetto nella scena osservata. In
generale questa luce cambia nel tempo nello spazio.
• Solo le lunghezze d’onda a cui la camera è sensibile sono
registrabili. Essendo la funzione di assorbimento spettrale della
camera
allora la distribuzione dell’intensità della luce
della scena visibile dalla camera sarà
14
Principi di Rappresentazione Video del Colore
• L’immagine catturata dalla camera ad ogni istante t è la proiezione della
distribuzione della luce della scena 3D nel piano immagine 2D.
• Sia P(.) l’operatore di proiezione della camera, allora le posizioni 2D
proiettate partendo dalle posizione X (3D) sono date da x=P(X).
• L’immagine proiettata è in relazione con l’immagine 3D mediante:
• La funzione
è il segnale video e descrive l’intensità radiante alla
posizione X che è proiettata nel piano immagine.
• In generale il segnale video è limitato nel tempo e nello spazio e tali intervalli
dipendono dalla durata di cattura del video.
• Un punto nel piano immagine è chiamato pixel
15
Architettura fisica di un sistema di acquisizione
In generale un sistema di acquisizione di immagini è composto da:
Video Camera
Obiettivo
Corpo della Camera:
Sensore CCD/CMOS/Tubo catodico
Sistema di
Elaborazione: Frame
Grabber e Sistema di
Elaborazione
16
Lenti/Obiettivi
• La prima componente di un sistema di acquisizione video e l’obiettivo;
• Lo scopo dell’obiettivo è quello di concentrare i raggi luminosi sul piano
focale;
Lente
Distanza Focale
Dunque se vogliamo catturare i raggi luminosi su un sensore questo deve stare
sul piano focale.
17
Lenti/Obiettivi
I principali parametri per obiettivi di telecamere sono;
Focal length: distanza tra la lente ed il piano focale;
Angle of view: L'angolo di vista di un obiettivo è determinato
dalla lunghezza focale in mm e dal formato del sensore. Con un
sensore più grande si ottiene un angolo di vista più largo a
lunghezza focale costante.
18
Lenti/Obiettivi
• Aperture ratio: E' il rapporto fra il diametro effettivo della lente
e la distanza focale e indica la luminosità dell'obiettivo.
•
Angle field of view: E' l'angolo formato dai due raggi di luce
intersecanti
con il vertice del 2° punto
focale principale.
Dipende dalla lunghezza
focale e dal formato del
sensore.
19
Lenti/Obiettivi
Depth of field: E' l'intervallo di spazio in
cui un oggetto può essere allontanato o
avvicinato ad un sistema ottico restando
sempre a fuoco.
Back focal length: E' la distanza fra
l'ultimo elemento di un gruppo di lenti ed
il punto focale.
20
Sistemi Video Analogici a Tubo Catodico
• Un sistema analogico è basato sul tubo catodico dove la lente focalizza
l’immagine su una superficie fotosensibile, la quale è scandita da un fascio di
elettroni che trasformano le variazioni di intensità luminosa in un segnale
elettrico.
Segnale
Video
LUCE
Electronic beam
Image Acquisition Unit
Deflecting and Focusing
Coil
Output Unit
• I meccanismi di scansione della superficie fotosensibile sono 2: scansione
progressiva e scansione interlaced
21
Sistemi Analogici di tipo Raster: Interlaced Scan
•
Nell’ Interlaced Scan il fascio di elettroni esegue una scansione di ogni frame in due
campi ed ogni campo contiene la metà del numero di linee di ogni frame, come si può
vedere in figura
•
È importante ricordare che due linee adiacenti in un frame sono separate nel tempo da un
intervallo dipendente dallo scorrimento del campo. Questo fatto conduce al pessimo
artefatto di scalettatura a zig-zag nei video intrallacciati che contengono oggetti in
rapido movimento con contorni verticali
22
Sistemi Analogici di tipo Raster: Progressive Scan
• Questo tipo di scansione produce immagine di qualità più elevata. La camera
cattura la sequenza video campionandola sia nella direzione verticale che
nella direzione orizzontale in maniera continua. Il risultato è memorizzato in
una forma d’onda continua e monodimensionale.
• Il fascio di elettroni esegue una scansione
continua dell’immagine e quindi torna all’inizio.
Il risultato è un segnale consistente di una serie
di frame separati da un intervallo Δt, ed ogni frame consta di un insieme di
linee orizzontali, separate da uno spaziatura verticale.
23
Caratteristiche di un segnale video analogico
• Un segnale video è descritto da due parametri principali: frame rate, ed il
numero di linee
. Questi due parametri definiscono la temporizzazione e il
campionamento verticale di un segnale video.
• Da questi parametri si possono ricavare altri importanti parametri come il line
rate in linee per secondo, calcolato secondo
• In figura un tipico segnale video ed il suo spettro, da notare le repliche a
frequenze multipli del line rate.
24
Sistemi televisivi analogici a colori-alcuni parametri
Alcuni parametri caratterizzanti il sistema televisivo analogico sono:
25
Sistemi televisivi analogici a colori
• Uno dei maggiori vincoli nella progettazione di sistemi
televisivi a colori è che devono essere compatibili con i
precedenti sistemi monocromatici.
• Ci sono tre differenti sistemi a colori:
• NTSC usato nel nord America come in alcune parti dell’Asia e in
Giappone e Taiwan;
• PAL usato in Europa (ovest), Asia e Cina;
• SECAM usato in parte dei paesi dell’ex unione sovietica come in
parte dell’Europa (Francia).
26
Sistema video Digitale/Analogico
• Schema a blocchi di un sistema di una Video
Camera a Colori
27
Sistemi Video
• Un sistema di acquisizione video, obiettivo escluso, è
formata da due blocchi principali: Image Acquisition Unit
e Output Unit.
Output Unit
LUCE
Segnale
Video
Image Acquisition Unit
28
Image Acquisition Unit
• L’Image Acquisition Unit mette a disposizione dell’ Output Unit un
immagine bidimensionale discreta.
• Il più utilizzato sistema di acquisizione è sicuramente il sensore CCD
(Charge Coupled Device) che consiste di elementi sensibili alla luce
ognuno rappresentante un pixel.
• I principali pregi dei sensori CCD (rispetto a sensori a CMOS o a tubo
catodico) sono:
» dimensione e peso ridotti rispetto ai sensori a tubo
catodico;
» Grande dinamica;
» Molto lineari nel range di lavoro: riescono ad acquisire
immagini anche in condizioni di bassa luminosità cosa
non assicurata con i sistemi a tubo catodico;
» Grande durata.
29
Image Acquisition Unit
I principali parametri inerenti all’ Image Acquisition Unit, usati nelle specifiche delle
telecamere sono:
• Exposure time (integration time): l’otturatore (shutter) è controllabile
meccanicamente o elettronicamente;
• Resolution: espresso in numero di pixel effettivi, valori tipici di un moderno
sistema CCD sono 756 pixel in orizzontale e 581 pixel in verticale;
• Area effettiva del sensore. Vi sono 4 formati principali:
1”
2/3”
16 mm
11 mm
6.6 mm
9.6 mm
Larghezza della
diagonale
½”
8.8 mm
12.7 mm
8 mm
6.4 mm
4.8 mm
6 mm
1/3”
3.6 mm
4.8 mm
30
Image Acquisition Unit
...altri parametri:
Risposta spettrale in frequenza:
Usualmente viene usato un filtro per cambiare le
caratteristiche spettrali della telecamera.
Tale filtro ha risposta in frequenza come in
figura.
I sensori CCD non hanno la possibilità di discriminare i colori, dunque si usa un
prisma in grado di separare i colori. Se esiste un solo sensore CCD allora la camera
è detta mosaic mentre se i sensori sono 3 (uno per ogni colore) la camera e detta
3CCD camera;
31
Image Acquisition Unit
.....
Sensitivity: minimo valore di luce al quale la camera inizia a
produrre un segnale video.
Rapporto Segnale/Rumore: il suo valore è importante specialmente
per bassi valori di illuminazione;
Automatic Gain Control (AGC): circuito di amplificazione del
segnale video in basse condizioni di illuminazione. Può essere anche
manuale.
Syncronization: generatore interno di sincronismi che genera il
segnale di lettura del sensore e di sincronizzazione usato dal monitor
per scandire l’immagine
32
Interlacing nei sistemi CCD
• Il fenomeno dell’ Interlacing si verifica in maniera del
tutto analoga nei sistemi CCD, dovendo leggere i dati
presenti nel sensore, cioè la matrice di pixel che
compongono il sensore.
• Ad esempio:
– A grande risoluzione temporale (30 fps), possiamo avere il
fenomeno dell’ Interlacing:
• con una risoluzione spaziale alta (p.e. 4CIF 704x576 pixel);
– Per eliminare il fenomeno dell’ Interlacing
• Diminuzione della risoluzione temporale (p.e. 15 fps),
• Perdita in risoluzione spaziale (p.e. standard QCIF 176x144 pixel)
33
Telecamera Lineare o Interallacciate
• Il sensore è formato da una singola riga di elementi fotosensibili (pixels).
Pertanto, a differenza dei sensori di area (o matriciali) che acquisiscono
quadri (frames), l'acquisizione avviene linea per linea in maniera
continuativa.
• Una scansione lineare genera una linea che mostra sull'asse Y la luminosità di
ogni punto in livelli di grigio (da 0 a 255 livelli). Una variazione improvvisa
della livello di grigio di un singolo punto corrisponde ad un punto del
contorno di un oggetto o alla presenza comunque di una variazione di colore
o di aspetto.
• Il rilevamento di tale variazione consente pertanto di avere una misura di
precisione consentita anche dalla risoluzione elevata del sensore lineare assai
più alta di quella di un sensore di area.
34
Telecamere Progressive o non Interallacciate
•
L' informazione viene accumulata simultaneamente e successivamente scaricata
linea per linea o in modo sequenziale, senza Interlacing. Il risultato è un immagine
che presenta una risoluzione piena sia verticalmente sia orizzontalmente. (con
otturatori veloci)
•
Una telecamera tradizionale con Interlacing acquisisce ogni semiquadro con una
risoluzione verticale dimezzata. Nel momento in cui il secondo semiquadro viene
immagazzinato e scandito il soggetto si è già mosso. Il risultato è un'immagine mossa.
Ciò viene eliminato con l'adozione della scansione progressiva.
•
La scansione progressiva viene generalmente accoppiata con l'otturatore elettronico.
In sostanza la velocità di acquisizione viene selezionata variando il tempo di
accumulo della carica su un singolo pixel.
•
Liberano l'utilizzatore dai vincoli dello standard televisivo permettendo il
funzionamento dell'otturatore elettronico ad elevata risoluzione e un'acquisizione
dinamica con una piena risoluzione verticale.
35
Output Unit
• L’ Output Unit genera il segnale video appropriato per i dispositivi di
elaborazione di immagini. Nelle camere standard l’immagine
acquisita e trasformata in un segnale video in accordo con uno degli
standard internazionali:
– Per l’ Europa CCIR (Comité Consultatif International des
Radiocommunications)
– Per United States RS-170 definito da EIA (Electronics
Industries Association).
– Basato su CCIR abbiamo due standards colore: PAL (Phase
Alternation Line) e SECAM (Séquentiel Couleur à
Mémoire) mentre l’estensione al colore per RS-170 è RS170a meglio conosciuta come NTSC (National Television
System Committée).
36
Segnale Video Digitale
• Un segnale video digitale può essere ottenuto
campionando un segnale analogico, oppure
direttamente usando una telecamera digitale.
• Attualmente la maggior parte delle camere
digitali usano sensori CCD, anche se ci sono
telecamere che forniscono in uscita un segnale
analogico e che hanno montati sensori CCD.
37
Segnale Video Digitale
• Un segnale video digitale e definito dal frame rate
dal numero di linee
e dal numero di
campioni per linea
.
• Un altro importante parametro è il numero di bit usato
per rappresentare il valore del pixel, Np.
• Convenzionalmente la luminanza, o ognuno dei tre
colori, viene rappresentato con 8 bit, dunque un
segnale a colori viene rappresentato con 24 bit.
• La rate dei dati sarà dunque:
38
Standard Digitali: ITU-R BT.601 Digital Video
• Alcuni dati riguardanti lo standard ITU-R
BT.601:
• Specifica i formati 4:3 e 16:9
• Il tempo di campionamento (con cui si effettua la
conversione A/D), deve essere scelto in accordo con:
– La risoluzione con cui si campiona in verticale deve essere
simile a quella usata per il campionamento orizzontale
– La stessa frequenza di campionamento deve essere usata per i
sistemi NTSC, PAL/SECAM
– Il primo criterio porta ad avere frequenza di campionamento tra
11 e 13 MHz per sistemi NTSC, PAL/SECAM
39
Standard Digitali:ITU-R BT.601 Digital Video
• Il numero di pixel per linea è 858 per NTSC e
864 per PAL/SECAM. Questi due formati sono
noti come 525/60 e 625/50. In figura i due
formati
40
Altri formati video digitali
41
Frame Grabber
• In figura è mostrata la struttura base di un Frame Grabber
42
Frame Grabber
Dopo aver stabilito una connessione tra
il segnale video e il Frame Grabber sono
necessari tre frame perchè il grabbing
avvenga in maniera stabile.
Per prevenire questa lunga fase di
inizializzazione si ottiene la
sincronizzazione esternamente in modo
che H-sync e V-Sync di tutte le camere
siano sincronizzate
Alcuni Frame Grabber sono equipaggiati
con un Sync-Generator che è utilizzato
per produrre il clock di sincronizzazione,
altrimenti la sincronizzazione è gestita
dalla video camera
43
Frame Grabber
• Una volta che è ottenuta una stabile sincronizzazione
delle linee e dei frame il prossimo passo riguarda la
generazione dei pixel.
• In accordo con gli standard video l’unita di Sample
and Hold prende ad esempio 767 pixel per linea per
camere CCIR 647 pixel per linea per camere EIA.
Un esatto mappaggio dei pixel provenienti dal sensore
CCD nella memoria del Frame Grabber è possibile
solo se il clock di acquisizione del Frame Grabber è
uguale a quello di generazione del sensore CCD
I pixel digitalizzati sono memorizzati nel Image
Buffer o FIFO Buffer; i pixel sono memorizzati e
vengono passato all’elaboratore attraverso il BUS PCI
alla massima velocità permessa (33Mb/s)
I moderni sistemi permettono di avere piccoli Buffer
FIFO vista la grande velocita dei BUS PCI
44
Acquisizione e Segnale In Uscita
Uscita
Analogica
Digitale
Acquisizione
Parallela/Digitale
Analogica/sequenziale
CCD con
uscita
analogica
Fig. 1
CCD con
uscita digitale
(p.e. Firewire)
Fig. 2
Telecamera a
tubo
45
...qualche esempio...
Fig.3 Macro Lens
Fig.1 Telecamera
Analogica (uscita analogica)
Fig. 4 C-Mount Measuring
Lenses
Fig. 2 Telecamera Firewire (uscita
digitale)
Fig.5 Frame Grabber
(4 Video-Input)
Fig. 6 Frame
Grabber
(2Video-Input)
46
Monitor Video
• Il dispositivo più usato per mostrare un video è il monitor a
tubi catodici (CRT): il “cannone” elettronico emette un fascio
di elettroni che scorre il monitor linea per linea,eccitando i
fosfori con intensità proporzionale all’intensità del segnale
video. Per le immagini a colori tre fasci di elettroni sono emessi
dal tubo eccitando i fosfori rosso, verde e blu.
• I monitor CRT producono immagini con una grande dinamica e
l’immagine risulta di ottima qualità. Un aspetto negativo sta nel
fatto che monitor grandi risultano ingombranti.
47
Monitor Video
• Monitor CRT
monitor LCD
• Per eliminare questo problema dispositivi usati sono i monitor a
cristalli liquidi (LCD): le proprietà ottiche e di conseguenza la
luminosità ed il colore sono cambiati agendo mediante campi
elettromagnetici. I campi elettromagnetici sono generati da
vettori di transistor, usando matrici di transistor a film (TFT)
oppure tecnologie al plasma che rendono possibile realizzare
monitor più grandi
48
Misura della qualità di un video
• È necessario definire una misura obiettiva che
valuti la differenza tra un video originale ed uno
processato. Questo è importante ad esempio in
applicazioni dove si voglia misurare la
distorsione causata da una compressione.
• Molti sistemi di elaborazione video sono
progettati per minimizzare l’errore quadratico
medio (MSE) tra due sequenze video Ψ1 e Ψ2:
49
Misura della qualità di un video
• Invece di valutare l’ MSE è più spesso usato il rapporto
segnale di picco/rumore misurato in decibel:
• Come esempio si sappia che un valore maggiore di
40dB tipicamente indica un’immagine di qualità
eccellente, tra 30dB e 40dB un’immagine di buona
qualità, tra 20 e 30 dB qualità scadente e meno è
un’immagine di qualità inaccettabile.
50