B.1 Percezione Visiva, Formazione Presentazione di sequenze video Materiale di supporto all’insegnamento di Elaborazione di Immagini 1 (EI1) Contenuti • Descriveremo: – Basi di percezione del colore – Architettura di un sistema di acquisizione Video Analogico e Digitale – Principi e principali dispositivi di cattura e rappresentazione video – Caratteristiche del segnale video Analogico e Digitale 2 Percezione e Caratteristiche del Colore • Definizione – Un segnale video è una sequenza di immagini bidimensionali proiettate da una scena dinamica tridimensionale al piano immagine della video camera. – Il valore del colore in ogni punto di un’immagine (video) corrisponde al colore emesso o riflesso dal corpo osservato. – Per capire il significato fisico del colore descriviamo le caratteristiche fisiche di luce e colore e come l’uomo percepisce le percepisce. 3 Luce e Colore • La luce è un’ onda elettromagnetica con lunghezza nel range 380-780 nm • Il colore percepito della luce dipende dal suo contenuto spettrale. • Una luce con contenuto spettrale uniforme appare bianca. 4 Luce e Colore • L’ intensità radiante della luce, che è direttamente in relazione con la luminosità che si percepisce, è definita come il flusso radiato attraverso l’ angolo solido in una particolare direzione, misurato in Watt/angolo solido. I=Φ/A • Usiamo C(X,t, λ) per rappresentare la distribuzione dell’ intensità radiante della luce. • L’ energia della luce è misurata dal flusso in Watt come tasso di energia emessa 5 Luce e Colore • Ci sono due tipi di sorgenti luminose: – Illuminanti: emettono un’ onda elettromagnetica. Il colore percepito dipende dalla lunghezza d’onda della luce emessa. Sorgenti illuminanti possono essere: sole, lampadine, televisioni; – Riflettenti: la luce incidente viene riflessa: quando un raggio di luce colpisce un oggetto l’energia in una certa lunghezza d’onda viene assorbita mentre il resto viene riflessa. Le piu rilevanti sorgenti di luce riflessa sono le superfici colorate: per esempio se la luce incidente è bianca e colpisce una superficie che assorbe lunghezze d’ onda attorno ai 700nm la luce riflessa apparirà color ciano. 6 Percezione Umana del Colore • La percezione della luce è regolata da due tipi di recettori localizzati nella retina: – Coni: lavorano in condizione di alta illuminazione percepiscono i toni del colore – Bastoncelli: lavorano in condizione di scarsa illuminazione e possono solo estrarre informazione riguardante la luminostà. • Le informazioni visive dalla retina vengono passate al cervello attraverso il nervo ottico. 7 Percezione Umana del Colore • Ci sono tre tipi di coni che hanno banda passante sovrapposta nello spettro visibile come si può notare in figura. • La risposta di questi recettori alla luce incidente C(λ) può essere descritta come: ai() sono le risposte in frequenza dei tre tipi di coni 8 Percezione Umana del Colore • Ci sono due attributi che descrivono le sensazioni di colore: – Luminanza: luminosità percepita di una luce che è proporzionale all’ energia totale nella banda; – Crominanza: tono di colore percepito che dipende dalla lunghezza d’ onda della luce; • La crominanza è caratterizzata da: – Tinta (Hue): tono del colore che dipende dal picco della lunghezza d’onda; – Saturazione: descrive il tono di colore in termini di spreading dello spettro della luce. 9 Percezione Umana del Colore • Sperimentazioni mostrano che esiste un secondo stadio di elaborazione nel sistema visivo umano (HVS), che converte i tre valori di colore ottenuti dai coni in un valore proporzionale alla luminanza e in due altri valori che sono responsabili della percezione della crominanza. • Questo è conosciuto come sistema di colore opposto al HSV. (La differente percezione di luminosità, e questa variazione della percezione dipendente dalla lunghezza d’onda, è caratterizzato dalla funzione mostrata in figura nella slide successiva.) 10 Percezione Umana del Colore Verde e rosso contribuiscono maggiormente alla percezione della luminosità. La luminosità è in relazione con lo spettro della luce secondo la seguente formula: 11 La teoria tricromatica della Color Mixture • Un’ importante scoperta nella fisica del colore è che i colori possono essere prodotti dalla “miscela” dei tre colori primari. Questo effetto è conosciuto come teoria tricromatica del Color Mixture dimostrata da Maxwell nel 1855. Siano Ck con k=1,2,3 i te colori primari allora essendo C un colore qualsiasi: Dove Tk è il peso di ogni colore (Tristimulus Values) 12 La teoria tricromatica della Color Mixture • L’ insieme piu conosciuto di combinazione di colori primari è formato dai colori rosso, verde e blu (RGB). • L’ insieme più comune per la luce riflessa contiene i colori ciano, magenta e giallo ed è conosciuto come CMY. • RGB e CMY sono complementari nel senso che combinando due colori di un insieme si produce un colore dell’altro insieme. • Per acquisire i colori da una luce una telecamera è fornita di opportuni sensori. 13 Principi di Rappresentazione Video del Colore • Un video è una registrazione dell’ intensità di luce emessa/riflessa C(X; t; λ) dall’oggetto nella scena osservata. In generale questa luce cambia nel tempo nello spazio. • Solo le lunghezze d’onda a cui la camera è sensibile sono registrabili. Essendo la funzione di assorbimento spettrale della camera allora la distribuzione dell’intensità della luce della scena visibile dalla camera sarà 14 Principi di Rappresentazione Video del Colore • L’immagine catturata dalla camera ad ogni istante t è la proiezione della distribuzione della luce della scena 3D nel piano immagine 2D. • Sia P(.) l’operatore di proiezione della camera, allora le posizioni 2D proiettate partendo dalle posizione X (3D) sono date da x=P(X). • L’immagine proiettata è in relazione con l’immagine 3D mediante: • La funzione è il segnale video e descrive l’intensità radiante alla posizione X che è proiettata nel piano immagine. • In generale il segnale video è limitato nel tempo e nello spazio e tali intervalli dipendono dalla durata di cattura del video. • Un punto nel piano immagine è chiamato pixel 15 Architettura fisica di un sistema di acquisizione In generale un sistema di acquisizione di immagini è composto da: Video Camera Obiettivo Corpo della Camera: Sensore CCD/CMOS/Tubo catodico Sistema di Elaborazione: Frame Grabber e Sistema di Elaborazione 16 Lenti/Obiettivi • La prima componente di un sistema di acquisizione video e l’obiettivo; • Lo scopo dell’obiettivo è quello di concentrare i raggi luminosi sul piano focale; Lente Distanza Focale Dunque se vogliamo catturare i raggi luminosi su un sensore questo deve stare sul piano focale. 17 Lenti/Obiettivi I principali parametri per obiettivi di telecamere sono; Focal length: distanza tra la lente ed il piano focale; Angle of view: L'angolo di vista di un obiettivo è determinato dalla lunghezza focale in mm e dal formato del sensore. Con un sensore più grande si ottiene un angolo di vista più largo a lunghezza focale costante. 18 Lenti/Obiettivi • Aperture ratio: E' il rapporto fra il diametro effettivo della lente e la distanza focale e indica la luminosità dell'obiettivo. • Angle field of view: E' l'angolo formato dai due raggi di luce intersecanti con il vertice del 2° punto focale principale. Dipende dalla lunghezza focale e dal formato del sensore. 19 Lenti/Obiettivi Depth of field: E' l'intervallo di spazio in cui un oggetto può essere allontanato o avvicinato ad un sistema ottico restando sempre a fuoco. Back focal length: E' la distanza fra l'ultimo elemento di un gruppo di lenti ed il punto focale. 20 Sistemi Video Analogici a Tubo Catodico • Un sistema analogico è basato sul tubo catodico dove la lente focalizza l’immagine su una superficie fotosensibile, la quale è scandita da un fascio di elettroni che trasformano le variazioni di intensità luminosa in un segnale elettrico. Segnale Video LUCE Electronic beam Image Acquisition Unit Deflecting and Focusing Coil Output Unit • I meccanismi di scansione della superficie fotosensibile sono 2: scansione progressiva e scansione interlaced 21 Sistemi Analogici di tipo Raster: Interlaced Scan • Nell’ Interlaced Scan il fascio di elettroni esegue una scansione di ogni frame in due campi ed ogni campo contiene la metà del numero di linee di ogni frame, come si può vedere in figura • È importante ricordare che due linee adiacenti in un frame sono separate nel tempo da un intervallo dipendente dallo scorrimento del campo. Questo fatto conduce al pessimo artefatto di scalettatura a zig-zag nei video intrallacciati che contengono oggetti in rapido movimento con contorni verticali 22 Sistemi Analogici di tipo Raster: Progressive Scan • Questo tipo di scansione produce immagine di qualità più elevata. La camera cattura la sequenza video campionandola sia nella direzione verticale che nella direzione orizzontale in maniera continua. Il risultato è memorizzato in una forma d’onda continua e monodimensionale. • Il fascio di elettroni esegue una scansione continua dell’immagine e quindi torna all’inizio. Il risultato è un segnale consistente di una serie di frame separati da un intervallo Δt, ed ogni frame consta di un insieme di linee orizzontali, separate da uno spaziatura verticale. 23 Caratteristiche di un segnale video analogico • Un segnale video è descritto da due parametri principali: frame rate, ed il numero di linee . Questi due parametri definiscono la temporizzazione e il campionamento verticale di un segnale video. • Da questi parametri si possono ricavare altri importanti parametri come il line rate in linee per secondo, calcolato secondo • In figura un tipico segnale video ed il suo spettro, da notare le repliche a frequenze multipli del line rate. 24 Sistemi televisivi analogici a colori-alcuni parametri Alcuni parametri caratterizzanti il sistema televisivo analogico sono: 25 Sistemi televisivi analogici a colori • Uno dei maggiori vincoli nella progettazione di sistemi televisivi a colori è che devono essere compatibili con i precedenti sistemi monocromatici. • Ci sono tre differenti sistemi a colori: • NTSC usato nel nord America come in alcune parti dell’Asia e in Giappone e Taiwan; • PAL usato in Europa (ovest), Asia e Cina; • SECAM usato in parte dei paesi dell’ex unione sovietica come in parte dell’Europa (Francia). 26 Sistema video Digitale/Analogico • Schema a blocchi di un sistema di una Video Camera a Colori 27 Sistemi Video • Un sistema di acquisizione video, obiettivo escluso, è formata da due blocchi principali: Image Acquisition Unit e Output Unit. Output Unit LUCE Segnale Video Image Acquisition Unit 28 Image Acquisition Unit • L’Image Acquisition Unit mette a disposizione dell’ Output Unit un immagine bidimensionale discreta. • Il più utilizzato sistema di acquisizione è sicuramente il sensore CCD (Charge Coupled Device) che consiste di elementi sensibili alla luce ognuno rappresentante un pixel. • I principali pregi dei sensori CCD (rispetto a sensori a CMOS o a tubo catodico) sono: » dimensione e peso ridotti rispetto ai sensori a tubo catodico; » Grande dinamica; » Molto lineari nel range di lavoro: riescono ad acquisire immagini anche in condizioni di bassa luminosità cosa non assicurata con i sistemi a tubo catodico; » Grande durata. 29 Image Acquisition Unit I principali parametri inerenti all’ Image Acquisition Unit, usati nelle specifiche delle telecamere sono: • Exposure time (integration time): l’otturatore (shutter) è controllabile meccanicamente o elettronicamente; • Resolution: espresso in numero di pixel effettivi, valori tipici di un moderno sistema CCD sono 756 pixel in orizzontale e 581 pixel in verticale; • Area effettiva del sensore. Vi sono 4 formati principali: 1” 2/3” 16 mm 11 mm 6.6 mm 9.6 mm Larghezza della diagonale ½” 8.8 mm 12.7 mm 8 mm 6.4 mm 4.8 mm 6 mm 1/3” 3.6 mm 4.8 mm 30 Image Acquisition Unit ...altri parametri: Risposta spettrale in frequenza: Usualmente viene usato un filtro per cambiare le caratteristiche spettrali della telecamera. Tale filtro ha risposta in frequenza come in figura. I sensori CCD non hanno la possibilità di discriminare i colori, dunque si usa un prisma in grado di separare i colori. Se esiste un solo sensore CCD allora la camera è detta mosaic mentre se i sensori sono 3 (uno per ogni colore) la camera e detta 3CCD camera; 31 Image Acquisition Unit ..... Sensitivity: minimo valore di luce al quale la camera inizia a produrre un segnale video. Rapporto Segnale/Rumore: il suo valore è importante specialmente per bassi valori di illuminazione; Automatic Gain Control (AGC): circuito di amplificazione del segnale video in basse condizioni di illuminazione. Può essere anche manuale. Syncronization: generatore interno di sincronismi che genera il segnale di lettura del sensore e di sincronizzazione usato dal monitor per scandire l’immagine 32 Interlacing nei sistemi CCD • Il fenomeno dell’ Interlacing si verifica in maniera del tutto analoga nei sistemi CCD, dovendo leggere i dati presenti nel sensore, cioè la matrice di pixel che compongono il sensore. • Ad esempio: – A grande risoluzione temporale (30 fps), possiamo avere il fenomeno dell’ Interlacing: • con una risoluzione spaziale alta (p.e. 4CIF 704x576 pixel); – Per eliminare il fenomeno dell’ Interlacing • Diminuzione della risoluzione temporale (p.e. 15 fps), • Perdita in risoluzione spaziale (p.e. standard QCIF 176x144 pixel) 33 Telecamera Lineare o Interallacciate • Il sensore è formato da una singola riga di elementi fotosensibili (pixels). Pertanto, a differenza dei sensori di area (o matriciali) che acquisiscono quadri (frames), l'acquisizione avviene linea per linea in maniera continuativa. • Una scansione lineare genera una linea che mostra sull'asse Y la luminosità di ogni punto in livelli di grigio (da 0 a 255 livelli). Una variazione improvvisa della livello di grigio di un singolo punto corrisponde ad un punto del contorno di un oggetto o alla presenza comunque di una variazione di colore o di aspetto. • Il rilevamento di tale variazione consente pertanto di avere una misura di precisione consentita anche dalla risoluzione elevata del sensore lineare assai più alta di quella di un sensore di area. 34 Telecamere Progressive o non Interallacciate • L' informazione viene accumulata simultaneamente e successivamente scaricata linea per linea o in modo sequenziale, senza Interlacing. Il risultato è un immagine che presenta una risoluzione piena sia verticalmente sia orizzontalmente. (con otturatori veloci) • Una telecamera tradizionale con Interlacing acquisisce ogni semiquadro con una risoluzione verticale dimezzata. Nel momento in cui il secondo semiquadro viene immagazzinato e scandito il soggetto si è già mosso. Il risultato è un'immagine mossa. Ciò viene eliminato con l'adozione della scansione progressiva. • La scansione progressiva viene generalmente accoppiata con l'otturatore elettronico. In sostanza la velocità di acquisizione viene selezionata variando il tempo di accumulo della carica su un singolo pixel. • Liberano l'utilizzatore dai vincoli dello standard televisivo permettendo il funzionamento dell'otturatore elettronico ad elevata risoluzione e un'acquisizione dinamica con una piena risoluzione verticale. 35 Output Unit • L’ Output Unit genera il segnale video appropriato per i dispositivi di elaborazione di immagini. Nelle camere standard l’immagine acquisita e trasformata in un segnale video in accordo con uno degli standard internazionali: – Per l’ Europa CCIR (Comité Consultatif International des Radiocommunications) – Per United States RS-170 definito da EIA (Electronics Industries Association). – Basato su CCIR abbiamo due standards colore: PAL (Phase Alternation Line) e SECAM (Séquentiel Couleur à Mémoire) mentre l’estensione al colore per RS-170 è RS170a meglio conosciuta come NTSC (National Television System Committée). 36 Segnale Video Digitale • Un segnale video digitale può essere ottenuto campionando un segnale analogico, oppure direttamente usando una telecamera digitale. • Attualmente la maggior parte delle camere digitali usano sensori CCD, anche se ci sono telecamere che forniscono in uscita un segnale analogico e che hanno montati sensori CCD. 37 Segnale Video Digitale • Un segnale video digitale e definito dal frame rate dal numero di linee e dal numero di campioni per linea . • Un altro importante parametro è il numero di bit usato per rappresentare il valore del pixel, Np. • Convenzionalmente la luminanza, o ognuno dei tre colori, viene rappresentato con 8 bit, dunque un segnale a colori viene rappresentato con 24 bit. • La rate dei dati sarà dunque: 38 Standard Digitali: ITU-R BT.601 Digital Video • Alcuni dati riguardanti lo standard ITU-R BT.601: • Specifica i formati 4:3 e 16:9 • Il tempo di campionamento (con cui si effettua la conversione A/D), deve essere scelto in accordo con: – La risoluzione con cui si campiona in verticale deve essere simile a quella usata per il campionamento orizzontale – La stessa frequenza di campionamento deve essere usata per i sistemi NTSC, PAL/SECAM – Il primo criterio porta ad avere frequenza di campionamento tra 11 e 13 MHz per sistemi NTSC, PAL/SECAM 39 Standard Digitali:ITU-R BT.601 Digital Video • Il numero di pixel per linea è 858 per NTSC e 864 per PAL/SECAM. Questi due formati sono noti come 525/60 e 625/50. In figura i due formati 40 Altri formati video digitali 41 Frame Grabber • In figura è mostrata la struttura base di un Frame Grabber 42 Frame Grabber Dopo aver stabilito una connessione tra il segnale video e il Frame Grabber sono necessari tre frame perchè il grabbing avvenga in maniera stabile. Per prevenire questa lunga fase di inizializzazione si ottiene la sincronizzazione esternamente in modo che H-sync e V-Sync di tutte le camere siano sincronizzate Alcuni Frame Grabber sono equipaggiati con un Sync-Generator che è utilizzato per produrre il clock di sincronizzazione, altrimenti la sincronizzazione è gestita dalla video camera 43 Frame Grabber • Una volta che è ottenuta una stabile sincronizzazione delle linee e dei frame il prossimo passo riguarda la generazione dei pixel. • In accordo con gli standard video l’unita di Sample and Hold prende ad esempio 767 pixel per linea per camere CCIR 647 pixel per linea per camere EIA. Un esatto mappaggio dei pixel provenienti dal sensore CCD nella memoria del Frame Grabber è possibile solo se il clock di acquisizione del Frame Grabber è uguale a quello di generazione del sensore CCD I pixel digitalizzati sono memorizzati nel Image Buffer o FIFO Buffer; i pixel sono memorizzati e vengono passato all’elaboratore attraverso il BUS PCI alla massima velocità permessa (33Mb/s) I moderni sistemi permettono di avere piccoli Buffer FIFO vista la grande velocita dei BUS PCI 44 Acquisizione e Segnale In Uscita Uscita Analogica Digitale Acquisizione Parallela/Digitale Analogica/sequenziale CCD con uscita analogica Fig. 1 CCD con uscita digitale (p.e. Firewire) Fig. 2 Telecamera a tubo 45 ...qualche esempio... Fig.3 Macro Lens Fig.1 Telecamera Analogica (uscita analogica) Fig. 4 C-Mount Measuring Lenses Fig. 2 Telecamera Firewire (uscita digitale) Fig.5 Frame Grabber (4 Video-Input) Fig. 6 Frame Grabber (2Video-Input) 46 Monitor Video • Il dispositivo più usato per mostrare un video è il monitor a tubi catodici (CRT): il “cannone” elettronico emette un fascio di elettroni che scorre il monitor linea per linea,eccitando i fosfori con intensità proporzionale all’intensità del segnale video. Per le immagini a colori tre fasci di elettroni sono emessi dal tubo eccitando i fosfori rosso, verde e blu. • I monitor CRT producono immagini con una grande dinamica e l’immagine risulta di ottima qualità. Un aspetto negativo sta nel fatto che monitor grandi risultano ingombranti. 47 Monitor Video • Monitor CRT monitor LCD • Per eliminare questo problema dispositivi usati sono i monitor a cristalli liquidi (LCD): le proprietà ottiche e di conseguenza la luminosità ed il colore sono cambiati agendo mediante campi elettromagnetici. I campi elettromagnetici sono generati da vettori di transistor, usando matrici di transistor a film (TFT) oppure tecnologie al plasma che rendono possibile realizzare monitor più grandi 48 Misura della qualità di un video • È necessario definire una misura obiettiva che valuti la differenza tra un video originale ed uno processato. Questo è importante ad esempio in applicazioni dove si voglia misurare la distorsione causata da una compressione. • Molti sistemi di elaborazione video sono progettati per minimizzare l’errore quadratico medio (MSE) tra due sequenze video Ψ1 e Ψ2: 49 Misura della qualità di un video • Invece di valutare l’ MSE è più spesso usato il rapporto segnale di picco/rumore misurato in decibel: • Come esempio si sappia che un valore maggiore di 40dB tipicamente indica un’immagine di qualità eccellente, tra 30dB e 40dB un’immagine di buona qualità, tra 20 e 30 dB qualità scadente e meno è un’immagine di qualità inaccettabile. 50