Sistemi di Visione Sistemi di Visione Hardware Ogni applicazione reale di pattern recognition, necessita di un sistema hardware per l’acquisizione del segnale: Telecamere: applicazioni on-line: visione robotica, ispezione industriale, sorveglianza, riconoscimento volto, ecc. Sistemi Multicamera: per la ricostruzione 3D o la visione panoramica. Macchine fotografiche digitali: applicazioni off-line che richiedono alta qualità dell’immagine. Scanner: analisi di documenti, OCR, lettura codici, ... Frame Grabber e schede image processing. HW specializzato (sensori infrarossi, sonde ultrasoniche, TAC, lettori impronte digitali) medicina, biometria, telerilevamento, ... V&R prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna 1 Sistemi di Visione altre risorse ... Letteratura: Libri: indispensabili per la comprensione approfondita di determinati argomenti (vedi bibliografia). Survey: articoli introduttivi ai diversi argomenti o settori applicativi (vedi bibliografia). Articoli su Riviste: esistono decine di riviste dedicate al settore del PR; le più note: IEEE transaction on Pattern Analysis and Machine Intelligence Pattern Recognition Pattern Recognition Letter Archivi e motori di ricerca Google (oramai universale anche per letteratura scientifica) Computer Vision Bibliography - USC Los Angeles http://www.visionbib.com/bibliography/contents.html Siti Internet Home Page Interessanti Computer Vision Homepage http://www.cs.cmu.edu/~cil/vision.html Pattern Recognition on the Web http://cgm.cs.mcgill.ca/~godfried/teaching/pr-web.html International Association for Pattern Recognition (IAPR) http://www.iapr.org/ BIOLAB http://biolab.csr.unibo.it/ V&R prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna 2 Sistemi di Visione Telecamere Obiettivo Uscita Alim. CCD o CMOS Funzionamento Utilizzano un array bidimensionale (sensore) di elementi fotosensibili realizzati su Silicio che convertono luce in corrente elettrica. Sensori CCD (migliore qualità) Sensori CMOS (tecnologia più recente ed economica) L’immagine è focalizzata sul sensore mediante un obiettivo (normalmente intercambiabile) che determina l’ingrandimento e quindi il campo visivo. L’elettronica interna scandisce i pixel del sensore e impacchetta l’informazione in un segnale d’uscita (analogico o digitale). Per le versioni a colori vengono utilizzati filtri R, G, B: Possono essere realizzati direttamente all’interno del sensore tramite una mascheratura dei pixel (Bayer pattern) I modelli professionali utilizzano 3 sensori ognuno mascherato su un diverso colore V&R prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna 3 Sistemi di Visione Tipologie (1) WebCam (entry level: 50-150€ ) Uscita digitale (direttamente interfacciabili al PC tramite USB). Risoluzione: CIF 352x288, VGA 640x480, HD 1280×720, Full HD 1920×1080 15-30 frame/secondo a colori Immagini piuttosto sfuocate e otticamente distorte, anche se la qualità dei diversi modelli è molto variabile (preferire i modelli “Pro”). Collegabili all’applicazione con interfacciamento VFW (Video for Windows), TWAIN, WDM, Still Image, ... Idonee per applicazioni dove la qualità non è fondamentale; es: riconoscimento del volto, sorveglianza. Esempio: Logitech® QuickCam® Pro 5000 V&R prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna 4 Sistemi di Visione Tipologie (2) IpCam o NetCam (medium level: 200-500€ ) Uscita digitale (interfaccia di rete Ethernet, anche WiFi ). Risoluzione CIF: 352x288 o VGA 640x480 ma anche Megapixel Cattura a 15-30 frame/secondo a colori ma attenzione alle limitazioni di frame rate per il trasferimento in rete (specie se WiFi). Immagini adeguate per applicazioni di Videosorveglianza. Alcuni modelli possono operare anche outdoor. Esistono modelli brandeggiati con controllo remoto (PC), montati all’interno di cupole in plastica “dome”. Semplicemente collegabili all’applicazione con interfacciamento su protocollo http su TCP/IP. Esempio: Toshiba® IK-WB11A V&R prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna 5 Sistemi di Visione Tipologie (3) Analogiche (vasta gamma di modelli: 100€-2.000€ ) Uscita analogica necessario Frame Grabber. Frame Grabber interfacciabili all’applicazione con librerie proprietarie (talvolta compatibili VFW). Segnali Compositi inglobano intensità e colore in unico canale: Standard Tipo Paese Righe (V) Colonne (H = 4:3 V) RS-170 B/N USA 485 (525) 640 CCIR B/N Europa 575 (625) 768 NTSC Colori USA 485 (525) 640 PAL Colori Europa 575 (625) 768 SECAM Colori Francia, Russia, ... 575 (625) 768 Y/C (incorrettamente chiamato anche S-VHS) separa luminanza e crominanza in 2 canali RGB separa le 3 bande di colore su 3 canali diversi. Esempi: Matrox™ Meteor II Sony™ V&R prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna 6 Sistemi di Visione Tipologie (4) Digitali, progressive scan (professionali: 500€-10.000€ ) A differenza delle telecamere analogiche che acquisiscono frame pari e dispari a metà risoluzione (modo interlacciato) e sono forzate a un output “televisivo” con risoluzione verticale molto limitata, le progressive scan camera: Restituiscono frame a piena risoluzione (non interlacciati) Non hanno limitazioni nella risoluzione verticale/orizzontale Normalmente hanno pixel quadrati (non essendo vincolati a 4:3) L’output è solitamente digitale (talvolta è previsto un ulteriore output analogico per il controllo immediato dell’immagine su monitor) Numero di pixel: tipicamente 1000x1000 (fino a 9000x9000 pixel in modelli usati in astronomia!) Interfacciamento: Frame grabber con input digitali USB, IEEE 1394 (FireWire) Camera Link Schede “ad-hoc”. Esempi: Kodak™ Pulnix™ V&R prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna 7 Sistemi di Visione Tipologie (5) Smart Camera (professionali: 1.000€-20.000€ ) Una smart camera è un sistema di visione integrato che, oltre alla circuiteria per l’acquisizione dell’immagine, include un processore (Microprogessore o DSP) che è in grado di eseguire a bordo elaborazioni dell’immagine, e un’interfaccia (es. Ethernet) per rendere disponibili i risultati ad altri sistemi (es. un PC). Non necessita dunque obbligatoriamente di un PC e spesso può essere programmata con tool visuali che non richiedeono competenze di programmazione. Le caratteristiche delle immagini acquisite sono simili alle progressive scan. La potenza di calcolo dei modelli base è ridotta, ma i modelli di punta possono avere potenze superiori a PC (8000 MIPS o più). Esempi: Matrox™ Series V&R prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna 8 Sistemi di Visione Parametri fondamentali Field of View Working distance Resolution Depth of Field Sensor Size V&R prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna 9 Sistemi di Visione La scelta dell’obiettivo Qualche calcolo di ottica ... L’equazione del “costruttore di lenti da occhiale” mette in relazione: La distanza dell’oggetto dalla lente: o La distanza del punto di formazione dell’immagine dalla lente: i 1 1 1 f i o La lunghezza focale dell’obiettivo: f Oggetto CCD Obiettivo l1 l2 f i o d’altro canto da semplici considerazioni geometriche, il fattore di ingrandimento M può essere calcolato come: M l2 o l1 i combinando le due formule si ottiene: f o l1 l1 l2 V&R prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna 10 Sistemi di Visione La scelta dell’obiettivo (2) Gli input del problema sono solitamente: 1. la dimensione del CCD (o CMOS) : l1 2. la dimensione dell’oggetto l2 e la sua distanza dall’obiettivo o 3. in alternativa a 2) l’angolo visivo (FOW): Data una telecamera che monta un CCD da 1/3” si vuole inquadrare (coprendo la maggior parte possibile dell’immagine) un oggetto di dimensione 40 cm (lato lungo) posto a una distanza di 50 cm dall’obiettivo. Calcolare il fattore di ingrandimento, la lungh focale dell’obiettivo e l’angolo visivo risultante ? o = 500 mm l1 = 4.8 mm (lato orizzontale del sensore) l2 = 400 mm M = 83.3 mm f = 5.9 mm (commerciale 6 mm) = 2 arctg(l2/(2o)) 43 Profondità di campo: Diaframmando l’obiettivo si incrementa f-number = lung. focale / diametro; conseguentemente diminuisce la luce e aumenta la profondità di campo V&R prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna 11 Sistemi di Visione Distorsione Causata da aberrazioni geometriche dell’obiettivo: Distorsione % Dis tan za attuale AD Dis tan za vera PD 100 Dis tan za vera PD Normalmente molto più accentuata su obiettivi di basso costo. Viene corretta otticamente con obiettivi multi-lente. Difficile da correggere per obiettivi a corte focali (es. <14 mm). Correzione via software: Conoscendo le caratteristiche del sistema ottico. Utilizzando target campione. V&R prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna 12 Sistemi di Visione Errori di prospettiva (parallasse) Causati da riduzione a 2D di oggetti 3D: Oggetti più vicini appaiono più grandi ... Problemi su oggetti dotati di profondità. Con lenti “telecentriche” si riesce a correggere il fenomeno purché l’oggetto sia più piccolo del diametro dell’obiettivo. Errore prospettico dovuto ad un’ottica tradizionale (a sinistra) e assenza di errore prospettico (a destra) con un obiettivo telecentrico (ref: http://www.opto-engineering.it/telecentric.php ) V&R prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna 13 Sistemi di Visione Illuminazione Una corretta illuminazione: Consente di catturare immagini di elevata qualità Può semplificare il compito del processing dell’immagine. Frontale diffusa Direzionale Anello guida V&R prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna 14 Sistemi di Visione Illuminazione (2) Luce Radente Luce polarizzata Fasci laser semplificano la ricostruzione dei profili 3D degli oggetti Assiale diffusa V&R prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna 15 Sistemi di Visione Filtri ottici Anteponendo all’obiettivo un filtro: E’ possibile aumentare il contrasto di determinati particolari dell’immagine. Utilizzare una telecamera monocromatica (risoluzione più elevata e costo inferiore) per la discriminazione dei colori. V&R prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna 16 Sistemi di Visione Macchine Fotografiche Digitali Il funzionamento è identico a quello delle telecamere, ovvero è sempre basato su un CCD o CMOS. La differenza principale è dovuta al fatto di dover catturare un solo frame (snapshot) invece di una sequenza di frame. In realtà con molti modelli di macchine fotografiche digitali è possibile: Catturare e salvare su Flash Memory brevi filmati Inviare l’output analogico (live) a un TV o frame grabber (segnale videocomposito) Inviare l’output digitale (live) a un PC tramite USB o FireWire ed essere pilotata dal PC (sincronizzazione) per l’acquisizione di uno o più frame. Quest’ultima caratteristiche rende questo nuovo tipo di periferica estremamente interessante per lo sviluppo di sistemi di visione PCbased in quanto: la qualità delle immagini (grazie anche all’ottica di qualità) è spesso comparabile a quella di modelli “industriali” molto più costosi. per l’interfacciamento è necessario SDK del fornitore V&R prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna 17 Sistemi di Visione Scanner Funzionamento Utilizzano un array lineare (sensore) di elementi fotosensibili realizzati su Silicio che convertono luce in corrente elettrica. Questo array è in grado di catturare una sola riga dell’immagine per volta (ma a risoluzione molto elevata rispetto a una telecamera) pertanto viene meccanicamente trascinato per scandire l’intera immagine. Hanno una risoluzione molto più elevata delle telecamere ma sono molto più lenti. Parametri fondamentali per la scelta: Risoluzione in DPI (es: 4800 9600). Attenzione alle differenze tra risoluzione ottica e quella interpolata! Profondità del colore in bit (es: 48 bit) Velocità di acquisizione/trasferimento Attenzione ! un’immagine A4 a colori acquisita da scanner a 300 DPI in formato RGB non compresso occupa: 21 cm 29.7 cm = 8.27” 11.69” = 2481 3507 pixel 25 Mbyte Sono preferibili alle telecamere nella maggior parte delle applicazioni che richiedono l’acquisizione di documenti cartacei (OCR, Document Analysis, CAD). Esempio: HP Scanjet V&R prof. Raffaele Cappelli – Ingegneria e Scienze Informatiche - Università di Bologna 18