Ricerca di Nuclei Galattici Attivi in Survey Fotometriche Multibanda Relatori: Candidato: Ch.mo Prof. Giuseppe Longo Stefano Cavuoti Dott. Maurizio Paolillo Matricola 60/958 Motivazioni Le survey moderne hanno prodotto, e ancora più lo faranno in futuro, un’enorme quantità di dati (molti TB). Tali dati non possono essere trattati con le tradizionali tecniche statistiche ma impongono l’adozione di un nuovo paradigma di “Data Mining” in larga parte basato su tecniche di A.I. (Artificial Intelligence) che aiutino l’operatore a comprimere l’informazione e renderla intellegibile. In questo lavoro si è mostrato come tali tecniche possano consentire di ottenere risultati significativi in un campo di grande attualità ed interesse: la ricerca di Nuclei Galattici Attivi (AGN) in survey fotometriche multibanda. Nuclei Galattici Attivi Oggetti con morfologia ottica simile, ma caratteristiche fisiche completamente diverse Galassia Normale Quasar Seyfert 1 Seyfert 2 Modello Unificato degli AGN Jet (Emissione X, Gamma e Radio) Broad Line Region (BLR) (Emissione Ottica) Narrow Line Region (NLR) (Emissione Ottica) Buco Nero Disco di Accrescimento (Emissione UV, Ottica) Dust Torus (Emissione IR) Modello Unificato degli AGN Linea di Vista Ortogonale al piano del disco: BLAZAR La materia nel jet si muove a velocità relativistica, quindi la radiazione emessa è fortemente collimata (beamed) e può variare con periodi molto brevi. Sono caratterizzati da una intensa variabilità con tempi scala molto brevi. I blazar sono anche gli unici oggetti dove la radiazione gamma tra 100 MeV fino ai 103 GeV, risulta in generale energeticamente dominante. Linea di Vista obliqua rispetto al piano del disco: TIPO 1 Si è in grado di osservare direttamente la regione centrale. Dallo spettro emergono le componenti broad-lines, narrow-lines e l’emissione dal disco di accrescimento. Le righe spettrali permesse risultano molto allargate nel dominio delle frequenze con una componente stretta sovrapposta. Linea di vista parallela al piano del disco: TIPO 2 Tutta la regione centrale è oscurata, compresi buco nero, disco di accrescimento e broad line region. Tutto ciò che si può osservare è l’emissione dovuta al dust torus (prevalentemente nell’infrarosso) e le righe di emissione delle NLR. Le Diverse Fenomenologie Nuclei Galattici Attivi Allo stato attuale il riconoscimento degli AGN avviene o da un’osservazione dello spettro “ad occhio” o tramite linee empiriche basate su rapporti di righe Entrambi i metodi utilizzano informazioni spettroscopiche che sono “time consuming” (uno spettro per oggetto). In questo lavoro di tesi si è cercato di ottenere una classificazione degli AGN basata su dati fotometrici (una lastra per centinaia di oggetti). Il passaggio dallo spazio dei parametri spettroscopico a quello dei parametri fotometrici è possibile in quanto la presenza di righe di emissione in una data banda influenza il flusso nella stessa e di conseguenza il colore. Nella fotometria le righe con cui si classificano gli AGN scompaiono; inoltre la misura del redshift fotometrico è molto meno accurata. Per eliminare, almeno in parte, la degenerazione introdotta dalla mancanza delle righe è utile usare i redshift fotometrici più accurati possibili. Sloan Digital Sky Survey I dati utilizzati provengono dal database della Sloan Digital Sky Survey che copre circa un quarto della volta celeste. Fotometria: Copertura: 9583 sq. deg. Oggetti Osservati: 287 M Volume dei Dati: Immagini: 10 TB Cataloghi: 6 TB 3x108 oggetti Necessità di un approccio automatico all’analisi dei dati Spettroscopia: (data mining) Copertura: 7425 sq. deg. Oggetti Osservati: 1.2 M Volume dei Dati: 310 GB Intelligenza artificiale Reti Neurali Biologiche Cervello umano: esistono vari tipi di neuroni il cervello è costituito in media di 10 miliardi di neuroni impacchettati con densità dell’ordine di 80000 neuroni per mm3 ogni neurone interagisce con 1000-10000 neuroni il collegamento sinaptico è possibile anche tra neuroni anche molto distanti l’elaborazione risiede in intere regioni ben localizzate la struttura cerebrale è sempre in evoluzione l’elaborazione dell’informazione che viene diffusa in parallelo tra migliaia di neuroni porta all’emergere dei processi cognitivi Reti Neurali - MLP L’algoritmo detto Multi Layer Perceptron (MLP) si basa sul concetto di perceptrone, derivato dal neurone biologico mentre il metodo di apprendimento si basa sul metodo gradient-descent che permette di trovare un minimo locale di una funzione in uno spazio a N dimensioni. I pesi associati ai collegamenti tra gli strati di neuroni, si inizializzano a valori piccoli e casuali e poi si applica la regola di apprendimento presentando alla rete dei pattern di esempio. Reti Neurali - SVM Dato un training set formato da coppie features-label (xi, yi), i = 1…l dove xi Rn e yi {1,−1}l. Le Support Vector Machine (SVM) cercano di risolvere il seguente problema di ottimizzazione: l 1 T min C i ,b , 2 i 1 yi ( T ( xi ) b) 1 i con la condizione: I vettori xi vengono mappati in un uno spazio a più dimensioni rispetto a quelle che aveva inizialmente dalla funzione . Quindi la SVM trova una iperpiano di separazione col maggior margine possibile in questo nuovo spazio. C > 0 è un termine di correzione dell’errore. K ( xi , x j ) ( xi )T ( x j ) E’ la cosiddetta funzione di kernel, per i miei esperimenti ho usato: 2 K ( xi , x j ) exp( xi x j ), 0 Detto radial basis function (RBF) Reti Neurali - SVM Il procedimento utilizzato per la ricerca della rete migliore che ho utilizzato è quello proposto da Chih-Wei Hsu, Chih-Chung Chang, e Chih-Jen Lin (creatori delle LIBSVM); Essendoci due parametri (C e Gamma) da scegliere che non possono essere presi a priori sono stati eseguiti 110 addestramenti; il range di variazione è C = 2−5, 2−3, ...215, Gamma= 2−15, 2−13…23 (un fattore 4 tra un valore e il successivo), gli addestramenti sono stati fatti utilizzando la cross validation facendo dividere il dataset di train in 5 parti. Dato il peso ,è praticamente impossibile eseguire questi processi in serie su un desktop, e si è quindi deciso di usare la tecnologia GRID, usando le macchine del progetto SCoPE. A tal fine sono stati creati degli script in Python per la creazione dei file jdl e per l’analisi dei risultati. Scelta della Base di Conoscenza Cataloghi utilizzati: G. Sorrentino et al. (2006) (catalogo) G. Kauffmann et al. (2003) (rapporti di righe) R. D’Abrusco et al. (2007) (redshift) I primi due cataloghi sono stati usati per costruire la base di conoscenza con cui addestrare le reti neurali, mentre il terzo ha fornito per gli oggetti presenti nei primi due cataloghi stime del redshift per tutti gli oggetti. Scelta della Base di Conoscenza Catalogo di G. Sorrentino et al. (2006) z compreso tra 0.05 e 0.095. oggetti più luminosi di M(r) = -20.00 Vengono suddivisi in AGN o meno in base al modello empirico di Kewley: log log log [OIII]λ5007 0.61 = +1.19 [NII]λ6583 Hβ log -0.47 Hα [OIII]λ5007 0.72 = +1.30 [SII]λλ6717,6731 Hβ log -0.32 Hα [OIII]λ5007 0.73 = +1.19 [OI]λ6300 Hβ log -0.59 Hα Sono definiti Seyfert 1 gli oggetti per cui risulta o FWHM(Ha) > 1.5FWHM([OIII] l5007) oppure FWHM(Ha) > 1200Kms-1 e contestualmente FWHM([OIII] l5007) < 800Kms-1 Tutti gli altri vengono classificati come Seyfert 2 Scelta della Base di Conoscenza Catalogo di G. Kauffman et al. (2003) 0.02<z<0.3 Oggetti divisi dalla linea di Kewley: [OIII]λ5007 0.61 log = +1.19 [NII]λ6583 Hβ log -0.47 Hα Scelta della Base di Conoscenza Catalogo di G. Kauffman et al. (2003) 0.02<z<0.3 Oggetti divisi dalla linea di Kauffman: [OIII]λ5007 0.61 log = +1.3 [NII]λ6583 Hβ log -0.05 Hα Scelta della Base di Conoscenza Catalogo di G. Kauffman et al. (2003) 0.02<z<0.3 Oggetti divisi dalla linea ricavata da Heckman: [OIII]λ5007 [NII]λ6583 =2.1445 0.465 Hβ Hα Scelta della Base di Conoscenza Catalogo di G. Kauffman et al. (2003) 0.02<z<0.3 Risultato finale Redshift fotometrici Il Catalogo di D’Abrusco et al. (2007) contiene stime di z fotometrico, con un’accuratezza pari a srob = 0.02, misurata dalla dispersione attorno allo zero della variabile scarto (z_phot - z_spec) (anche minore per le LRG) Aspetti Tecnici Il mio lavoro si è svolto nell’ambito dei progetti VONEURAL e PON-SCOPE, in particolare: contributo alla fase progettuale modifiche al codice delle reti MLP, inizialmente sviluppato da C. Donalek, per adattarlo alle nuove esigenze del progetto test e debug del codice delle reti MLP test e debug dell’intera pipeline del software prodotto: prima in versione da shell, poi in versione provvisoria XML e in versione definitiva (AstroGRID Compliant) creazione delle librerie di funzioni in linguaggio C per implementare le matrici di confusione nella prossima release del software Implementazione delle procedure per il GRID I parametri SDSS Parametri Usati: 1. petroR50_u 2. petroR50_g 3. petroR50_r 4. petroR50_i 5. petroR50_z 6. concentration_index_r 7. z_phot_corr 8. fibermag_r 9. (u – g) dered 10. (g – r) dered 11. (r – i) dered 12. (i – z) dered 13. dered_r Target 1. AGN 1, Misto 0 2. Tipo1 1, Tipo2 0 3. Seyfert 1, LINER 0 Raggi che contiengono il 50% del flusso petrosiano. Il flusso petrosiano utilizzato dalla SDSS è definito come: 1.25 r P (r ) 0.8r dr 2 r I (r ) / [ (1.252 0.82 )r 2] r o dr2 rI (r) / ( r 2 ) Flusso contenuto in 3” di diametro d’apertura. Colori corretti per arrossamento Magnitudine in banda r corretta per arrossamento Applicazione 1 con MLP 1(net) 0(net) 1(known) a b 0(known) c d ad e abcd a eagn ac a cagn ab c cmisti cd Le reti sono state addestrate con un target vector pari a 1 per gli oggetti ritenuti sicuri AGN, ovvero gli oggetti superiori alla riga di Kewley e 0 tutti quelli al di sotto di questa linea. Il miglior risultato ottenuto è stato: Efficienza totale: e = 75.99% Efficienza agn: eagn = 71.38% Completezza agn: cagn = 55.64% Completezza misti: cmisti = 87.44% 1(net) 0(net) 1(known) 3402 2712 0(known) 1364 9499 Il 12.6% degli oggetti che spettroscopicamente non sono catalogati con certezza come AGN sono falsi positivi. La percentuale falsi positivi che secono la base di conoscenza sono sicuramente non AGN è 0.89% La percentuale di non AGN sicuri che risultano falsi positivi è 0.82% Applicazione 1 con MLP a c a c a c Rapporto tra AGN Correttamente Valutati e falsi positivi, prima metà del dataset, seconda metà e dataset totale. Si osserva che c’è un massimo intorno ad una soglia di 0.837, con questa soglia eAGN = 89.14% e la matrice di confusione diviene: 1(net) 0(net) 1(known) 558 5556 0(known) 68 10795 Applicazione 1 con SVM Efficienza Totale del Miglior Risultato: 75.76% PON-SCOPE GRID Infrastructure (110 nodes) lg2(gamma) lg2(C) Applicazione 2 con MLP Gli esperimenti sono stati effettuati selezionando soltanto gli oggetti presenti nel catalogo di G. Sorrentino et al. (2006) (z compreso tra 0.05 e 0.095) che venivano indicati come Tipo 1 e Tipo 2. Si sono selezionati solo quelli sicuramente AGN. Il dataset si componeva di 1570 oggetti: si è indicato con 1 gli oggetti di Tipo 1 e con 0 gli oggetti di Tipo 2. Il miglior risultato ottenuto è stato: Efficienza totale e = 99.4% Efficienza tipo 1 etipo 1 = 98.4% Efficienza tipo 2 etipo 2 = 100% Completezza tipo 1: ctipo 1 = 100% Completezza tipo 2: ctipo 2 = 98.9% 1(net) 0(net) 1(known) 126 0 0(known) 2 186 Applicazione 2 con SVM Efficienza Totale del Miglior Risultato: 81.5% PON-SCOPE GRID Infrastructure (110 nodes) lg2(gamma) lg2(C) Applicazione 3 con MLP Il dataset utilizzato è stato costruito selezionando tutti gli oggetti divisi in Seyfert e LINER al di sopra della linea di Kewley. Il numero di oggetti presenti nel dataset è pari a 30380. Sono stati indicati gli oggetti di tipo Seyfert con 1 e quelli di tipo LINER con 0. Il miglior risultato ottenuto è stato: Efficienza totale: e = 79.69% Efficienza Seyfert: csey = 74.76% Efficienza LINER : cLIN = 81.09% Completezza Seyfert: csey = 52.77% Completezza LINER : cLIN = 91.69% 1(net) 0(net) 1(known) 1001 896 0(known) 338 3841 Applicazione 3 con SVM Efficienza Totale del Miglior Risultato: 78.18% PON-SCOPE GRID Infrastructure (110 nodes) lg2(gamma) lg2(C) Applicazione 3 con MLP La separazione tra LINER e Seyfert non è efficiente come nei casi precedenti. Questo probabilmente dipende da una differenza tra le due categorie non particolarmente marcata. Si può osservare che la separazione nei parametri spettroscopici avviene molto al di sopra della riga di Kewley. Conclusioni L’obiettivo principale di questa tesi è stato raggiunto ottenendo una rete neurale in grado di selezionare, su base puramente fotometrica, forti candidati AGN. Per quanto concerne la separazione tra oggetti di Tipo 1 e Tipo 2 si sono ottenuti ottimi risultati pur essendo pochi i dati in nostro possesso. La separazione tra LINER e Seyfert invece non è netta e i risultati conseguiti non ci permettono di dire molto. Ciò probabilmente dipende da una differenza tra le due categorie non fortemente delineata. Va sottolineato che l’aspetto principale di questo lavoro, prima ancora che nei risultati, risiede nella metodologia adottata, che risulta assolutamente innovativa rispetto a quanto è sinora apparso in letteratura.