Ricerca di Nuclei
Galattici Attivi in
Survey Fotometriche
Multibanda
Relatori:
Candidato:
Ch.mo Prof. Giuseppe Longo
Stefano Cavuoti
Dott. Maurizio Paolillo
Matricola 60/958
Motivazioni
Le survey moderne hanno prodotto, e ancora più lo faranno in futuro,
un’enorme quantità di dati (molti TB).
Tali dati non possono essere trattati con le tradizionali tecniche statistiche
ma impongono l’adozione di un nuovo paradigma di “Data Mining” in larga
parte basato su tecniche di A.I. (Artificial Intelligence) che aiutino
l’operatore a comprimere l’informazione e renderla intellegibile.
In questo lavoro si è mostrato come tali tecniche possano consentire di
ottenere risultati significativi in un campo di grande attualità ed interesse:
la ricerca di Nuclei Galattici Attivi (AGN) in survey fotometriche
multibanda.
Nuclei Galattici Attivi
Oggetti con morfologia ottica simile, ma caratteristiche fisiche
completamente diverse
Galassia Normale
Quasar
Seyfert 1
Seyfert 2
Modello Unificato degli AGN
Jet (Emissione X, Gamma e Radio)
Broad Line Region (BLR)
(Emissione Ottica)
Narrow Line Region (NLR)
(Emissione Ottica)
Buco Nero
Disco di Accrescimento
(Emissione UV, Ottica)
Dust Torus
(Emissione IR)
Modello Unificato degli AGN
Linea di Vista Ortogonale al piano del disco: BLAZAR
La materia nel jet si muove a velocità relativistica, quindi la radiazione
emessa è fortemente collimata (beamed) e può variare con periodi molto
brevi. Sono caratterizzati da una intensa variabilità con tempi scala molto
brevi. I blazar sono anche gli unici oggetti dove la radiazione gamma tra
100 MeV fino ai 103 GeV, risulta in generale energeticamente dominante.
Linea di Vista obliqua rispetto al piano del disco: TIPO 1
Si è in grado di osservare direttamente la regione centrale. Dallo spettro
emergono le componenti broad-lines, narrow-lines e l’emissione dal disco
di accrescimento. Le righe spettrali permesse risultano molto allargate nel
dominio delle frequenze con una componente stretta sovrapposta.
Linea di vista parallela al piano del disco: TIPO 2
Tutta la regione centrale è oscurata, compresi buco nero, disco di
accrescimento e broad line region. Tutto ciò che si può osservare è
l’emissione dovuta al dust torus (prevalentemente nell’infrarosso) e le righe
di emissione delle NLR.
Le Diverse Fenomenologie
Nuclei Galattici Attivi
Allo stato attuale il riconoscimento degli AGN avviene o da
un’osservazione dello spettro “ad occhio” o tramite linee empiriche
basate su rapporti di righe
Entrambi i metodi utilizzano informazioni spettroscopiche che sono
“time consuming” (uno spettro per oggetto).
In questo lavoro di tesi si è cercato di ottenere una classificazione
degli AGN basata su dati fotometrici (una lastra per centinaia di
oggetti).
Il passaggio dallo spazio dei parametri spettroscopico a quello
dei parametri fotometrici è possibile in quanto la presenza di righe
di emissione in una data banda influenza il flusso nella stessa e di
conseguenza il colore. Nella fotometria le righe con cui si
classificano gli AGN scompaiono; inoltre la misura del redshift
fotometrico è molto meno accurata. Per eliminare, almeno in parte,
la degenerazione introdotta dalla mancanza delle righe è utile usare
i redshift fotometrici più accurati possibili.
Sloan Digital Sky Survey
I dati utilizzati provengono dal database della Sloan Digital Sky Survey che
copre circa un quarto della volta celeste.
Fotometria:
Copertura: 9583 sq. deg.
Oggetti Osservati: 287 M
Volume dei Dati:
Immagini: 10 TB
Cataloghi: 6 TB
3x108 oggetti
Necessità di un
approccio
automatico
all’analisi dei dati Spettroscopia:
(data mining)
Copertura: 7425 sq. deg.
Oggetti Osservati: 1.2 M
Volume dei Dati: 310 GB
Intelligenza artificiale
Reti Neurali Biologiche
Cervello umano:
esistono vari tipi di neuroni
il cervello è costituito in media di 10 miliardi di neuroni impacchettati
con densità dell’ordine di 80000 neuroni per mm3
ogni neurone interagisce con 1000-10000 neuroni
il collegamento sinaptico è possibile anche tra neuroni anche molto distanti
l’elaborazione risiede in intere regioni ben localizzate
la struttura cerebrale è sempre in evoluzione
l’elaborazione dell’informazione che viene diffusa in parallelo tra migliaia di
neuroni porta all’emergere dei processi cognitivi
Reti Neurali - MLP
L’algoritmo detto Multi Layer Perceptron (MLP) si basa sul concetto di
perceptrone, derivato dal neurone biologico mentre il metodo di
apprendimento si basa sul metodo gradient-descent che permette di trovare
un minimo locale di una funzione in uno spazio a N dimensioni. I pesi
associati ai collegamenti tra gli strati di neuroni, si inizializzano a valori
piccoli e casuali e poi si applica la regola di apprendimento presentando alla
rete dei pattern di esempio.
Reti Neurali - SVM
Dato un training set formato da coppie features-label (xi, yi), i = 1…l
dove xi  Rn e yi  {1,−1}l.
Le Support Vector Machine (SVM) cercano di risolvere il seguente problema di
ottimizzazione:
l
1 T
min    C  i
 ,b , 2
i 1
yi ( T  ( xi )  b)  1  i
con la condizione:
I vettori xi vengono mappati in un uno spazio a più dimensioni rispetto a quelle
che aveva inizialmente dalla funzione . Quindi la SVM trova una iperpiano di
separazione col maggior margine possibile in questo nuovo spazio.
C > 0 è un termine di correzione dell’errore.
K ( xi , x j )   ( xi )T ( x j )
E’ la cosiddetta funzione di kernel, per i miei esperimenti ho usato:
2
K ( xi , x j )  exp( xi  x j ),  0
Detto radial basis function (RBF)
Reti Neurali - SVM
Il procedimento utilizzato per la ricerca della rete migliore che ho utilizzato
è quello proposto da Chih-Wei Hsu, Chih-Chung Chang, e Chih-Jen Lin
(creatori delle LIBSVM);
Essendoci due parametri (C e Gamma) da scegliere che non possono
essere presi a priori sono stati eseguiti 110 addestramenti; il range di
variazione è C = 2−5, 2−3, ...215, Gamma= 2−15, 2−13…23 (un fattore 4 tra
un valore e il successivo), gli addestramenti sono stati fatti utilizzando la
cross validation facendo dividere il dataset di train in 5 parti.
Dato il peso ,è praticamente impossibile eseguire questi
processi in serie su un desktop, e si è quindi deciso di
usare la tecnologia GRID, usando le macchine del
progetto SCoPE.
A tal fine sono stati creati degli script in Python per la creazione dei file jdl
e per l’analisi dei risultati.
Scelta della Base di Conoscenza
Cataloghi utilizzati:
G. Sorrentino et al. (2006) (catalogo)
G. Kauffmann et al. (2003) (rapporti di righe)
R. D’Abrusco et al. (2007) (redshift)
I primi due cataloghi sono stati usati per costruire la base di
conoscenza con cui addestrare le reti neurali, mentre il terzo ha
fornito per gli oggetti presenti nei primi due cataloghi stime del
redshift per tutti gli oggetti.
Scelta della Base di Conoscenza
Catalogo di G. Sorrentino et al. (2006)
z compreso tra 0.05 e 0.095.
oggetti più luminosi di M(r) = -20.00
Vengono suddivisi in AGN o meno in base al modello empirico di Kewley:
log
log
log
[OIII]λ5007
0.61
=
+1.19
[NII]λ6583
Hβ
log
-0.47
Hα
[OIII]λ5007
0.72
=
+1.30
[SII]λλ6717,6731
Hβ
log
-0.32
Hα
[OIII]λ5007
0.73
=
+1.19
[OI]λ6300
Hβ
log
-0.59
Hα
Sono definiti Seyfert 1 gli oggetti per cui risulta o
FWHM(Ha) > 1.5FWHM([OIII] l5007)
oppure
FWHM(Ha) > 1200Kms-1
e contestualmente
FWHM([OIII] l5007) < 800Kms-1
Tutti gli altri vengono classificati come Seyfert 2
Scelta della Base di Conoscenza
Catalogo di G. Kauffman et al. (2003) 0.02<z<0.3
Oggetti divisi dalla linea di Kewley:
[OIII]λ5007
0.61
log
=
+1.19
[NII]λ6583
Hβ
log
-0.47
Hα
Scelta della Base di Conoscenza
Catalogo di G. Kauffman et al. (2003) 0.02<z<0.3
Oggetti divisi dalla linea di Kauffman:
[OIII]λ5007
0.61
log
=
+1.3
[NII]λ6583
Hβ
log
-0.05
Hα
Scelta della Base di Conoscenza
Catalogo di G. Kauffman et al. (2003) 0.02<z<0.3
Oggetti divisi dalla linea ricavata da Heckman:
[OIII]λ5007
[NII]λ6583
=2.1445
 0.465
Hβ
Hα
Scelta della Base di Conoscenza
Catalogo di G. Kauffman et al. (2003) 0.02<z<0.3
Risultato finale
Redshift fotometrici
Il Catalogo di D’Abrusco et al. (2007) contiene stime di z fotometrico,
con un’accuratezza pari a srob = 0.02, misurata dalla dispersione
attorno allo zero della variabile scarto (z_phot - z_spec) (anche
minore per le LRG)
Aspetti Tecnici
Il mio lavoro si è svolto nell’ambito dei progetti VONEURAL e PON-SCOPE, in
particolare:
contributo alla fase progettuale
modifiche al codice delle reti MLP, inizialmente sviluppato da C. Donalek,
per adattarlo alle nuove esigenze del progetto
test e debug del codice delle reti MLP
test e debug dell’intera pipeline del software prodotto: prima in versione da
shell, poi in versione provvisoria XML e in versione definitiva (AstroGRID
Compliant)
creazione delle librerie di funzioni in linguaggio C per implementare le
matrici di confusione nella prossima release del software
Implementazione delle procedure per il GRID
I parametri SDSS
Parametri Usati:
1.
petroR50_u
2.
petroR50_g
3.
petroR50_r
4.
petroR50_i
5.
petroR50_z
6.
concentration_index_r
7.
z_phot_corr
8.
fibermag_r
9.
(u – g) dered
10. (g – r) dered
11. (r – i) dered
12. (i – z) dered
13. dered_r
Target
1.
AGN 1, Misto 0
2.
Tipo1 1, Tipo2 0
3.
Seyfert 1, LINER 0
Raggi che contiengono il 50% del flusso petrosiano.
Il flusso petrosiano utilizzato dalla SDSS è definito come:
1.25 r
P

(r )  0.8r
dr 2 r I (r ) / [ (1.252  0.82 )r 2]
r
o dr2 rI (r) / ( r
2
)
Flusso contenuto in 3” di diametro d’apertura.
Colori corretti per arrossamento
Magnitudine in banda r corretta per arrossamento
Applicazione 1 con MLP
1(net)
0(net)
1(known) a
b
0(known) c
d
ad
e
abcd
a
eagn 
ac
a
cagn 
ab
c
cmisti 
cd
Le reti sono state addestrate con un target vector pari a 1 per gli oggetti
ritenuti sicuri AGN, ovvero gli oggetti superiori alla riga di Kewley e 0 tutti
quelli al di sotto di questa linea.
Il miglior risultato ottenuto è stato:
Efficienza totale: e = 75.99%
Efficienza agn: eagn = 71.38%
Completezza agn: cagn = 55.64%
Completezza misti: cmisti = 87.44%
1(net)
0(net)
1(known) 3402
2712
0(known) 1364
9499
Il 12.6% degli oggetti che spettroscopicamente non sono catalogati con
certezza come AGN sono falsi positivi.
La percentuale falsi positivi che secono la base di conoscenza sono sicuramente
non AGN è 0.89%
La percentuale di non AGN sicuri che risultano falsi positivi è 0.82%
Applicazione 1 con MLP
a
c
a
c
a
c
Rapporto tra AGN Correttamente Valutati e falsi positivi, prima metà del
dataset, seconda metà e dataset totale. Si osserva che c’è un massimo intorno
ad una soglia di 0.837, con questa soglia eAGN = 89.14% e la matrice di
confusione diviene:
1(net)
0(net)
1(known) 558
5556
0(known) 68
10795
Applicazione 1 con SVM
Efficienza Totale del Miglior Risultato: 75.76%
PON-SCOPE GRID Infrastructure (110 nodes)
lg2(gamma)
lg2(C)
Applicazione 2 con MLP
Gli esperimenti sono stati effettuati selezionando soltanto gli
oggetti presenti nel catalogo di G. Sorrentino et al. (2006) (z
compreso tra 0.05 e 0.095) che venivano indicati come Tipo 1 e
Tipo 2. Si sono selezionati solo quelli sicuramente AGN.
Il dataset si componeva di 1570 oggetti: si è indicato con 1 gli
oggetti di Tipo 1 e con 0 gli oggetti di Tipo 2.
Il miglior risultato ottenuto è stato:
Efficienza totale e = 99.4%
Efficienza tipo 1 etipo 1 = 98.4%
Efficienza tipo 2 etipo 2 = 100%
Completezza tipo 1: ctipo 1 = 100%
Completezza tipo 2: ctipo 2 = 98.9%
1(net)
0(net)
1(known) 126
0
0(known) 2
186
Applicazione 2 con SVM
Efficienza Totale del Miglior Risultato: 81.5%
PON-SCOPE GRID Infrastructure (110 nodes)
lg2(gamma)
lg2(C)
Applicazione 3 con MLP
Il dataset utilizzato è stato costruito selezionando tutti gli oggetti
divisi in Seyfert e LINER al di sopra della linea di Kewley. Il
numero di oggetti presenti nel dataset è pari a 30380. Sono stati
indicati gli oggetti di tipo Seyfert con 1 e quelli di tipo LINER con
0.
Il miglior risultato ottenuto è stato:
Efficienza totale: e = 79.69%
Efficienza Seyfert: csey = 74.76%
Efficienza LINER : cLIN = 81.09%
Completezza Seyfert: csey = 52.77%
Completezza LINER : cLIN = 91.69%
1(net)
0(net)
1(known) 1001
896
0(known) 338
3841
Applicazione 3 con SVM
Efficienza Totale del Miglior Risultato: 78.18%
PON-SCOPE GRID Infrastructure (110 nodes)
lg2(gamma)
lg2(C)
Applicazione 3 con MLP
La separazione tra LINER e Seyfert non è efficiente come nei
casi precedenti. Questo probabilmente dipende da una
differenza tra le due categorie non particolarmente marcata. Si
può osservare che la separazione nei parametri spettroscopici
avviene molto al di sopra della riga di Kewley.
Conclusioni
L’obiettivo principale di questa tesi è stato raggiunto ottenendo una rete
neurale in grado di selezionare, su base puramente fotometrica, forti
candidati AGN.
Per quanto concerne la separazione tra oggetti di Tipo 1 e Tipo 2 si sono
ottenuti ottimi risultati pur essendo pochi i dati in nostro possesso.
La separazione tra LINER e Seyfert invece non è netta e i risultati conseguiti
non ci permettono di dire molto. Ciò probabilmente dipende da una
differenza tra le due categorie non fortemente delineata.
Va sottolineato che l’aspetto principale di questo
lavoro, prima ancora che nei risultati, risiede nella
metodologia adottata, che risulta assolutamente
innovativa rispetto a quanto è sinora apparso in
letteratura.