L’INVERSIONE DEI DATI
Problema
Voglio conoscere A (difficile o scomodo da misurare)
Voglio conoscere A (difficile o scomodo da misurare)
Ipotesi di partenza
B (misurabile) è sensibile a A
Problema diretto A
B
D
Devo cioè determinare la funzione F tale che: F(A) = B
i èd t
i
l f i
F t l h F(A) B
Problema inverso B
A
Devo cioè determinare la funzione F tale che: F
Devo
cioè determinare la funzione F tale che: F‐1(B) (B) = A
A
IL PROBLEMA DELL’INVERSIONE
Un sistema di telerilevamento misura le quantità
elettromagnetiche che quantificano l’attitudine
l attitudine del mezzo a
riflettere, emettere o assorbire
Tali quantità sono funzioni dei parametri che rivestono interesse
applicativo, i cui valori vanno determinati a partire dalle quantità
elettromagnetiche primarie mediante un’inversione dei dati
σ°
variabile
Problema:
P
bl
σ°° è iinfluenzata
fl
t d
da variabili
i bili diff
differenti
ti (e
( spesso
indipendenti) simultaneamente (è difficile separare gli effetti delle
singole variabili).
variabili)
APPROCCI PER L’INVERSIONE DEI DATI
Empirico-statistico
Nell’approccio
Nell
approccio empirico
empirico-statistico
statistico vengono effettuati
contemporaneamente misure in sito e di telerilevamento; si
stabiliscono poi le relazioni empiriche, generalmente a partire da
regressioni statistiche, che consentano di passare dai dati rilevati
ai parametri del mezzo
Teorico modellistico
Nell’approccio teorico si procede a determinare il legame tra
parametri e dati mediante modelli di simulazione,
simulazione che possono
costituire la base dell’inversione delle misure
Ibrido
Utilizzo il modello di simulazione per generare/integrare i dati
necessari p
per individuare le relazioni statistiche
DUE TIPOLOGIE DI PROBLEMI DI INVERSIONE
Problema di stima di parametro
La quantità da determinare è un numero reale che esprime il
valore quantitativo del parametro bio-geofisico di interesse. Il
parametro può essere a più componenti e quindi in questo
caso occorre determinare una quantità vettoriale
Problema di classificazione
Occorre associare alla misura effettuata una tra più classe
predeterminate. Rientrano in questa tipologia i problemi di
detection (per es. change detection)
STIMA DI PARAMETRO: APPROCCIO MODELLISTICO
[Astim]
Modello fisico
(risolve il pb. diretto)
[Bteo]
‐
Astim al passo 0 è determinato dalle
informazioni a priori (statistica del problema)
[Bmis]
Termino quando la differenza tra Bteo e Bmis non cambia
più continuando le iterazioni
INTRODUZIONE RETI NEURALI
¾ Il cervello umano è un calcolatore
complesso, non lineare e parallelo
¾ I suoii elementi
l
ti di elaborazione,
l b
i
i
neuroni, sono molto semplici
¾ Il cervello
ll è iin grado
d di modificare
difi
le connessioni tra i neuroni in base
all’esperienza
all
esperienza acquisita
acquisita, cioè è in
grado di imparare
¾ Nel cervello non esiste un controllo centralizzato.
centralizzato Il cervello è
fault tolerant, cioè se un neurone o una delle sue connessioni
sono danneggiati, il cervello continua a funzionare, anche se con
prestazioni leggermente degradate
Negli anni 40 nell’area
nell area di Boston (MIT
(MIT, Harward) nasce
l’idea di provare a simulare il comportamento del
cervello
IL NEURONE
Funzione Gradino F ( Y ) =
Funzione Gradino: F
)
0
{ 1 Y >
0 Y ≤0
0 Y 0
Threshold
X
1
θ
W1
X
2
W2
Wn
X
Σ
‐
F(Y)
F ( Y )
Y
Activation function
n
Una rete formata da tali unità è, con la scelta degli opportuni
coefficienti in linea di principio capace di rappresentare qualsiasi
coefficienti,
funzione logica
IL MULTI-LAYER PERCEPTRON
OFF
ON
IL MULTI-LAYER PERCEPTRON
Osserviamo che una rete di questo tipo è adatta per un tipico
problema di classificazione. A sinistra (strato di ingresso) entrano
le quantità misurate
misurate, a destra (strato di uscita) abbiamo i valori da
stimare della variabile (n-dimensionale)
Quando il mapping desiderato è complesso e prevede la
presenza di diverse unità neuronali trovare i coefficienti
moltiplicativi delle connessioni non è banale
Principio della regola di addestramento: presentare degli esempi
alla rete e modificare i pesi delle connessioni per ottenere un
miglioramento del risultato, così da avvicinarsi alle uscite
desiderate
CONCETTO DI SUPERVISIONE
XOR NETWORK
INPUT
HIDDEN
1
Input 1
Input 2
Output
0
0
0
1
1
0
0
1
1
1
0
1
1
-11
OUTPUT
-11
1
1
THRESHOLD = .01
NEURAL NETWORKS EVOLUTION
Rosenblatt
R
bl tt shows
h
(
(perceptron
t
convergence procedure)
d ) how
h
it was
possible to train a net of neurons able to recognise a set of patterns
chosen beforehand.
Essence of the training rule: to present the net with examples and
change those connection weights which led to an improvement of the
results, so as to be closer to the desired values. The procedure did not,
however, indicate how to train hidden elements
(F. Rosenblatt, Principles of Neurodynamics, Spartan, 1962)
Minsky e Papert show Rosenblatt
Rosenblatt’ss procedure to be valid only for single
layer perceptrons. Big problem: there was a large class of problems,
even rather simple, that the single layer perceptron was not able to
solve.
l
A typical
t i l example
l was the
th exclusive
l i
OR
OR.
At this point the procedure able to train the internal connections
was missing: credit assignment problem (M.L. Minsky, S.A. Papert,
Perceptrons, MIT Press, 1969).
LA BACK-PROPAGATION
¾ Risolve la difficoltà dell’addestramento,
dell addestramento, soprattutto per quanto
riguarda i pesi dei neuroni interni. Infatti l’errore sull’uscita viene
retropropagato verso l’interno
¾ Si considera una rete con funzioni di attivazione differenziabili,
cosicché le funzioni di attivazione dell’uscita
dell uscita diventano funzioni
differenziabili sia delle variabili di ingresso che dei pesi e dei valori
di soglia.
¾ Le derivate possono essere utilizzate per trovare i valori dei
coefficienti che minimizzano la funzione errore
1
E =
2
∑
p
Noutput
∑
k =1
(y k
− tk
)2
LA BACK-PROPAGATION
¾ La back-propagation è un algoritmo iterativo dove all’inizio il
valore dei coefficienti è definito in modo casuale
¾ L’iterazione consiste nel presentare alla rete il set degli esempi
selezionati
l i
ti più
iù volte,
lt fifinché
hé l’l’errore ttotale
t l commesso d
dalla
ll rete
t è
inferiore a una certa soglia
¾ Ogni ciclo di ripetizione viene chiamato epoca di addestramento
Nel 1989 Hornik et al. dimostrano che il perceptron multistrato è in
grado di approssimare
g
pp
q
qualsiasi funzione continua a valori reali: le
reti perceptron multistrato costituiscono una classe di
approssimatori universali
VARI TIPI DI RETI NEURALI
Possiamo distinguere 3 elementi fondamentali di distinzione:
1. Topologia della rete:
Feedforward ricorsiva,
Feedforward,
ricorsiva completamente connessa
2. Caratteristiche del neurone:
Funzione di attivazione sigmoidale, a gradino, gaussiana
3. Regola di apprendimento:
Con supervisione
Senza supervisione
Scelta dell’input p
e dell’output
Generazione dei d ti di
dati di addestramento
Definizione della topologia
Rete Neurale
PROGETTAZIONE
Input Definizione dei coefficienti via ffi i ti i
addestramento
Pre‐
Elaborazione
Elaborazione Neurale
Post‐
Elaborazione
O t t
Output
MODALITÀ OPERATIVA REAL‐TIME
ASPETTI PROGETTUALI
SCELTA DELL’INPUT E DELL’OUTPUT
Identificare le migliori tra le informazioni disponibili da usare come
ingresso alla rete, per esempio quelle con più alto rapporto
segnale
g
rumore,, e definire precisamente
p
l’uscita della rete.
GENERAZIONE DATI DI ADDESTRAMENTO
Fornire alla rete un insieme di esempi statisticamente significativo
e rappresentativo dello scenario in cui andrò ad operare.
Nella modalità operativa la rete dovrà essere in grado di associare
a quello che gli viene presentato qualche esempio memorizzato
nella
ll ffase di addestramento
dd t
t
RETI NEURALI
RETI A MEMORIA ASSOCIATIVA
PROBLEMA: Riconoscimento automatico di un individuo
automatico di un individuo Generazione dai dati di Generazione
dai dati di
addestramento
DIMENSIONALITY ISSUES
Increasing
g the number of features should lead to an improvement
p
of the performance, but…..
if we are forced to a limited quantity of data, as we are in practice,
then increasing the dimensionality of the space rapidly leads to
the point where the data is very sparse, in which case it provides
a very poor representation of the mapping
The predictive power reduces as the dimensionality
i
increases,
also
l kknown as th
the Hughes
H h effect
ff t or Hughes
H h
phenomenon
Moreover:
¾ A network with fewer inputs has fewer adaptive parameters to
be determined, and these are more likely to be properly
constrained by a data set of limited size, leading to a network with
b tt generalization
better
li ti properties.
ti
¾ A network with fewer weights may be faster to train
Generate a statisticallyy significant
g
set of p
patterns
ALL PATTERNS
TEST
TRAINING
VALIDATION
The training subset include all the data belonging to the problem
domain and is used in the training phase to update the weights of
the network.
The test subset is used during the learning process to check the
network response for untrained data. The data used in the test
subset
b
should
h ld b
be di
distinct
i
ffrom those
h
used
d iin the
h training,
i i
h
however
they should lie within the training data boundaries. Based on the
performance of the ANN on the test subset
subset, the architecture may
be changed and/or more training cycles applied.
The validation subset should include examples different from
those in the other two subsets. This subset is used after selecting
the best network to further examine the network or confirm its
accuracy before being implemented in the neural system and/or
delivered to the end user
It is difficult to give specific mathematical rules for the determination of the
required sizes of the various data subsets For database partitioning a large
test subset may highlight the generalization capability better; however, the
remaining smaller training subset may not be adequate to train the network
satisfactorily Looney (1996) recommends 65% of the parent database to be
satisfactorily.
used for training, 25% for testing, and 10% for validation
POSSIBLE USE OF A FORWARD
(ELECTROMAGNETIC) MODEL
¾ Input and output are swapped
¾ Set suitable variability ranges for the input
(geophysical) parameters also checking crossconsistency
¾ Additional noise may be considered in the output
values
ASPETTI PROGETTUALI
Il resto della progettazione è soprattutto dedicato ad evitare il
problema dell’overfitting:
dell overfitting:
La rete funziona sull’insieme di addestramento ma non è in grado
di generalizzare correttamente su dati fuori da questo insieme.
Per non cadere in overfitting occorre:
¾ Non eccedere nel numero di epoche di addestramento
¾ Non eccedere nella complessità topologica, cioè nel
numero di unità di processamento (neuroni)
COME SI FA ??
ESEMPIO
PROBLEMA DI CLASSIFICAZIONE
y
x
RETRIEVAL PROBLEM
Underfitting
Overfitting
Correct fitting
g
SCELTA DEL TEMPO DI ADDESTRAMENTO: EARLY STOPPING
E
TEST
TRAINING
t
t’
We might say that we are in presence of a regulator
where the penalty function is represented by the error
function calculated over the validation set
NUMERO DI NEURONI OTTIMO
Tecniche per tentativi
Si provano numeri differenti di unità nascoste e si seleziona la
rete che dà l’errore minore sul test set
Tecniche di pruning
Si allena una rete inizialmente sovradimensionata. I pesi meno
importanti vengono eliminati
eliminati. La rete ottenuta viene poi
nuovamente riaddestrata
Tecniche di growing
Si p
parte con una rete sottodimensionata e man mano durante
l’addestramento vengono aggiunte nuove unità o strati
congelando i coefficienti determinati nelle fasi precedenti.
(Basheer and Hajmeerb, 2000)
Nella modalità operativa l’implementazione della rete neurale richiede
rete neurale richiede solo l’inserimento di p
poche righe di codice
g
Note
A linear regression may be seen as a very particular neural
networks
k with
i h no hidden
hidd layers
l
a11
x1
y1
a12
x2
a21
a22
a13
a23
x3
If the activation function are the Identity function
y1 =
1 a11 11 x1 +
1 + a12 12 x2 +
2 + a13 13 x3
y2 = a21 x1 + a22 x2 + a23 x3
y2
ULTERIORI CONSIDERAZIONI
¾ COSTRUISCONO LE REGOLE DI DECISIONE INTERNE
DIRETTAMENTE DAI DATI E NON NECESSITANO
ASSUNZIONI A-PRIORI
A PRIORI DI TIPO STATISTICO
¾
ATTENZIONE AL PROBLEMA DEI MINIMI SECONDARI
¾ NELLA FASE DI ADDESTRAMENTO POSSIBILI SINERGIE
TRA DATI SIMULATI E DATI SPERIMENTALI
¾
CAPACITÀ NEL DATA FUSION
CLASSIFICAZIONE DI IMMAGINI SATELLITARI
CLASSIFICAZIONE DI IMMAGINI SATELLITARI
Hard decision
0.75
0.12
0.10
0.08
Possibilità di unmixing
1
0
0
0
CLASSIFICAZIONE DI IMMAGINI SATELLITARI
CLASSIFICAZIONE DI IMMAGINI SATELLITARI
La scelta dell’insieme di addestramento