UNIVERSITÀ CATTOLICA DEL SACRO CUORE
ISTITUTO DI STATISTICA
Diego MANCUSO
Sulla matrice dei momenti tra le basi
radiali di una rete neurale RBF
Serie E.P. N. 116 - Luglio 2003
Finito di stampare nel mese di Luglio 2003
da MULTISERVER Srl
……..
SULLA MATRICE DEI MOMENTI TRA LE BASI
RADIALI DI UNA RETE NEURALE RBF
Diego MANCUSO
Riassunto
Oggetto di questo studio è la matrice dei momenti campionari tra le basi di
una rete neurale RBF. Viene calcolata l’espressione generale di ogni singolo
momento e messo in luce come il raggio spettrale e la norma di questa
matrice siano strettamente legati alla bontà dell’interpolazione della rete.
Successivamente viene data una approssimazione della matrice inversa della
matrice dei momenti e si evidenzia come per essere consistente lo stimatore
RBF non deve far tendere a zero le finestre σi delle basi radiali utilizzate.
1. Introduzione
Le reti neurali Radial Basis Function (RBF) sono modelli di regressione
non parametrica meritevoli di interesse per almeno tre motivi. Il primo è che
questi strumenti sembrano essere efficienti (nel senso dell’errore quadratico
medio integrato) almeno quanto altri asintoticamente ottimali come quelli di
tipo kernel. Questo risultato è mostrato in Yee et al (2001) con riferimento
alle reti RBF di stretta interpolazione e si congettura estendibile anche alle
reti RBF in generale. Il secondo è che essendo modelli lineari nei parametri
sono utilizzabili con efficacia in contesti applicativi complessi permettendo
l’estensione di procedure sviluppate nell’ambito della regressione lineare
alla regressione non parametrica (Boracchi et al (2002) e Mancuso (2001)).
Il terzo motivo è di carattere potenziale ed è legato al fatto che le reti RBF
appartengono alla famiglia delle reti neurali feed-forward. Per diversi
schemi di queste reti valgono risultati che violano la cosiddetta maledizione
della dimensionalità e giustificano il loro utilizzo in presenza di un numero
elevato di variabili esplicative. Non si esclude quindi che proprietà analoghe
possano valere anche per le reti RBF ad assegnazione rapida, anche se
bisogna aggiungere che nessun risultato in tal senso è stato ancora trovato.
In questo studio si intende approfondire il funzionamento delle reti RBF
conducendo un esame della matrice dei momenti fra le sue basi radiali. Tale
matrice svolge un ruolo centrale nella stima dei parametri della rete e per
2
questo motivo si ritiene che la sua analisi sia utile per migliorare la
comprensione dei modelli considerati. Il lavoro è organizzato come segue.
Nei due paragrafi immediatamente successivi si presenteranno
sinteticamente le reti RBF evidenziando i loro legami con la teoria della
regolarizzazione. Nel paragrafo 4 si procederà ad analizzare la struttura
della matrice dei momenti fra le basi radiali nel caso, consueto, di adozione
del nucleo gaussiano. Il riferimento sarà alla matrice dei momenti
campionari in quanto la struttura di quella stocastica è stata già esplicitata in
Mancuso (2002). In particolare sarà data l’espressione di ogni singolo
elemento e richiamate dall’algebra lineare le sue proprietà fondamentali. Nel
paragrafo 5 si darà una approssimazione della inversa della matrice dei
momenti valida in generale e che utilizza la matrice diretta precedentemente
esplicitata. Infine nell’ultimo paragrafo si approfondisce il tema
dell’assegnazione del fattore di proporzionalità utilizzato nella
determinazione dell’ampiezza dei vari nuclei delle basi radiali. Questa
assegnazione è legata alla matrice dei momenti in quanto equivalente al
fissare sia il suo raggio spettrale che la sua norma. In particolare viene
messo in evidenza come questo parametro svolga una funzione
sostanzialmente diversa da quella della finestra della regressione kernel al
quale formalmente corrisponde.
2. Modelli di rete neurale RBF
Si consideri una variabile statistica y oggetto di interesse e un vettore x di d
variabili dette regressori. Si indichi con (X,Y) l’insieme supporto di queste
variabili e g(x,y) la densità di probabilità congiunta definita su (X,Y). Si
assuma infine g(x,y) assolutamente continua e fattorizzabile nel prodotto
della densità marginale di x per la condizionata di y, g(x,y) = g(x)g(y|x).
Una rete neurale RBF è uno stimatore non parametrico della funzione di
regressione f 0 (x ) = ∫ y ⋅ g ( y | x )dy , che risponde alla forma:
Y
s
f (x ) = ∑ wiφ i ( x − µ i ) ,
i =1
dove ciascuna delle s funzioni φi(||x-µi||) sono dette basi radiali con centro i
rispettivi vettori µi ∈ Rd, mentre ||.|| indica la comune norma euclidea.
Quando ciascuno dei centri µi corrisponde alle osservazioni xi contenute in
un data set D di n rilevazioni casuali delle (d+1) variabili unidimensionali x
ey
3
{
}
D ≡ (x k , y k ) ∈ R d × R
n
k =1
si parla di reti RBF di stretta interpolazione:
n
f (x ) = ∑ wiφ i ( x − x i ) .
i =1
Le reti RBF di stretta interpolazione sono strettamente collegate alla teoria
della regolarizzazione per la quale costituiscono soluzioni di minimo del
funzionale E(f):
E( f ) =
1 n
( y k − f (x k ))2 + α ∫ Pf 2 dx
∑
n k =1
nX
dove P è un qualche operatore differenziale applicato alla funzione f, mentre
α viene detto parametro di regolarizzazione. Riportando da Yee et al (2001),
quando si impone che f appartenga allo spazio di Hilbert delle funzioni
rapidamente decrescenti derivabili infinite volte con continuità e sia P che il
suo aggiunto formale P* sono scelti in maniera da soddisfare
∞
P*P = ∑
l =0
(− 1)l (∇ 2 )l
U
l!2 l
n
∂ 2 u ij
n
con ∇ U2 ≡ ∑∑
i =1 j =1
∂xi ∂x j
,
allora la minimizzazione di E(f) porta a basi radiali di nucleo gaussiano con
matrice di precisione data da U = [uij]. Nel caso di U = (1/σ2) I , dove I è la
matrice identità, infine si ottiene
 x − xi
φ i ( x − x i ) = exp −

2σ 2

2




con 0 < σ ∈ R .
Questa inquadramento valido per le reti RBF di stretta interpolazione
giustifica l’utilizzo del nucleo gaussiano anche per le reti RBF in generale
per le quali si può lasciare dipendere l’ampiezza σ dei nuclei φi(x) dalla base
radiale e inserire una costante additiva w0:
 x − µi
y (x ) = w0 + ∑ wi exp −
2

2σ i
i =1

s
RBF
2

.


Il nucleo gaussiano è quello di più comune adozione nelle reti RBF e per
tale motivo si utilizzerà nel proseguimento solo questo tipo di nucleo.
4
3. Stima dei parametri di una rete RBF
Al pari di quanto avviene con altre reti neurali di tipo feed-forward, i
parametri di una rete RBF sono determinati seguendo la minimizzazione del
rischio empirico considerato con perdita quadratica e calcolato sulle
osservazioni del data set D
I emp ( f ) =
1 n
( y k − f (x k ))2 .
∑
n k =1
(1)
Una opportuna variante del rischio empirico è quella in cui compare un
termine di weight decay che nella versione più semplice modifica la (1) in:
I wd ( f ) =
s
1 n
( y k − f (x k ))2 + α ⋅ ∑ wi2 .
∑
n k =1
i =1
(2)
Un modo per assegnare i parametri che trae diretta ispirazione dal
funzionamento delle reti RBF di stretta interpolazione è costituita dalla
attribuzione nota come rapida. Questa modalità di determinazione si
compone di due passaggi distinti. Il primo consiste nel formare s gruppi
nello spazio dei soli regressori applicando alle rilevazioni presenti nel data
set algoritmi di cluster analysis come quello delle k-medie o quello delle reti
neurali di Kohonen. I vettori µi sono identificati con i centri di questi gruppi,
mentre i σi sono posti proporzionali ad una media delle distanze euclidee
che separano i rispettivi vettori µi da tutti i rimanenti centri o dai soli p
centri più vicini, ovvero
σ i2 = σ 2
1 p
(µ j − µ i )2 = σ 2 ⋅ τ i2
∑
p j =1
(3)
con p ≤ s e σ attribuito empiricamente dall’utilizzatore mediando gli aspetti
di ottimizzazione con quelli di regolarità della stima. Calcolate in questo
modo le basi radiali, i pesi wi sono ottenuti in maniera condizionata rispetto
ai valori attribuiti alle coppie (µi, σi) in un unico secondo passaggio
minimizzando il rischio empirico (1) oppure la (2). L’assegnazione rapida
impiega un criterio ibrido per la determinazione dei parametri: non
supervisionato per i parametri (µi, σi) riguardanti le basi radiali e dei minimi
quadrati per quanto riguarda i pesi dello strato finale wi. Si noti come la
minimizzazione della (2) porta all’assegnazione dei pesi w secondo i minimi
quadrati penalizzati e quindi l’interpolazione eseguita da una rete RBF è
interpretabile come una regressione ridge nello spazio delle basi radiali. Se
5
si raccolgono le attivazioni delle basi radiali lungo i valori osservati sui
regressori nel data set nella matrice Φ
  x −µ
Φ = [φ k ,i ] = exp − k 2 i
(n, s )
2σ i
 
2




e le corrispondenti medie campionarie di ciascuna base nel vettore m0,
1 n
 xk − µi
m0 = [m0i ] =  ∑ exp −

2σ i2
(1, s )
 n k =1


2




è possibile impostare dal rischio empirico (1) il sistema delle equazioni
normali ottenendo in maniera condizionata alle coppie (µi, σi) le stime dei
minimi quadrati di w0 e dei wi, 1≤i≤s, questi ultimi raccolti nel vettore w.
Indicando con y la media campionaria della variabile y, se si esprimono
queste stime in termini delle medie campionarie m0 e dei momenti misti tra
le basi radiali mij raccolti nella matrice
M=
[ ]
1 T
1 n

Φ Φ = mij =  ∑ φi (x k )φ j (x k ) ,
n
 n k =1

si ottiene
w0 =
1


T
−1 1
Φ T y  = y − m0T w
 y − m0 M
−1
n
1 − m M m0 

T
0
1

w = M −1  Φ T y − m0 w0  .
n

Da queste soluzioni è possibile ricavare direttamente i pesi dei minimi
quadrati penalizzati derivanti dalla minimizzazione della (2) andando a
sostituire alla matrice M-1 la matrice Zα
α

Zα =  M +
n

−1
α

1
I  =  ΦT Φ +
n

n
−1

I .

Sempre considerando il rischio empirico (1) o la (2) è infine possibile
individuare il valore ottimale per il fattore di proporzionalità σ. Questo
conduce a una minimizzazione che porta ad aggiungere al precedente
sistema delle equazioni normali utilizzato per ottenere w0 e w, la derivata
del rischio rispetto a σ
6
dI emp ( f )
dσ
dΦ
= −2 w
dσ
T
T
( y − w0 − Φw ) = 0 .
Tenendo conto che
1  x k − µ i
 dΦ 
=
3
 dσ 
τ i2

 ki σ 
2


 exp − x k − µ i


2σ 2τ i2


2




si ottiene la seguente equazione che risolta numericamente individua il
valore di σ dei minimi quadrati:
 xk − µi
wi 
∑∑

τ i2
i =1 k =1

s
2
n


 exp − x k − µ i


2σ 2τ i2



 ⋅ ( y − y (x )) = 0 .
 k RBF k k

2
(4)
4. Matrice dei momenti fra le basi radiali
Nel calcolo della soluzione dei pesi di una rete RBF, un ruolo centrale è
svolto dalla matrice M dei momenti campionari tra le basi radiali. Quando si
utilizzano basi radiali con nucleo gaussiano i singoli momenti misti mij sono
dati da


1 n
1 n
1  xk − µi

mij = ∑ φ i (x k )φ j (x k ) = ∑ exp − 
 2  σ i2
n k =1
n k =1


2
+
xk − µ j
σ 2j
2


 .

Ricordando che lo stimatore kernel con nucleo gaussiano di una generica
funzione di densità è
1 n
g σ (x ) = ∑
n k =1
1
^
(
2π σ
)
d
 1 x − xk
exp −
 2 σ2

2




e che vale l’identità
x − µi
σ i2
con
µγ =
2
+
x−µj
σ 2j
2
=
σ 2j µ i + σ i2 µ j
σ i2 + σ 2j
x − µγ
σ γ2
2
+
µi − µ j
2
σ i2 + σ 2j
−1
e
 1 1 
τ i2τ 2j
2


σ = 2 + 2 =σ 2 2
σ σ j 
τ i +τ j
 i

2
γ
7
si può esprimere il valore assunto da mij in funzione della stima kernel della
densità g(x) calcolata in particolari punti di X. Infatti
2

 1 µi − µ j
mij = exp −
2
2
 2 σi +σ j





(
2π σ γ
)
d
n
∑
n
k =1
(
1
2π σ γ
)
d

 1 µγ − x k
exp −
2
 2 σγ

2




e quindi
mij =
(
2π σ γ
)
d
2


 1 µi − µ j  ^
exp −
g σ (µγ )
2
2
 2 σ i + σ j  γ


(5)
con µγ e σγ definite come in precedenza. Dalla (5) si possono ricavare gli
elementi posti sulla diagonale principale della matrice dei momenti che
hanno espressione
d
 π  ^
mii = 
σ i  g σ i
2


2
(µ i ) .
Si nota quindi che i valori lungo la diagonale principale di M sono
proporzionali alla stima di densità calcolata nei corrispondenti centri con
fattori di proporzionalità determinati dai σi le ampiezze dei vari nuclei φi.
Fuori dalla diagonale invece il valore dei momenti decresce in maniera
esponenziale al crescere della distanza tra i vari centri. In maniera analoga
anche le medie campionarie delle basi radiali, mi0 raccolte nel vettore m0, si
possono mettere in relazione alla stima kernel della funzione di densità
valutata nei centri µi ottenendo
mi 0 =
1 n
∑ φ i (x k ) =
n k =1
(
2π σ i
)
d ^
g σ i (µ i ) .
(6)
Ricavata l’espressione dei momenti campionari delle basi radiali si cercherà
ora di evidenziare alcune proprietà della matrice M. Questa matrice è per
costruzione irriducibile, definita positiva e tutti i suoi elementi mij risultano
strettamente compresi tra zero e uno. Da queste osservazioni è possibile
trarre una serie di proprietà riguardanti la matrice dei momenti.
Disuguaglianze elementari
mij2 ≤ mii mjj (disuguaglianza di Cauchy- Schwartz),
mij ≤ min [mi0, mj0],
8
Autovalori di M
Per le proprietà delle matrici definite positive tutti gli s autovalori di M
{λ1≥λ2≥…≥λs} sono reali e maggiori di zero e inoltre risultano verificate le
disuguaglianze (Catalani (1989) p.84):
λ s < min mii < max mii < λ1
i
i
Limitazione del determinante
Per il determinante di M valgono le seguenti disuguaglianze:
 s
0 < 
−1
 tr M
[ ]
s
s

 < det (M ) < ∏ mii < min mii < 1 .
i
i =1

s
Dimostrazione: det (M ) < ∏ mii è una proprietà delle matrici definite
i =1
s
positive (Magnus et al (1999) p.24), mentre 0 <  s −1  < det (M ) discende
 tr [M ]
direttamente dalla proprietà di monotonia delle medie potenziate applicata
alla media armonica e geometrica degli autovalori di M.
Raggio spettrale e norma di M
Poiché M è una matrice a elementi tutti positivi per il teorema di PerronFrobenius (Barozzi et al (1985) p.613 e p.619) λ1 è strettamente maggiore di
tutti gli altri autovalori e l’autovettore ad esso associato ha componenti tutte
strettamente positive. Da questo teorema λ1 coincide con il raggio spettrale
di M e si osserva che risulta univocamente determinato dal fattore di
proporzionalità σ utilizzato nella (3). Infatti è facile calcolare che
dmij
dσ
> 0 , e inoltre lim mij = 1 e lim mij = 0 .
σ →∞
σ →0
Indicando con u1i la i-esima componente dell’autovettore normalizzato di M
associato a λ1 da Magnus et al (1999) p.180 si ha
dλ1
= u1i ⋅ u1 j
dmij
s
dλ1
dmij si ottiene infine
j =1 dm ij
s
che quindi è sempre positiva e da dλ1 = ∑∑
i =1
9
s
s
dλ1
dλ dmij
= ∑∑ 1
>0.
dσ i =1 j =1 dmij dσ
concludendo che il raggio spettrale di M è in corrispondenza biunivoca con
σ. Ricordando sempre da Perron-Frobenius che
s
s
min ∑ mij < λ1 < max ∑ mij ,
i
i
j =1
j =1
si ricavano facilmente da lim mij = 1 e lim mij = 0 i limiti agli estremi di λ1,
σ →∞
σ →0
lim λ1 = s e lim λ1 = 0 . È infine possibile individuare delle condizioni su σ
σ →∞
σ →0
che siano sufficienti a garantire una ampiezza prefissata del raggio spettrale.
Ad esempio è noto che una soglia importante per λ1 è l’unità. Il diretto
utilizzo di Perron Frobenius suggerisce come condizione sufficiente per non
oltrepassare tale soglia che σ sia assegnato in modo da rispettare la
s
disuguaglianza ∑ m < 1 per ogni riga i, ovvero tenendo presente
ij
j =1
l’espressione (5) dei singoli momenti:
d
2

 σ 2π τ
 ^
1 µi − µ j

j


g (µ γ )exp −
∑
2
2
2

2
2 
 σγ
 2σ τ i + τ j
j =1  1 + (τ
τ
)
j
i



s

 .
 <1


La limitazione del raggio spettrale a meno dell’unità produce effetti sulla
norma della matrice M definita come:
(
)
M = tr M T M .
Se tutti gli autovalori sono compresi tra 0 e 1 vale infatti la disuguaglianza:
tr (M )
< M < s.
s
Per quanto riguarda il lato destro della disuguaglianza si ha che
( )
M = tr M 2 =
s
∑ λi2 <
i =1
s
∑λ
i =1
i
< s , mentre il lato sinistro vale per
qualsiasi matrice simmetrica e si ricava dalle proprietà delle medie
potenziate applicate agli autovalori di M. Si noti inoltre come la
disuguaglianza M < s vale anche solo se si verifica:
s
∑m
j =1
2
ij
< m ii
10
in quanto
tr (M 2 ) =
s
s
∑∑ m
i =1 j =1
dmij
dσ
> 0 e M = tr (M 2 ) =
2
ij
s
e quindi M <
s
∑m
i =1
s
∑∑ m
i =1 j =1
2
ij
< s . Infine da mij>0,
ii
si osserva chiaramente che anche M
è in corrispondenza biunivoca con σ e conseguentemente con λ1.
5. Inversione della matrice dei momenti
Nella determinazione dei pesi della rete RBF la matrice dei momenti M è
coinvolta attraverso la sua inversa M-1 che nel caso di weight decay si può
generalizzare nella matrice
−1
−1
α 
α 
1

Z α =  M + I  =  Φ T Φ + I  = n Φ T Φ + αI
n 
n 
n

(
)
−1
.
Non è possibile invertire esplicitamente la matrice M anche se di questa se
ne conosce l’espressione di ogni elemento. È tuttavia possibile utilizzare M
per calcolare in corrispondenza della matrice (1-α/n)I il polinomio di
Taylor, pr(M), di Zα e quindi di M-1. Si ha infatti che
−1
j
r
  α 

 α 

 α 

Zα =  I −  1 −  I − M   = ∑  1 −  I − M  + o 1 −  I − M 
n
j =0  


 n 

  n 
r
In base ai risultati dei precedenti paragrafi se σ è tale da rendere il raggio
r
spettrale di M minore di 2-(α/n), il termine o 1 − α  I − M  risulta essere
n


r

matrice infinitesima di ordine superiore a [(1-α/n)I – M] concludendo che
Zα può essere approssimata per ogni M dal suo polinomio di Taylor di
grado r:
j
 α 

Zα ≅ pr (M ) = ∑  1 −  I − M  .
n
j =0  

r
Il polinomio pr(M) è calcolato secondo i seguenti passaggi:
j
j −i
j 
r

 j  α 
 α 

i

pr (M ) = ∑  1 −  I − M  = ∑∑  1 −  (− 1) M i  =


n
n
j =0  
j = 0 i = 0   i 


r
11
 k  α 
= ∑ (− 1) M ∑  1 − 
n
j =0
k = j  j 
r
j
j
r
k− j
r
= ∑ (− 1) b j M j .
j
j =0
Ricordando risultati del calcolo combinatorio (Dall’Aglio (2000) p.76), se si
utilizza il weigth decay per i coefficienti bj valgono le disuguaglianze
 k  α 
b j = ∑  1 − 
n
k = j  j 
r
k− j
 r +1
 ;
< 
r − j
mentre nel caso che il polinomio si riferisca a M-1 si ha esattamente che
 r +1

b j = 
r − j
e quindi
r
j  r +1
M j .
M −1 ≅ ∑ (− 1) 
j =0
r − j
Questa approssimazione ha il pregio di esprimere la matrice inversa di M
attraverso sue potenze; è però necessario aggiungere che il polinomio
converge alla matrice M-1 tanto più velocemente quanto più gli autovalori λi
sono prossimi a 1. Quando l’autovalore massimo di M, λ1, è maggiore di 2
la precedente formula può essere ancora utilizzata avendo l’accortezza di
1
riferirla alla matrice
M anziché a M. In questo caso si ha
λ1
M
−1
1
≅
λ1
r + 1  1 
 M 
(− 1) 
∑
j =0
 r − j  λ1 
r
j
j
che costituisce quindi una formula valida in generale. Considerando infine
la matrice di dispersione delle stime dei pesi w0 e wi, V, partizionata come
1
V=
m0


−1
− m0T M −1
T
−1
m
m
−
1
M
T
0
0


T
−1
m0 
1 − m0 M m0


=

−1
M −1m0 m0T M −1 
M
 − M m0
−1
M +
 1 − mT M −1m
1 − m0T M −1m0 
0
0

−1
(
)
(
(
)
)
(
)
è possibile dedurre che m0T M-1 m0 < 1 in quanto (1 - m0T M-1 m0)-1 è una
varianza.
12
6. Reti RBF e stimatori kernel di Nadaraya-Watson
L’esplicitazione della struttura della matrice dei momenti data dalla (5) si
mostra utile per evidenziare il differente funzionamento tra reti RBF e
stimatori kernel di Nadaraya-Watson. L’espressione di una rete RBF con
nuclei gaussiani è infatti molto simile a quella dello stimatore di NadarayaWatson che utilizza gli stessi nuclei. Quest’ultimo è infatti definito come
 1 x − xk 2 

y k exp −
∑
2


2
σ
^
k =1

=
=
(
)
y
x
nw σ
2
n
 1 x − xk 

exp −
∑
2


2 σ
k =1


 1 x − xk
y k exp −
∑
 2 σ2
k =1

n
n
(
n 2π σ
)
2




d ^
g σ (x )
dove
1 n
g σ (x ) = ∑
n k =1
1
^
(
2π σ
)
d
 1 x − xk
exp −
 2 σ2

2




è lo stimatore kernel della densità g(x). Dalla sua definizione si nota che lo
stimatore di Nadaraya-Watson può essere interpretato come una rete RBF di
stretta interpolazione in cui i pesi wi sono posti pari ai valori della variabile
y osservati nel data set D e i nuclei utilizzati sono quelli gaussiani
normalizzati, ovvero tali che calcolati lungo le osservazioni disponibili di x
la loro somma dia uno. Al di là di questa somiglianza formale il
funzionamento dei due stimatori della funzione di regressione f0 è
profondamente differente. Per evidenziarlo ci si concentrerà sul ruolo svolto
da σ, fattore di proporzionalità delle basi radiali nella rete RBF e finestra di
uno stimatore kernel. Dalla formula precedente si ottiene
 1 x − xk
1 n
y k exp −
∑
 2 σ i2
n k =1

e quindi il vettore
2

=


(
2π σ i
)
d ^
^
g σ i (x )nw y σ i (x )
1 T
Φ y risulta esprimibile come
n
(
1 T

Φ y = diag  2π σ i
n

)
^
 ^
g σ i (µ i )⋅ nw y σ (µ ) = diag [m0 ]⋅ nw y σ (µ )

d ^
^
^
dove nw y σ (µ ) è un vettore le cui componenti sono date da nw y σ i (µ i ) ,
mentre con diag[.] si è indicata una matrice diagonale i cui elementi diversi
13
da zero sono raccolti nel vettore contenuto in parentesi, che nel caso in
questione è pari a m0 dalla (6). È quindi possibile mettere in diretta relazione
l’output di una rete RBF con quella di corrispondenti regressioni kernel.
Infatti operando nella soluzione dei pesi dei minimi quadrati la sostituzione:
(
1


M −1  ΦT y  = M −1diag  2π σ i

n

)
^
 ^
g σ i (µ i ) nw y σ (x ) = U −1 nw y σ (x )

d ^
con
(

U = diag  2π σ i

)
−1

g σ i (µ i ) ⋅ M ;

d ^
si ottiene
w0 =
^
1


T
−1
 y − m0 U ⋅nw y σ (x )
−1
1 − m M m0 

T
0
^
w = U −1 ⋅nw y σ (x ) − w0 M −1m0 .
Gli elementi di U fuori dalla diagonale principale sono dati da
2 

[U]ij =  1 + τ i2 
τj 

g σ γ (µγ )
−d ^
2


 1 µi − µ j 
exp
−
^
 2σ 2 τ 2 + τ 2 
j
i
g σ i (µ i )


mentre quelli sulla diagonale principale sono calcolati come
^
[U ]ii
d
 1  g σ i 2 (µ i ) .
= 
^
 2  g (µ )
i
σi
La teoria della regressione kernel prescrive che condizione necessaria
affinchè lo stimatore di Nadaraya-Watson sia consistente è che le finestre σi
tendano a zero all’aumentare della numerosità campionaria. Dalla relazione
fra rete RBF e lo stimatore kernel si osserva invece che l’applicazione di
questa prescrizione porta a pesanti distorsioni nella stima della rete RBF.
Infatti il limite di U-1 quando il fattore σ tende a zero è la matrice diagonale
^
2


µ
−
µ
g
1
i
j
2 (µ i )
σ


2 d I in quanto exp −
→ 1 . Nelle stesse
→ 0 e ^i
2
2
2 
 2σ τ i + τ j 
g σ i (µ i )


condizioni M-1m0 tende al vettore 2 d ⋅ 1 dove 1 è un vettore le cui
componenti sono tutte pari a uno. Infatti M −1m0 = M −1diag [m0 ]⋅ 1 = U −1 ⋅ 1 e
14
quindi per motivi analoghi ai precedenti si ha che lim M −1m0 = 2 d ⋅ 1 .
σ →0
Sfruttando questo risultato e il fatto che lim m0 = 0 si ottiene nelle stime dei
σ →0
minimi quadrati che lim w0 = y
σ →0
^
e lim wi = 2 d nw y σ (µ i ) − 2 d y . Se si
σ →0
i
assegnano a σ valori molto piccoli, si ha quindi che l’output della rete RBF
sarà pari a
s
^
 ^

lim RBF y σ (x ) = y + 2 d ∑ φ i (x ) nw y σ i (µ i ) − y  .
σ →0


i =1
In queste condizioni se la numerosità campionaria tende a essere elevata e
poiché φi(x=µi) = 1 e φi(x≠µi) ≅ 0, la rete RBF fallisce di essere uno
stimatore puntualmente consistente in corrispondenza degli s centri µi in
quanto
^
nw y σ i (µ i ) → f 0 (µ i ) e conseguentemente
(
^
)
lim RBF y σ (µ i ) = y + 2 d ⋅ f 0 (µ i ) − y ≠ f 0 (µ i ) .
σ →0
Questa espressione suggerisce che al tendere di n all’infinito per essere
consistente la rete RBF non deve prevedere successioni di parametri σ2 che
tendono a zero con velocità superiore di quella di max min µ i − µ j
i
j
2
che, se
avviene, in genere è molto lenta. Risulta quindi evidente che l’attribuzione
ottimale di σ data dalla (4) porta a valori diversi da entrambi gli estremi 0 e
∞ in quanto, da lim mij = 1 e quindi lim M = 1 ⋅ 1T , anche quando σ assume
σ →∞
σ →∞
valori elevati la rete tende a essere totalmente inefficace.
8. Conclusioni
I risultati principali delle pagine precedenti sono stati ricavare l’espressione
dei momenti misti campionari fra le basi radiali, offrire una
approssimazione della inversa della matrice dei momenti e mostrare che a
differenza di quanto avviene con lo stimatore kernel di Nadaraya-Watson lo
stimatore RBF per essere consistente non deve far tendere a zero (se non
molto lentamente) le finestre σi dei nuclei utilizzati. Si è quindi mostrata
l’equivalenza tra il fattore di proporzionalità σ e il raggio spettrale e la
norma della matrice dei momenti. Questa equivalenza ha soprattutto un
interesse interpretativo. Sottolineare il legame del parametro σ con
particolari caratteristiche della matrice dei momenti intende essere un
15
contributo volto a comprendere meglio il suo ruolo all’interno dei
meccanismi di funzionamento dei modelli RBF e a considerare la
determinazione del suo valore ottimale alla luce di più articolati strumenti
teorici.
Bibliografia
Barozzi C. e Corradi (1985), Matematica per le scienze economiche e
statistiche, Il Mulino, Bologna.
Boracchi P. and Biganzoli E. (2002), Radial basis function neural networks
for the analysis of survival data, Metron, 60, 191-210
Catalani M. (1989), Teoria delle matrici, Giappichelli, Torino.
Dall’Aglio G. (2000), Calcolo delle probabilità, Zanichelli, Bologna.
Magnus J.R. and Neudecker H. (1999), Matrix differential calculus, Wiley,
Chinchester.
Mancuso D. (2001), Modelli eteroschedastici di serie storiche, tesi di
dottorato in statistica metodologica, Università degli studi di Trento.
Mancuso D. (2002), Proprietà di base delle reti neurali RBF, in Studi in
onore di Angelo Zanella, Frosini B.V., Magagnoli U. e Boari G. (a cura
di) (2002), 439-454, Vita e Pensiero, Milano.
Yee V. and Haykin S. (2001). Regularized radial basis function networks,
theory and applications. Wiley, New York.
16