UNIVERSITÀ CATTOLICA DEL SACRO CUORE ISTITUTO DI STATISTICA Diego MANCUSO Sulla matrice dei momenti tra le basi radiali di una rete neurale RBF Serie E.P. N. 116 - Luglio 2003 Finito di stampare nel mese di Luglio 2003 da MULTISERVER Srl …….. SULLA MATRICE DEI MOMENTI TRA LE BASI RADIALI DI UNA RETE NEURALE RBF Diego MANCUSO Riassunto Oggetto di questo studio è la matrice dei momenti campionari tra le basi di una rete neurale RBF. Viene calcolata l’espressione generale di ogni singolo momento e messo in luce come il raggio spettrale e la norma di questa matrice siano strettamente legati alla bontà dell’interpolazione della rete. Successivamente viene data una approssimazione della matrice inversa della matrice dei momenti e si evidenzia come per essere consistente lo stimatore RBF non deve far tendere a zero le finestre σi delle basi radiali utilizzate. 1. Introduzione Le reti neurali Radial Basis Function (RBF) sono modelli di regressione non parametrica meritevoli di interesse per almeno tre motivi. Il primo è che questi strumenti sembrano essere efficienti (nel senso dell’errore quadratico medio integrato) almeno quanto altri asintoticamente ottimali come quelli di tipo kernel. Questo risultato è mostrato in Yee et al (2001) con riferimento alle reti RBF di stretta interpolazione e si congettura estendibile anche alle reti RBF in generale. Il secondo è che essendo modelli lineari nei parametri sono utilizzabili con efficacia in contesti applicativi complessi permettendo l’estensione di procedure sviluppate nell’ambito della regressione lineare alla regressione non parametrica (Boracchi et al (2002) e Mancuso (2001)). Il terzo motivo è di carattere potenziale ed è legato al fatto che le reti RBF appartengono alla famiglia delle reti neurali feed-forward. Per diversi schemi di queste reti valgono risultati che violano la cosiddetta maledizione della dimensionalità e giustificano il loro utilizzo in presenza di un numero elevato di variabili esplicative. Non si esclude quindi che proprietà analoghe possano valere anche per le reti RBF ad assegnazione rapida, anche se bisogna aggiungere che nessun risultato in tal senso è stato ancora trovato. In questo studio si intende approfondire il funzionamento delle reti RBF conducendo un esame della matrice dei momenti fra le sue basi radiali. Tale matrice svolge un ruolo centrale nella stima dei parametri della rete e per 2 questo motivo si ritiene che la sua analisi sia utile per migliorare la comprensione dei modelli considerati. Il lavoro è organizzato come segue. Nei due paragrafi immediatamente successivi si presenteranno sinteticamente le reti RBF evidenziando i loro legami con la teoria della regolarizzazione. Nel paragrafo 4 si procederà ad analizzare la struttura della matrice dei momenti fra le basi radiali nel caso, consueto, di adozione del nucleo gaussiano. Il riferimento sarà alla matrice dei momenti campionari in quanto la struttura di quella stocastica è stata già esplicitata in Mancuso (2002). In particolare sarà data l’espressione di ogni singolo elemento e richiamate dall’algebra lineare le sue proprietà fondamentali. Nel paragrafo 5 si darà una approssimazione della inversa della matrice dei momenti valida in generale e che utilizza la matrice diretta precedentemente esplicitata. Infine nell’ultimo paragrafo si approfondisce il tema dell’assegnazione del fattore di proporzionalità utilizzato nella determinazione dell’ampiezza dei vari nuclei delle basi radiali. Questa assegnazione è legata alla matrice dei momenti in quanto equivalente al fissare sia il suo raggio spettrale che la sua norma. In particolare viene messo in evidenza come questo parametro svolga una funzione sostanzialmente diversa da quella della finestra della regressione kernel al quale formalmente corrisponde. 2. Modelli di rete neurale RBF Si consideri una variabile statistica y oggetto di interesse e un vettore x di d variabili dette regressori. Si indichi con (X,Y) l’insieme supporto di queste variabili e g(x,y) la densità di probabilità congiunta definita su (X,Y). Si assuma infine g(x,y) assolutamente continua e fattorizzabile nel prodotto della densità marginale di x per la condizionata di y, g(x,y) = g(x)g(y|x). Una rete neurale RBF è uno stimatore non parametrico della funzione di regressione f 0 (x ) = ∫ y ⋅ g ( y | x )dy , che risponde alla forma: Y s f (x ) = ∑ wiφ i ( x − µ i ) , i =1 dove ciascuna delle s funzioni φi(||x-µi||) sono dette basi radiali con centro i rispettivi vettori µi ∈ Rd, mentre ||.|| indica la comune norma euclidea. Quando ciascuno dei centri µi corrisponde alle osservazioni xi contenute in un data set D di n rilevazioni casuali delle (d+1) variabili unidimensionali x ey 3 { } D ≡ (x k , y k ) ∈ R d × R n k =1 si parla di reti RBF di stretta interpolazione: n f (x ) = ∑ wiφ i ( x − x i ) . i =1 Le reti RBF di stretta interpolazione sono strettamente collegate alla teoria della regolarizzazione per la quale costituiscono soluzioni di minimo del funzionale E(f): E( f ) = 1 n ( y k − f (x k ))2 + α ∫ Pf 2 dx ∑ n k =1 nX dove P è un qualche operatore differenziale applicato alla funzione f, mentre α viene detto parametro di regolarizzazione. Riportando da Yee et al (2001), quando si impone che f appartenga allo spazio di Hilbert delle funzioni rapidamente decrescenti derivabili infinite volte con continuità e sia P che il suo aggiunto formale P* sono scelti in maniera da soddisfare ∞ P*P = ∑ l =0 (− 1)l (∇ 2 )l U l!2 l n ∂ 2 u ij n con ∇ U2 ≡ ∑∑ i =1 j =1 ∂xi ∂x j , allora la minimizzazione di E(f) porta a basi radiali di nucleo gaussiano con matrice di precisione data da U = [uij]. Nel caso di U = (1/σ2) I , dove I è la matrice identità, infine si ottiene x − xi φ i ( x − x i ) = exp − 2σ 2 2 con 0 < σ ∈ R . Questa inquadramento valido per le reti RBF di stretta interpolazione giustifica l’utilizzo del nucleo gaussiano anche per le reti RBF in generale per le quali si può lasciare dipendere l’ampiezza σ dei nuclei φi(x) dalla base radiale e inserire una costante additiva w0: x − µi y (x ) = w0 + ∑ wi exp − 2 2σ i i =1 s RBF 2 . Il nucleo gaussiano è quello di più comune adozione nelle reti RBF e per tale motivo si utilizzerà nel proseguimento solo questo tipo di nucleo. 4 3. Stima dei parametri di una rete RBF Al pari di quanto avviene con altre reti neurali di tipo feed-forward, i parametri di una rete RBF sono determinati seguendo la minimizzazione del rischio empirico considerato con perdita quadratica e calcolato sulle osservazioni del data set D I emp ( f ) = 1 n ( y k − f (x k ))2 . ∑ n k =1 (1) Una opportuna variante del rischio empirico è quella in cui compare un termine di weight decay che nella versione più semplice modifica la (1) in: I wd ( f ) = s 1 n ( y k − f (x k ))2 + α ⋅ ∑ wi2 . ∑ n k =1 i =1 (2) Un modo per assegnare i parametri che trae diretta ispirazione dal funzionamento delle reti RBF di stretta interpolazione è costituita dalla attribuzione nota come rapida. Questa modalità di determinazione si compone di due passaggi distinti. Il primo consiste nel formare s gruppi nello spazio dei soli regressori applicando alle rilevazioni presenti nel data set algoritmi di cluster analysis come quello delle k-medie o quello delle reti neurali di Kohonen. I vettori µi sono identificati con i centri di questi gruppi, mentre i σi sono posti proporzionali ad una media delle distanze euclidee che separano i rispettivi vettori µi da tutti i rimanenti centri o dai soli p centri più vicini, ovvero σ i2 = σ 2 1 p (µ j − µ i )2 = σ 2 ⋅ τ i2 ∑ p j =1 (3) con p ≤ s e σ attribuito empiricamente dall’utilizzatore mediando gli aspetti di ottimizzazione con quelli di regolarità della stima. Calcolate in questo modo le basi radiali, i pesi wi sono ottenuti in maniera condizionata rispetto ai valori attribuiti alle coppie (µi, σi) in un unico secondo passaggio minimizzando il rischio empirico (1) oppure la (2). L’assegnazione rapida impiega un criterio ibrido per la determinazione dei parametri: non supervisionato per i parametri (µi, σi) riguardanti le basi radiali e dei minimi quadrati per quanto riguarda i pesi dello strato finale wi. Si noti come la minimizzazione della (2) porta all’assegnazione dei pesi w secondo i minimi quadrati penalizzati e quindi l’interpolazione eseguita da una rete RBF è interpretabile come una regressione ridge nello spazio delle basi radiali. Se 5 si raccolgono le attivazioni delle basi radiali lungo i valori osservati sui regressori nel data set nella matrice Φ x −µ Φ = [φ k ,i ] = exp − k 2 i (n, s ) 2σ i 2 e le corrispondenti medie campionarie di ciascuna base nel vettore m0, 1 n xk − µi m0 = [m0i ] = ∑ exp − 2σ i2 (1, s ) n k =1 2 è possibile impostare dal rischio empirico (1) il sistema delle equazioni normali ottenendo in maniera condizionata alle coppie (µi, σi) le stime dei minimi quadrati di w0 e dei wi, 1≤i≤s, questi ultimi raccolti nel vettore w. Indicando con y la media campionaria della variabile y, se si esprimono queste stime in termini delle medie campionarie m0 e dei momenti misti tra le basi radiali mij raccolti nella matrice M= [ ] 1 T 1 n Φ Φ = mij = ∑ φi (x k )φ j (x k ) , n n k =1 si ottiene w0 = 1 T −1 1 Φ T y = y − m0T w y − m0 M −1 n 1 − m M m0 T 0 1 w = M −1 Φ T y − m0 w0 . n Da queste soluzioni è possibile ricavare direttamente i pesi dei minimi quadrati penalizzati derivanti dalla minimizzazione della (2) andando a sostituire alla matrice M-1 la matrice Zα α Zα = M + n −1 α 1 I = ΦT Φ + n n −1 I . Sempre considerando il rischio empirico (1) o la (2) è infine possibile individuare il valore ottimale per il fattore di proporzionalità σ. Questo conduce a una minimizzazione che porta ad aggiungere al precedente sistema delle equazioni normali utilizzato per ottenere w0 e w, la derivata del rischio rispetto a σ 6 dI emp ( f ) dσ dΦ = −2 w dσ T T ( y − w0 − Φw ) = 0 . Tenendo conto che 1 x k − µ i dΦ = 3 dσ τ i2 ki σ 2 exp − x k − µ i 2σ 2τ i2 2 si ottiene la seguente equazione che risolta numericamente individua il valore di σ dei minimi quadrati: xk − µi wi ∑∑ τ i2 i =1 k =1 s 2 n exp − x k − µ i 2σ 2τ i2 ⋅ ( y − y (x )) = 0 . k RBF k k 2 (4) 4. Matrice dei momenti fra le basi radiali Nel calcolo della soluzione dei pesi di una rete RBF, un ruolo centrale è svolto dalla matrice M dei momenti campionari tra le basi radiali. Quando si utilizzano basi radiali con nucleo gaussiano i singoli momenti misti mij sono dati da 1 n 1 n 1 xk − µi mij = ∑ φ i (x k )φ j (x k ) = ∑ exp − 2 σ i2 n k =1 n k =1 2 + xk − µ j σ 2j 2 . Ricordando che lo stimatore kernel con nucleo gaussiano di una generica funzione di densità è 1 n g σ (x ) = ∑ n k =1 1 ^ ( 2π σ ) d 1 x − xk exp − 2 σ2 2 e che vale l’identità x − µi σ i2 con µγ = 2 + x−µj σ 2j 2 = σ 2j µ i + σ i2 µ j σ i2 + σ 2j x − µγ σ γ2 2 + µi − µ j 2 σ i2 + σ 2j −1 e 1 1 τ i2τ 2j 2 σ = 2 + 2 =σ 2 2 σ σ j τ i +τ j i 2 γ 7 si può esprimere il valore assunto da mij in funzione della stima kernel della densità g(x) calcolata in particolari punti di X. Infatti 2 1 µi − µ j mij = exp − 2 2 2 σi +σ j ( 2π σ γ ) d n ∑ n k =1 ( 1 2π σ γ ) d 1 µγ − x k exp − 2 2 σγ 2 e quindi mij = ( 2π σ γ ) d 2 1 µi − µ j ^ exp − g σ (µγ ) 2 2 2 σ i + σ j γ (5) con µγ e σγ definite come in precedenza. Dalla (5) si possono ricavare gli elementi posti sulla diagonale principale della matrice dei momenti che hanno espressione d π ^ mii = σ i g σ i 2 2 (µ i ) . Si nota quindi che i valori lungo la diagonale principale di M sono proporzionali alla stima di densità calcolata nei corrispondenti centri con fattori di proporzionalità determinati dai σi le ampiezze dei vari nuclei φi. Fuori dalla diagonale invece il valore dei momenti decresce in maniera esponenziale al crescere della distanza tra i vari centri. In maniera analoga anche le medie campionarie delle basi radiali, mi0 raccolte nel vettore m0, si possono mettere in relazione alla stima kernel della funzione di densità valutata nei centri µi ottenendo mi 0 = 1 n ∑ φ i (x k ) = n k =1 ( 2π σ i ) d ^ g σ i (µ i ) . (6) Ricavata l’espressione dei momenti campionari delle basi radiali si cercherà ora di evidenziare alcune proprietà della matrice M. Questa matrice è per costruzione irriducibile, definita positiva e tutti i suoi elementi mij risultano strettamente compresi tra zero e uno. Da queste osservazioni è possibile trarre una serie di proprietà riguardanti la matrice dei momenti. Disuguaglianze elementari mij2 ≤ mii mjj (disuguaglianza di Cauchy- Schwartz), mij ≤ min [mi0, mj0], 8 Autovalori di M Per le proprietà delle matrici definite positive tutti gli s autovalori di M {λ1≥λ2≥…≥λs} sono reali e maggiori di zero e inoltre risultano verificate le disuguaglianze (Catalani (1989) p.84): λ s < min mii < max mii < λ1 i i Limitazione del determinante Per il determinante di M valgono le seguenti disuguaglianze: s 0 < −1 tr M [ ] s s < det (M ) < ∏ mii < min mii < 1 . i i =1 s Dimostrazione: det (M ) < ∏ mii è una proprietà delle matrici definite i =1 s positive (Magnus et al (1999) p.24), mentre 0 < s −1 < det (M ) discende tr [M ] direttamente dalla proprietà di monotonia delle medie potenziate applicata alla media armonica e geometrica degli autovalori di M. Raggio spettrale e norma di M Poiché M è una matrice a elementi tutti positivi per il teorema di PerronFrobenius (Barozzi et al (1985) p.613 e p.619) λ1 è strettamente maggiore di tutti gli altri autovalori e l’autovettore ad esso associato ha componenti tutte strettamente positive. Da questo teorema λ1 coincide con il raggio spettrale di M e si osserva che risulta univocamente determinato dal fattore di proporzionalità σ utilizzato nella (3). Infatti è facile calcolare che dmij dσ > 0 , e inoltre lim mij = 1 e lim mij = 0 . σ →∞ σ →0 Indicando con u1i la i-esima componente dell’autovettore normalizzato di M associato a λ1 da Magnus et al (1999) p.180 si ha dλ1 = u1i ⋅ u1 j dmij s dλ1 dmij si ottiene infine j =1 dm ij s che quindi è sempre positiva e da dλ1 = ∑∑ i =1 9 s s dλ1 dλ dmij = ∑∑ 1 >0. dσ i =1 j =1 dmij dσ concludendo che il raggio spettrale di M è in corrispondenza biunivoca con σ. Ricordando sempre da Perron-Frobenius che s s min ∑ mij < λ1 < max ∑ mij , i i j =1 j =1 si ricavano facilmente da lim mij = 1 e lim mij = 0 i limiti agli estremi di λ1, σ →∞ σ →0 lim λ1 = s e lim λ1 = 0 . È infine possibile individuare delle condizioni su σ σ →∞ σ →0 che siano sufficienti a garantire una ampiezza prefissata del raggio spettrale. Ad esempio è noto che una soglia importante per λ1 è l’unità. Il diretto utilizzo di Perron Frobenius suggerisce come condizione sufficiente per non oltrepassare tale soglia che σ sia assegnato in modo da rispettare la s disuguaglianza ∑ m < 1 per ogni riga i, ovvero tenendo presente ij j =1 l’espressione (5) dei singoli momenti: d 2 σ 2π τ ^ 1 µi − µ j j g (µ γ )exp − ∑ 2 2 2 2 2 σγ 2σ τ i + τ j j =1 1 + (τ τ ) j i s . <1 La limitazione del raggio spettrale a meno dell’unità produce effetti sulla norma della matrice M definita come: ( ) M = tr M T M . Se tutti gli autovalori sono compresi tra 0 e 1 vale infatti la disuguaglianza: tr (M ) < M < s. s Per quanto riguarda il lato destro della disuguaglianza si ha che ( ) M = tr M 2 = s ∑ λi2 < i =1 s ∑λ i =1 i < s , mentre il lato sinistro vale per qualsiasi matrice simmetrica e si ricava dalle proprietà delle medie potenziate applicate agli autovalori di M. Si noti inoltre come la disuguaglianza M < s vale anche solo se si verifica: s ∑m j =1 2 ij < m ii 10 in quanto tr (M 2 ) = s s ∑∑ m i =1 j =1 dmij dσ > 0 e M = tr (M 2 ) = 2 ij s e quindi M < s ∑m i =1 s ∑∑ m i =1 j =1 2 ij < s . Infine da mij>0, ii si osserva chiaramente che anche M è in corrispondenza biunivoca con σ e conseguentemente con λ1. 5. Inversione della matrice dei momenti Nella determinazione dei pesi della rete RBF la matrice dei momenti M è coinvolta attraverso la sua inversa M-1 che nel caso di weight decay si può generalizzare nella matrice −1 −1 α α 1 Z α = M + I = Φ T Φ + I = n Φ T Φ + αI n n n ( ) −1 . Non è possibile invertire esplicitamente la matrice M anche se di questa se ne conosce l’espressione di ogni elemento. È tuttavia possibile utilizzare M per calcolare in corrispondenza della matrice (1-α/n)I il polinomio di Taylor, pr(M), di Zα e quindi di M-1. Si ha infatti che −1 j r α α α Zα = I − 1 − I − M = ∑ 1 − I − M + o 1 − I − M n j =0 n n r In base ai risultati dei precedenti paragrafi se σ è tale da rendere il raggio r spettrale di M minore di 2-(α/n), il termine o 1 − α I − M risulta essere n r matrice infinitesima di ordine superiore a [(1-α/n)I – M] concludendo che Zα può essere approssimata per ogni M dal suo polinomio di Taylor di grado r: j α Zα ≅ pr (M ) = ∑ 1 − I − M . n j =0 r Il polinomio pr(M) è calcolato secondo i seguenti passaggi: j j −i j r j α α i pr (M ) = ∑ 1 − I − M = ∑∑ 1 − (− 1) M i = n n j =0 j = 0 i = 0 i r 11 k α = ∑ (− 1) M ∑ 1 − n j =0 k = j j r j j r k− j r = ∑ (− 1) b j M j . j j =0 Ricordando risultati del calcolo combinatorio (Dall’Aglio (2000) p.76), se si utilizza il weigth decay per i coefficienti bj valgono le disuguaglianze k α b j = ∑ 1 − n k = j j r k− j r +1 ; < r − j mentre nel caso che il polinomio si riferisca a M-1 si ha esattamente che r +1 b j = r − j e quindi r j r +1 M j . M −1 ≅ ∑ (− 1) j =0 r − j Questa approssimazione ha il pregio di esprimere la matrice inversa di M attraverso sue potenze; è però necessario aggiungere che il polinomio converge alla matrice M-1 tanto più velocemente quanto più gli autovalori λi sono prossimi a 1. Quando l’autovalore massimo di M, λ1, è maggiore di 2 la precedente formula può essere ancora utilizzata avendo l’accortezza di 1 riferirla alla matrice M anziché a M. In questo caso si ha λ1 M −1 1 ≅ λ1 r + 1 1 M (− 1) ∑ j =0 r − j λ1 r j j che costituisce quindi una formula valida in generale. Considerando infine la matrice di dispersione delle stime dei pesi w0 e wi, V, partizionata come 1 V= m0 −1 − m0T M −1 T −1 m m − 1 M T 0 0 T −1 m0 1 − m0 M m0 = −1 M −1m0 m0T M −1 M − M m0 −1 M + 1 − mT M −1m 1 − m0T M −1m0 0 0 −1 ( ) ( ( ) ) ( ) è possibile dedurre che m0T M-1 m0 < 1 in quanto (1 - m0T M-1 m0)-1 è una varianza. 12 6. Reti RBF e stimatori kernel di Nadaraya-Watson L’esplicitazione della struttura della matrice dei momenti data dalla (5) si mostra utile per evidenziare il differente funzionamento tra reti RBF e stimatori kernel di Nadaraya-Watson. L’espressione di una rete RBF con nuclei gaussiani è infatti molto simile a quella dello stimatore di NadarayaWatson che utilizza gli stessi nuclei. Quest’ultimo è infatti definito come 1 x − xk 2 y k exp − ∑ 2 2 σ ^ k =1 = = ( ) y x nw σ 2 n 1 x − xk exp − ∑ 2 2 σ k =1 1 x − xk y k exp − ∑ 2 σ2 k =1 n n ( n 2π σ ) 2 d ^ g σ (x ) dove 1 n g σ (x ) = ∑ n k =1 1 ^ ( 2π σ ) d 1 x − xk exp − 2 σ2 2 è lo stimatore kernel della densità g(x). Dalla sua definizione si nota che lo stimatore di Nadaraya-Watson può essere interpretato come una rete RBF di stretta interpolazione in cui i pesi wi sono posti pari ai valori della variabile y osservati nel data set D e i nuclei utilizzati sono quelli gaussiani normalizzati, ovvero tali che calcolati lungo le osservazioni disponibili di x la loro somma dia uno. Al di là di questa somiglianza formale il funzionamento dei due stimatori della funzione di regressione f0 è profondamente differente. Per evidenziarlo ci si concentrerà sul ruolo svolto da σ, fattore di proporzionalità delle basi radiali nella rete RBF e finestra di uno stimatore kernel. Dalla formula precedente si ottiene 1 x − xk 1 n y k exp − ∑ 2 σ i2 n k =1 e quindi il vettore 2 = ( 2π σ i ) d ^ ^ g σ i (x )nw y σ i (x ) 1 T Φ y risulta esprimibile come n ( 1 T Φ y = diag 2π σ i n ) ^ ^ g σ i (µ i )⋅ nw y σ (µ ) = diag [m0 ]⋅ nw y σ (µ ) d ^ ^ ^ dove nw y σ (µ ) è un vettore le cui componenti sono date da nw y σ i (µ i ) , mentre con diag[.] si è indicata una matrice diagonale i cui elementi diversi 13 da zero sono raccolti nel vettore contenuto in parentesi, che nel caso in questione è pari a m0 dalla (6). È quindi possibile mettere in diretta relazione l’output di una rete RBF con quella di corrispondenti regressioni kernel. Infatti operando nella soluzione dei pesi dei minimi quadrati la sostituzione: ( 1 M −1 ΦT y = M −1diag 2π σ i n ) ^ ^ g σ i (µ i ) nw y σ (x ) = U −1 nw y σ (x ) d ^ con ( U = diag 2π σ i ) −1 g σ i (µ i ) ⋅ M ; d ^ si ottiene w0 = ^ 1 T −1 y − m0 U ⋅nw y σ (x ) −1 1 − m M m0 T 0 ^ w = U −1 ⋅nw y σ (x ) − w0 M −1m0 . Gli elementi di U fuori dalla diagonale principale sono dati da 2 [U]ij = 1 + τ i2 τj g σ γ (µγ ) −d ^ 2 1 µi − µ j exp − ^ 2σ 2 τ 2 + τ 2 j i g σ i (µ i ) mentre quelli sulla diagonale principale sono calcolati come ^ [U ]ii d 1 g σ i 2 (µ i ) . = ^ 2 g (µ ) i σi La teoria della regressione kernel prescrive che condizione necessaria affinchè lo stimatore di Nadaraya-Watson sia consistente è che le finestre σi tendano a zero all’aumentare della numerosità campionaria. Dalla relazione fra rete RBF e lo stimatore kernel si osserva invece che l’applicazione di questa prescrizione porta a pesanti distorsioni nella stima della rete RBF. Infatti il limite di U-1 quando il fattore σ tende a zero è la matrice diagonale ^ 2 µ − µ g 1 i j 2 (µ i ) σ 2 d I in quanto exp − → 1 . Nelle stesse → 0 e ^i 2 2 2 2σ τ i + τ j g σ i (µ i ) condizioni M-1m0 tende al vettore 2 d ⋅ 1 dove 1 è un vettore le cui componenti sono tutte pari a uno. Infatti M −1m0 = M −1diag [m0 ]⋅ 1 = U −1 ⋅ 1 e 14 quindi per motivi analoghi ai precedenti si ha che lim M −1m0 = 2 d ⋅ 1 . σ →0 Sfruttando questo risultato e il fatto che lim m0 = 0 si ottiene nelle stime dei σ →0 minimi quadrati che lim w0 = y σ →0 ^ e lim wi = 2 d nw y σ (µ i ) − 2 d y . Se si σ →0 i assegnano a σ valori molto piccoli, si ha quindi che l’output della rete RBF sarà pari a s ^ ^ lim RBF y σ (x ) = y + 2 d ∑ φ i (x ) nw y σ i (µ i ) − y . σ →0 i =1 In queste condizioni se la numerosità campionaria tende a essere elevata e poiché φi(x=µi) = 1 e φi(x≠µi) ≅ 0, la rete RBF fallisce di essere uno stimatore puntualmente consistente in corrispondenza degli s centri µi in quanto ^ nw y σ i (µ i ) → f 0 (µ i ) e conseguentemente ( ^ ) lim RBF y σ (µ i ) = y + 2 d ⋅ f 0 (µ i ) − y ≠ f 0 (µ i ) . σ →0 Questa espressione suggerisce che al tendere di n all’infinito per essere consistente la rete RBF non deve prevedere successioni di parametri σ2 che tendono a zero con velocità superiore di quella di max min µ i − µ j i j 2 che, se avviene, in genere è molto lenta. Risulta quindi evidente che l’attribuzione ottimale di σ data dalla (4) porta a valori diversi da entrambi gli estremi 0 e ∞ in quanto, da lim mij = 1 e quindi lim M = 1 ⋅ 1T , anche quando σ assume σ →∞ σ →∞ valori elevati la rete tende a essere totalmente inefficace. 8. Conclusioni I risultati principali delle pagine precedenti sono stati ricavare l’espressione dei momenti misti campionari fra le basi radiali, offrire una approssimazione della inversa della matrice dei momenti e mostrare che a differenza di quanto avviene con lo stimatore kernel di Nadaraya-Watson lo stimatore RBF per essere consistente non deve far tendere a zero (se non molto lentamente) le finestre σi dei nuclei utilizzati. Si è quindi mostrata l’equivalenza tra il fattore di proporzionalità σ e il raggio spettrale e la norma della matrice dei momenti. Questa equivalenza ha soprattutto un interesse interpretativo. Sottolineare il legame del parametro σ con particolari caratteristiche della matrice dei momenti intende essere un 15 contributo volto a comprendere meglio il suo ruolo all’interno dei meccanismi di funzionamento dei modelli RBF e a considerare la determinazione del suo valore ottimale alla luce di più articolati strumenti teorici. Bibliografia Barozzi C. e Corradi (1985), Matematica per le scienze economiche e statistiche, Il Mulino, Bologna. Boracchi P. and Biganzoli E. (2002), Radial basis function neural networks for the analysis of survival data, Metron, 60, 191-210 Catalani M. (1989), Teoria delle matrici, Giappichelli, Torino. Dall’Aglio G. (2000), Calcolo delle probabilità, Zanichelli, Bologna. Magnus J.R. and Neudecker H. (1999), Matrix differential calculus, Wiley, Chinchester. Mancuso D. (2001), Modelli eteroschedastici di serie storiche, tesi di dottorato in statistica metodologica, Università degli studi di Trento. Mancuso D. (2002), Proprietà di base delle reti neurali RBF, in Studi in onore di Angelo Zanella, Frosini B.V., Magagnoli U. e Boari G. (a cura di) (2002), 439-454, Vita e Pensiero, Milano. Yee V. and Haykin S. (2001). Regularized radial basis function networks, theory and applications. Wiley, New York. 16