teorema di mercer

UNIVERSITÀ DEGLI STUDI DI GENOVA
FACOLTÀ DI SCIENZE MATEMATICHE,
FISICHE E NATURALI
CORSO DI LAUREA IN MATEMATICA
ANNO ACCADEMICO 2009-2010
SPAZI DI HILBERT A NUCLEO
RIPRODUCENTE:
TEOREMA DI MERCER
CANDIDATO
Ilaria Giulini
RELATORE
Prof. Emanuela Sasso
Prof. Ernesto De Vito
CORRELATORE
Prof. Giancarlo Mauceri
1
Indice
1. Introduzione
2. Spazi di Hilbert a nucleo riproducente
3. Feature map
4. Teorema di Mercer
5. Applicazione
6. Appendice
6.1. Spazi di Hilbert
6.2. Operatori su spazi di Hilbert
6.3. Operatori di Hilbert-Schmidt
Riferimenti bibliografici
2
4
11
19
31
40
40
44
47
49
2
1. Introduzione
L’argomento di questa tesi è lo studio degli spazi di Hilbert a nucleo
riproducente.
Uno spazio di Hilbert a nucleo riproducente è uno spazio di Hilbert
di funzioni su un insieme X in cui la convergenza in norma di una
successione di funzioni implica la convergenza puntuale. Questa proprietà rende particolarmente utili tali spazi in tutte le applicazioni
in cui è necessario valutare una funzione in punti assegnati, quali ad
esempio i problemi di interpolazione. Questi spazi sono univocamente
determinati da un kernel di tipo positivo.
In particolare in questa tesi tratteremo il caso in cui il kernel associato
è una funzione continua. In queste ipotesi si colloca il Teorema di
Mercer, dimostrato per la prima volta da Mercer nel 1909, nel caso
dell’insieme X = [0, 1] con la misura di Lebesgue.
Tale teorema consente di scrivere il kernel di uno spazio di Hilbert a
nucleo riproducente in termini degli autovalori di un operatore positivo,
autoaggiunto e compatto.
Come applicazione del Teorema di Mercer nell’ambito della probabilità,
abbiamo considerato il problema del riconoscimento delle immagini.
Supponiamo di avere un certo numero n di immagini di uno stesso soggetto. Vogliamo poter stabilire se un’ulteriore nuova immagine
rappresenta ancora lo stesso soggetto.
A ogni immagine vengono associate delle coordinate, in generale in
uno spazio di dimensione molto più grande rispetto alla numerosità del
campione di partenza. Tuttavia è ragionevole supporre che le immagini
vivano in un insieme Y di dimensionalità più bassa.
Per modellizzare tale situazione si ipotizza che le immagini del soggetto siano campionate indipendentemente in accordo con una misura di
probabilità µ il cui supporto è Y.
Si cerca pertanto una funzione F, continua, che sia nulla solo sul supporto di µ. L’insieme di livello zero di tale funzione è quindi l’insieme
delle immagini campione.
La nuova immagine, quindi, rappresenta il soggetto solo se F (x) = 0.
Tuttavia µ è nota solo attraverso gli esempi, perciò si determina una
successione di variabili aleatorie Fn , dipendenti dagli esempi, che converge a tale funzione F, in un opportuno senso, come mostrato in
Sezione 5.
La tesi è organizzata come segue.
Nella prima sezione introduciamo le definizioni e le proprietà fondamentali sugli spazi di Hilbert a nucleo riproducente e fissiamo la notazione
3
che useremo in seguito e presentiamo alcuni esempi.
Nella Sezione 3 diamo un modo alternativo per definire uno spazio di
Hilbert a nucleo riproducente tramite la definizione di feature map.
Nella Sezione 4 consideriamo il caso particolare di kernel continui e, in
questo contesto, dimostriamo il Teorema di Mercer.
La Sezione 5 è dedicata all’applicazione del Teorema di Mercer al
problema del riconoscimento delle immagini.
L’Appendice contiene alcuni risultati di base di analisi funzionale e teoria degli operatori sugli spazi di Hilbert, riportati senza dimostrazione.
4
2. Spazi di Hilbert a nucleo riproducente
In questa sezione introduciamo gli spazi di Hilbert a nucleo riproducente.
Definizione 1. Dato un insieme X, uno spazio di Hilbert (reale) a
nucleo riproducente su X è un insieme K che soddisfa le seguenti
proprietà:
a) gli elementi di K sono funzioni reali definite su X;
b) K è uno spazio vettoriale rispetto alle usuali operazioni tra funzioni,
di somma e moltiplicazione per scalare;
c) K è dotato di prodotto scalare h·, ·iK che lo rende uno spazio di
Hilbert;
d) (proprietà riproducente) per ogni x ∈ X esiste Kx ∈ K tale che per
ogni f ∈ K vale
(1)
f (x) = hf, Kx iK .
La funzione K : X × X → R definita da
(2)
K(x, x0 ) = hKx0 , Kx iK
è detta kernel riproducente.
Le proprietà a) e b) equivalgono al fatto che K è un sottospazio vettoriale dello spazio vettoriale RX di tutte le funzioni da X in R, con le
usuali operazioni.
Il seguente lemma fornisce alcune caratterizzazioni equivalenti alla proprietà riproducente d).
Lemma 1. Sia K un insieme che soddisfa le proprietà a), b), c) della definizione precedente. La proprietà d) è equivalente alle seguenti
condizioni:
d’) per ogni x ∈ X esiste una costante positiva Cx tale che
|f (x)| ≤ Cx ||f ||K ;
d”) se (fn )n≥1 è una successione che converge a f in K, allora fn
converge ad f puntualmente su X.
Se una delle condizioni è soddisfatta allora Kx per cui vale (1) è unico
e di conseguenza anche il kernel riproducente K è unico.
Dimostrazione. Mostriamo che valgono le seguenti implicazioni: d’)
⇒ d”) ⇒ d) ⇒ d’)
d’) ⇒ d”). Sia (fn )n una successione che converge a f in K. Per ipotesi
si ha che per ogni x ∈ X
5
|fn (x) − f (x)| ≤ Cx ||fn − f ||K −→ 0 per n → ∞
e quindi la successione (fn ) converge puntualmente a f su X, ossia è
soddisfatta d”).
d”) ⇒ d). Fissato x ∈ X, si consideri l’operatore lineare Tx : K → C
definito da
Tx (f ) = f (x).
Per d”) comunque presa una successione (fn )n convergente a f in K, si
ha che fn (x) converge a f (x) per ogni x ∈ X. Pertanto Tx (fn ) → Tx (f )
quindi il funzionale Tx è continuo e, per il teorema di Riesz, esiste unico
Kx ∈ K tale che Tx (f ) = hf, Kx iK . È cosı̀ soddisfatta la proprietà
riproducente.
d) ⇒ d’). Supponiamo valga la proprietà riproducente, mostriamo che
esiste una costante Cx per cui vale |f (x)| ≤ Cx ||f ||K .
Siano x ∈ X e f ∈ K per la disuguaglianza di Cauchy-Schwarz si ha
che
|f (x)| = |hf, Kx i|K ≤ ||f ||K ||Kx ||K .
La tesi segue ponendo Cx = ||Kx ||K .
Inoltre dimostriamo che Kx ∈ K è unico l ’elemento per cui vale (1).
Infatti, fissato x ∈ X, supponiamo esistano Kx , Hx in K tali che
hf, Kx iK = f (x) = hf, Hx iK .
Allora, per linerità, hf, Kx − Hx iK = 0
∀f ∈ K.
Pertanto, essendo Kx −Hx perpendicolare a f , comunque scelta f ∈ K,
si ha che Kx − Hx = 0. Da cui si ricava l’unicità.
t
u
Introduciamo alcune notazioni che useremo in seguito.
Dato S sottoinsieme di V, spazio vettoriale, denotiamo con spanS il
sottospazio vettoriale di tutte le combinazioni lineari finite di elementi
di S.
Inoltre, sia H uno spazio di Hilbert e sia A un suo sottoinsieme.
L’ortogonale di A è il sottospazio chiuso definito da
A⊥ = {x ∈ H|hx, aiH = 0 ∀a ∈ A}.
Infine sia A un sottoinsieme di H spazio di Hilbert. Denotiamo con A
la chiusura di A cioè l’intersezione di tutti i sottoinsiemi chiusi di H
che contengono A.
Il seguente corollario ci fornisce una caratterizzazione degli spazi di
Hilbert a nucleo riproducente.
6
Corollario 1. Se K è uno spazio di Hilbert a nucleo riproducente,
allora
K = span{Kx |x ∈ X}.
Dimostrazione. Mostriamo che l’unico elemento perpendicolare a
{Kx |x ∈ X} è l’elemento nullo. Sia f ∈ {Kx |x ∈ X}⊥ . Allora per
ogni x ∈ X
f (x) = hf, Kx iK per la proprietà riproducente
= 0. per ipotesi
Quindi f = 0, per cui span{Kx |x ∈ X} = H, per il Lemma 3 in
Appendice.
t
u
Dimostraimo che i kernel riproducenti sono di tipo positivo.
Corollario 2. Il kernel K definito dalla (2) è di tipo positivo, cioè:
i) K è simmetrico: K(x, x0 ) = K(x0 , x) per ogni x, x0 ∈ X;
ii) per ogni insieme di punti x1 , · · · , xn ∈ X e costanti c1 , · · · , cn ∈ R
vale
n
X
ci cj K(xi , xj ) ≥ 0.
i,j=1
Equivalentemente, la matrice n × n K, i cui elementi sono Kij =
K(xi , xj ) è simmetrica con autovalori positivi.
Dimostrazione. Verifichiamo che il kernel riproducente K è di tipo
positivo.
i) K è simmetrico essendo simmetrico il prodotto scalare;
ii) per ogni x1 , · · · , xn ∈ X e c1 , · · · , cn ∈ R, ricordando la definizione
di kernel riproducente, si ha
n
n
n
X
X
X
ci cj K(xi , xj ) =
ci K xi ,
ci Kxi K ≥ 0.
i,j=1
i=1
i=1
Dimostriamo ora che la matrice K associata a K è simmetrica e con
autovalori positivi.
La matrice K è simmetrica perchè il kernel associato è simmetrico,
inoltre K è positiva poichè da ii) segue che hKc, ciRn ≥ 0. In particolare
scegliamo c = v, con v autovettore K, e λ il corrispondente autovalore.
Si ha che
hKv, viRn = hλv, viRn = λhv, viRn ≥ 0
da cui λ ≥ 0.
Viceversa dimostriamo che se K è simmetrica allora K è di tipo positivo. Essendo K simmetrica, il kernel riproducente è simmetrico,
7
inoltre K è diagonalizzabile, cioè esiste O matrice ortogonale tale che
t
OKO = Λ con Λ matrice diagonale i cui elementi sono gli autovalori
di K. Si ha che
hKx, xi = hOΛt Ox , xi
= hΛt Ox , t Oxi
= hΛy , yi avendo posto y = t Ox
n
X
=
λj yj2 ≥ 0.
j=1
Pertanto vale ii) e quindi il kernel K è di tipo positivo.
t
u
Diamo alcuni esempi di spazi di Hilbert a nucleo riproducente e dei
rispettivi kernel.
Esempio 1. Funzioni lineari.
Sia f : R → R, funzione lineare, per cui f sarà del tipo f (x) = αx, per
un unico α ∈ R.
Consideriamo lo spazio H = {f : R → R| f lineare} con il prodotto
scalare definito da
hf, giH = α · β,
essendo f (x) = αx, g(x) = βx.
Verifichiamo che H è uno spazio di Hilbert a nucleo riproducente.
a) La proprietà è verificata banalmente, perchè gli elementi di H sono
funzioni reali definite su X = R.
b) H è uno spazio vettoriale rispetto alle usuali operazioni di somma e
prodotto per scalare essendo uno spazio di funzioni lineari.
c) Dobbiamo mostrare che H è uno spazio di Hilbert con il prodotto
scalare sopra definito. Verifichiamo cioè che lo spazio (H, || · ||H ) è
completo.
Sia (fn ) una successione di Cauchy in H, allora fn (x) = αn x, dove (αn )
è una successione di Cauchy in R. Dobbiamo dimostrare che esiste una
funzione f ∈ H a cui fn convergono in norma.
Essendo (αn ) è una successione di Cauchy in R, esiste α in R tale che
αn → α.
La funzione cercata è f (x) = αx. Infatti si ha, per la definizione di
prodotto scalare, che
||fn − f ||2H = |αn − α|2 → 0.
d) Verifichiamo la proprietà riproducente. Per ogni x0 ∈ R definiamo
Kx0 (x) = x0 x. Comunque scelta f in H, f sarà della forma f (x) = βx.
8
Pertanto vale
hf, Kx0 iH = hβx, x0 xiH = β · x0 = f (x0 )
ed è dunque verificata la proprietà riproducente.
Da questo segue che il kernel riproducente associato a H è dato da
K(x, x0 ) = hKx0 , Kx iH = x · x0 .
L’esempio si estende facilmente al caso di funzioni lineari in Rd .
Esempio 2.
Consideriamo un esempio di spazio di Hilbert a nucleo riproducente su
C, con kernel riproducente reale.
Sia L2 ([0, 1]) lo spazio di Hilbert delle funzioni su [0, 1] a quadrato
integrabile rispetto alla misura di Lebesgue.
Consideriamo lo spazio
X
1
|k fˆk |2 < +∞},
Hper
([0, 1]) = {f ∈ L2 ([0, 1]) |
k∈Z
dove fˆk = hf, ek i2 con ek (x) = e2πikx .
Essendo {e2πikx } una base ortonormale di L2 ([0, 1]) allora
X
fˆk e2πikx ,
f (x) =
k∈Z
dove la convergenza è, al momento, solo in L2 [0, 1].
1
([0, 1]).
Poniamo H = Hper
Definiamo la norma in H
X
||f ||2H =
(1 + k 2 )| fˆk |2 = ||f ||22 + ||P f ||22
k∈Z
e il prodotto scalare
hf, giH =
X
(1 + k 2 ) fˆk ĝk
k∈Z
= hf, gi2 + hP f, P gi2 ,
essendo P l’operatore limitato da H in L2 ([0, 1]) definito da
X
Pf =
k fˆk ek ,
k∈Z
dove la serie converge in L2 ([0, 1]).
Verifichiamo che H è uno spazio di Hilbert a nucleo riproducente.
9
a) La proprietà è verificata, perchè gli elementi di H sono funzioni
definite su [0, 1]. Infatti la serie
X
|fˆk e2πikx |,
k∈Z
con f ∈ H, converge totalmente a f , poichè per la disuguaglianza di
Cauchy-Schwarz vale che
X
X
|fˆk e2πikx | =
|fˆk |
k∈Z
k∈Z
= |fˆ0 | +
X
k6=0
≤ |fˆ0 | +
s
1
|k fˆk |
k
X
(k fˆk )2
k6=0
X 1
< +∞.
2
k
k6=0
Pertanto f è una funzione continua su [0, 1] con f (0) = f (1) per la
periodicità dell’esponenziale immaginario, ed è l’unico rappresentante
continuo in L2 ([0, 1]).
b) Chiaramente H è uno spazio vettoriale rispetto alle usuali operazioni
di somma e prodotto per scalare.
c) Verifichiamo che H è uno spazio di Hilbert con il prodotto scalare
sopra definito.
Sia (fn ) una successione di Cauchy in H. Verifichiamo che converge in
H.
Dalla definizione della norma in H si ha che fn e P fn sono di Cauchy
in L2 ([0, 1]). Pertanto esistono f, g ∈ L2 ([0, 1]) a cui convergono fn e
P fn rispettivamente.
Vogliamo dimostare che g = P f. Dato k ∈ Z,
ĝk = hg, ek i2 = lim hP fn , ek i2
n→∞
= lim k(fˆn )k
n→∞
= k lim hfn , ek i2
n→∞
= khf, ek i2 = k fˆk .
Poichè g ∈ L2 ([0, 1]), allora
X
|k fˆk |2 < +∞.
k
Pertanto f ∈ H e g = P f.
Segue la convergenza in H, infatti
||f − fn ||2H = ||f − fn ||22 + ||P f − P fn ||22 → 0
per n → ∞.
10
d) Verifichiamo che vale la proprietà riproducente. Per ogni x ∈ [0, 1]
sia
X e−2πikx
Kx =
ek .
1 + k2
k∈Z
Verifichiamo che Kx ∈ H, ossia che
X
|k (K̂x )k |2 < +∞.
k∈Z
Si ha che
X
|k (K̂x )k |2 =
k∈Z
X
|k
k∈Z
e−2πikx 2
| < +∞.
1 + k2
Si ha che
e2πikx
(1 + k 2 ) fˆk
1 + k2
k∈Z
X
fˆk e2πikx = f (x).
=
hf, Kx iH =
X
dalla definizione di prodotto scalare
k∈Z
Pertanto vale la proprietà riproducente.
Definiamo il kernel riproducente associato
K(x, y) = hKy , Kx iH
X
e−2πiky e2πikx
=
(1 + k 2 )
1 + k2 1 + k2
k∈Z
=
X e−2πik(y−x)
k∈Z
1 + k2
=: K0 (y − x).
Esaminiamo la funzione K0 :
K0 (t) =
X e−2πikt
k∈Z
=π
1 + k2
cosh (2π ( 12 − t))
sinh π
per t ∈ [0, 1].
Mostriamo che vale l’uguaglianza precedente. Calcoliamo i coefficienti
di Fourier del membro di destra,
11
αk =
=
=
=
=
=
=
Z 1
π
cosh(π − 2πt)e−2πikt dt
sinh π 0
Z 2π
dt
π
cosh(π − t)e−ikt
sinh π 0
2π
Z 2π
1
(eπ−t−ikt + et−π−ikt ) dt
4 sinh π 0
et−π−ikt i2π
1 h eπ−t−ikt
+
4 sinh π −1 − ik
1 − ik 0
1 h e−π − eπ eπ − e−π i
+
4 sinh π −1 − ik
1 − ik
π
−π
(e − e )
2
1
sinh π
=
2
4 sinh π 1 + k
sinh π 1 + k 2
1
.
1 + k2
Notiamo che se x, y ∈ [0, 1] e y ≥ x allora y − x ∈ [0, 1], inoltre se y ≤ x
allora y − x ∈ [−1, 0], da cui y − x + 1 ∈ [0, 1].
Quindi il kernel riproducente K associato allo spazio H è

1
π

y≥x
 sinh π cosh(2π( 2 − (y − x)))
K(x, y) = K0 (y − x) =

 π cosh(2π(− 1 − (y − x))) y ≤ x
sinh π
2
o equivalentemente
K(x, y) = K0 (y − x) =
π
1
cosh(2π( − |y − x|)).
sinh π
2
Esempio 3. Si noti che L2 (Rd ) non è uno spazio di Hilbert a nucleo
riproducente perchè i suoi elementi non sono funzioni, bensı̀ classi di
equivalenza di funzioni.
Inoltre è sufficiente osservare che per L2 (Rd ) non vale la proprietà d”) in
quanto la convergenza in L2 (Rd ) non implica la convergenza puntuale
della successione ma solo di una sua estratta, quasi ovunque.
3. Feature map
Introduciamo il concetto di feature map che ci permette di definire in
modo alternativo i kernel riproducenti. Il termine feature map è generalmente tradotto in italiano con mappa delle caratteristiche oppure
rappresentazione di X in H. Useremo tuttavia la terminologia feature
map.
12
Definizione 2. Dato un insieme X ed uno spazio di Hilbert H reale,
una feature map è una mappa Φ : X → H tale che
(3)
se v ∈ H tale che hv, Φ(x)iH = 0 ∀x ∈ X, allora v = 0.
Proposizione 1. La condizione (3) equivale alla condizione
span{Φ(x)|x ∈ X} = H,
cioè l’immagine di Φ, {Φ(x)|x ∈ X}, è un insieme totale in H.
Dimostrazione. Supponiamo valga (3) e sia v ∈ {Φ(x)|x ∈ X}⊥ .
Allora hv, Φ(x)iH = 0 per ogni x ∈ X. Dalla (3) segue che v = 0.
Viceversa se vale span{Φ(x)|x ∈ X} = H, allora se hv, Φ(x)iH = 0 per
ogni x ∈ X, si ha che v ∈ {Φ(x)|x ∈ X}⊥ = H⊥ .
t
u
Pertanto v = 0 ed è dunque soddisfatta la proprietà (3).
Data una feature map Φ, il seguente teorema mostra che esiste uno
spazio di Hilbert a nucleo riproducente ad essa associato.
Notiamo che ogni elemento v ∈ H definisce una funzione su X
fv : X → R
fv (x) = hv, Φ(x)iH .
L’applicazione H 3 v 7→ fv è lineare e per la proprietà (1) è iniettiva,
come si nota dalla seguente osservazione.
Osservazione. La funzione fv è univocamente determinata da v, i.e.
se fv = fv0 allora v = v 0 .
Infatti detta
fv (x) = hv, Φ(x)iH e fv0 (x) = hv 0 , Φ(x)iH
si ha che
fv (x) = fv0 (x) implica 0 = (fv −fv0 )(x) = hv−v 0 , Φ(x)iH
per ogni x ∈ X.
Per la (3) si ha che v − v 0 = 0, da cui v = v 0 .
Definiamo l’insieme
(4)
K = {fv |v ∈ H}
che è uno spazio vettoriale di funzioni reali su X, che possiamo munire
di un prodotto scalare
(5)
h·, ·iK : K × K → R
hfv , fw iK = hv, wiH .
13
Tale prodotto scalare è ben definito perchè l’applicazione v 7→ fv è
iniettiva.
Dimostriamo che K è uno spazio di Hilbert a nucleo riproducente
rispetto a h·, ·iK (Vedi [11], [13] ).
Teorema 1. Data una feature map Φ : X → H, l’insieme K definito da (4) con il prodotto scalare (5) è uno spazio di Hilbert a nucleo
riproducente con kernel riproducente
K(x, x0 ) = hΦ(x0 ), Φ(x)iH .
Inoltre la mappa
W : v 7→ fv
è un operatore unitario da H su K, detto feature operator, ed in particolare
Kx = fΦ(x)
x ∈ X.
Lo spazio K è univocamente definito dal kernel K nel senso che, se
Φ0 (x) : X → H0
è un’altra feature map per cui si ha
(6)
hΦ0 (x0 ), Φ0 (x)iH0 = K(x, x0 )
x, x0 ∈ X
allora {fv0 |v 0 ∈ H0 } coincide con K come spazio di Hilbert.
Dimostrazione. Passo 1. K è uno spazio di Hilbert a nucleo riproducente, infatti:
a) gli elementi di K sono funzioni reali definite su X, per costruzione;
b) ovviamente K è uno spazio vettoriale rispetto alle usuali operazioni
di somma e moltiplicazione per costante;
c) K è uno spazio di Hilbert rispetto al prodotto scalare h·, ·iK per cui
la mappa v 7→ fv è un operatore unitario di H su K. Infatti preserva il
prodotto scalare
||fv ||2K = hfv , fv iK = hv, viH = ||v||2H ,
dalla definizione e inoltre W è surgettivo per la definizione di K. Quindi
lo spazio K è completo e pertanto è uno spazio di Hilbert.
d) Verifichiamo che vale la proprietà riproducente, cioè per ogni x ∈ X
e f ∈ K, si ha che f (x) = hf, Kx iK , con Kx = fΦ(x) .
Sia f ∈ K, si ha che
f (x) = fv (x)
per un unico v ∈ H,
pertanto, per la definizione di prodotto scalare, si ha che
f (x) = fv (x) = hv, Φ(x)iH = hfv , fΦ(x) iK = hf, fΦ(x) iK ,
14
abbiamo cosı̀ provato che K è uno spazio di Hilbert a nucleo riproducente con
Kx = fΦ(x) .
Infine il kernel riproducente è
K(x, x0 ) = hfΦ(x0 ) , fΦ(x) iK = hΦ(x0 ), Φ(x)iH ;
ossia K è uno spazio di Hilbert a nucleo riproducente con kernel K.
Passo 2. Dimostriamo ora l’unicità della feature map.
Sia Φ0 : X → H0 la feature map per cui vale (6).
Costruiamo un operatore unitario da H0 a K e mostriamo che è il
feature operator associato a Φ0 .
Per dimostrare che la mappa Φ0 (x) 7−→ Kx da {Φ0 (x)| x ∈ X} ⊂ H0 in
{Kx |x ∈ X} ⊂ K è una mappa che preserva il prodotto scalare, basta
osservare che, per (4),
hKx , Kx0 iK = hfΦ(x) , fΦ(x0 ) iK = hΦ(x), Φ(x0 )iH = hΦ0 (x), Φ0 (x0 )iH0 ,
per ogni x, x0 ∈ X.
Per densità la mappa si estende ad un operatore unitario W 0 di H0 su
K (Teorema 8 in Appendice).
Mostriamo che W 0 è il feature operator associato alla mappa Φ0 .
Dati v 0 ∈ H0 ed x ∈ X utilizzando il fatto che Kx = fΦ(x) e l’identità
fΦ(x) = W 0 Φ0 (x) e il fatto che W 0 è un operatore unitario, si ottiene
che
(W 0 v 0 )(x) = hW 0 v 0 , Kx iK
= hW 0 v 0 , W 0 Φ0 (x)iK
= hv 0 , Φ0 (x)iH0
= fv0 (x),
Pertanto W è e il feature operator di Φ0 . Questo prova che il rango
di W 0 è K0 , che quindi coincide con K come insieme. L’identità dei
prodotti scalari di K e K0 segue dal fatto che W 0 è un operatore unitario
sia da H0 in K sia da H0 in K0 .
t
u
0
Pertanto data una feature map e il suo kernel riproducente definito in
Teorema 1, questi determinano univocamente uno spazio di Hilbert a
nucleo riproducente.
Viceversa, ogni spazio di Hilbert a nucleo riproducente K definisce una
feature map Φ : X → K, ponendo
Φ(x) = Kx
per ogni x ∈ X,
il cui feature operator è l’identità, per la proprietà riproducente (1).
Infatti per la proprietà riproducente si ha che
v(x) = hv, Kx iH = hv, Φ(x)iH = fv (x).
15
Dal teorema precedente segue che due spazi di Hilbert a nucleo riproducente con lo stesso kernel riproducente coincidono come spazi di
Hilbert.
Il seguente teorema permette di descrivere gli spazi a nucleo riproducente in termini di kernel (come dimostrato per la prima volta in [1],
[6]).
Teorema 2. Dato un kernel K : X × X → R di tipo positivo, allora
esiste un unico spazio di Hilbert a nucleo riproducente per cui K è il
kernel riproducente.
Dimostrazione. I primi tre passi dimostrano l’esistenza, l’ultimo l’unicità.
Passo 1. Per ogni x ∈ X, definiamo la funzione
Kx (x0 ) = K(x0 , x)
Kx : X → R
e K0 = span{Kx |x ∈ X} ⊂ RX , l’insieme delle funzioni che sono
combinazioni lineari delle funzioni Kx . K0 è uno spazio vettoriale di
funzioni rispetto alle usuali operazioni di somma e prodotto per scalare.
Passo 2. Date f, f 0 ∈ K0 , tali che
n
X
f=
ci K xi ,
f0 =
m
X
i=1
c0i Kx0i .
i=1
definiamo
0
hf, f iK0 =
n X
m
X
ci c0j K(x0j , xi ).
i=1 j=1
Osservando che
f (x0j )
=
n
X
ci K(x0j , xi ),
i=1
si ha che
hf, f 0 iK0 =
m
X
c0j (
j=1
n
X
ci K(x0j , xi )) =
i=1
m
X
c0j f (x0j ),
j=1
e analogamente
0
hf, f iK0 =
n
X
ci f 0 (xi ).
i=1
Si ottiene dunque che
hf, f 0 iK0 =
m
X
j=1
c0j f (x0j ) =
n
X
ci f 0 (xi ),
i=1
per cui la definizione non dipende dalla rappresentazione scelta per f e
f 0 , e quindi hf, f 0 iK0 è una forma ben definita e chiaramente bilineare.
16
Inoltre, per ogni x ∈ X, ponendo f 0 = Kx si ha che
hf, Kx iK0 = f (x).
Mostriamo che h·, ·iK0 è un prodotto scalare, cioè simmetrico e definito
positivo.
Il fatto che K sia di tipo positivo implica che
hf, f 0 iK0 = hf 0 , f iK0
e
hf, f iK0 ≥ 0.
Inoltre se hf, f iK0 = 0, allora f = 0. Infatti per ogni x ∈ X, per la
disuguaglianza di Cauchy-Schwarz generalizzata ( Section VI.2, p. 348
di [14]) segue che
p
0 ≤ |f (x)| = |hf, Kx iK0 | ≤ hf, f iK0 hKx , Kx iK0 = 0.
Da cui f (x) = 0, cioè f = 0.
Possiamo quindi concludere che K0 è uno spazio vettoriale di funzioni
dotato di prodotto scalare che soddisfa la proprietà riproducente.
Passo 3. Sia H lo spazio di Hilbert che è il completamento di K0
rispetto alla metrica indotta dal prodotto scalare appena definito.
Definiamo Φ : X → H, come
Φ(x) = Kx
per ogni x ∈ X.
Poichè K0 è un sottospazio denso di H, allora Φ è una feature map.
Per dimostrarlo proviamo che vale la condizione (3).
Sia v ∈ H tale che
hv, Φ(x)iH = 0
per ogni x ∈ X. Vogliamo provare che v = 0.
Si ha che
v ∈ {Φ(x)|x ∈ X}⊥ ,
da cui
v ∈ span{Φ(x)|x ∈ X}⊥ = K0⊥
per definizione di completamento. Allora
v = 0.
Comunque preso w ∈ H esiste una successione (wn ) di elementi di K0
che converge a w in H.
Pertanto
hv, wiH = hv, lim wn iH = lim hv, wn iK0 = 0.
n→∞
n→∞
Quindi
v ∈ H⊥ = {0},
da cui v = 0.
Abbiamo dimostrato che vale la condizione (3) e dunque Φ è una
feature map.
Inoltre il suo kernel è proprio K infatti
hΦ(x0 ), Φ(x)iH = hKx0 , Kx iH = K(x, x0 ).
17
Lo spazio di Hilbert K a nucleo riproducente associato alla mappa Φ è
lo spazio cercato.
Passo 4. K è unico infatti, per il teorema precedente, assegnata una
feature map, esiste un unico spazio di Hilbert a nucleo riproducente.
t
u
Osservazione. Dalla dimostrazione del teorema segue che f ∈ K se
e solo se esiste fn ∈ span{Kx |x ∈ X} tale che (fn ) è di Cauchy e fn
converge a f puntualmente.
Osservazione. Dato X insieme non vuoto, una funzione
K: X ×X → R
è di tipo positivo se e solo se esistono uno spazio di Hilbert H e una
funzione Φ : X → H tale che per ogni x, x0 ∈ X si ha
K(x, x0 ) = hΦ(x), Φ(x0 )iH .
Introduciamo alcuni esempi di kernel definiti positivi su X ⊂ Rd .
Per dimostrare che sono di tipo positivo può essere utile il seguente
lemma (dimostrato in [13]).
Lemma 2. (Lemma di Schur) Se Ki : X1 × X2 → R, i = 1, 2 sono
kernel di tipo positivo, allora
K := K1 × K2 : (X1 × X2 ) × (X1 × X2 ) → R
è un kernel di tipo positivo e il corrispondente spazio di Hilbert a nucleo
riproducente è
K = K1 ⊗ K 2 ,
dove Ki è lo spazio di Hilbert a nucleo riproducente associato a Ki .
Esempio 1. Kernel lineari.
I kernel lineari sono del tipo
K(x, x0 ) = x · x0 .
Esempio 2. Kernel Gaussiani.
I kernel gaussiani sono del tipo
K(x, x0 ) = e−
||x−x0 ||2
σ2
,
σ > 0.
Esempio 3. Kerner polinomiali.
I kernel polinomiali sono del tipo
K(x, x0 ) = (x · x0 + 1)k ,
k ∈ N.
18
Esaminiamo più dettagliatamente i kernel Gaussiani.
2
Siano X = Rd e K(x, t) = e−α||x−t|| .
Per le proprietà dell’esponenziale
K(x, t) =
d
Y
e−α|xi −ti |
2
i=1
da cui segue, per il lemma precedente, che lo spazio di Hilbert a nucleo
riproducente d-dimensionale associato può essere scritto nella forma
K(d) = K ⊗ K · · · ⊗ K.
Consideriamo quindi lo spazio di Hilbert a nucleo riproducente K associato al kernel 1-dimensionale. Essendo d = 1 si ha
2
2
K(x, t) = e−αx e2αxt e−αt
∞
X
(2αxt)k −αt2
−αx2
=e
e
k!
k=0
=
=
∞
X
(2α)k
k=0
∞
X
k!
2
xk tk e−αx e−αt
2
fk (x)fk (t).
k=0
avendo posto
r
(2α)k k −αx2
x e
.
k!
Inoltre la serie convege totalmente su ogni compatto poichè è il prodotto
di una serie di potenze convergente su tutto R con la funzione limitata
2
e−αx .
fk (x) =
Sia l2 lo spazio di Hilbert delle successioni a quadrato sommabile.
Definiamo ora la mappa
Φ : X → l2
tale che
r
(2α)k k −αx2
x e
.
k!
Verifichiamo che Φ è una feature map, ossia proviamo che vale la
condizione (3).
Φ(x) =
Sia a = (ak ) ∈ l2 tale che ha, Φ(x)il2 = 0, vogliamo dimostrare che
a = 0.
19
Segue, per la definizione di Φ e di a, che
r
∞
X
(2α)k k −αx2
ak
x e
= 0 per ogni x ∈ X.
k!
k=0
q
k
Pertanto essendo (2α)
> 0, si deve avere ak = 0 per ogni k, da cui
k!
a = 0.
Questo inoltre ci permette di concludere che
r
∞
X
(2α)k k −αx2
f ∈ K se e solo se esiste (ak ) ∈ l2 per cui f (x) =
ak
x e
.
k!
k=0
In particolare f è una funzione analitica, poichè prodotto di una serie
di potenze con una funzione analitica.
4. Teorema di Mercer
In questa sezione ci interessiamo al caso di kernel continui e introduciamo il teorema di Mercer che caratterizza i kernel su domini compatti.
Sia Φ : X → H una feature map da un insieme X a valori in uno spazio
di Hilbert H, denotiamo con K il corrispondente spazio di Hilbert a
nucleo riproducente e con K il kernel riproducente.
D’ora in poi supponiamo che
i) X sia uno spazio topologico compatto che soddisfa il secondo assioma
di numerabilità, cioè ha una base numerabile di aperti (ad esempio un
insieme chiuso e limitato di Rd );
ii) il kernel riproducente K : X × X → R sia una funzione continua
(come funzione di due variabili);
iii) µ sia una misura di probabilità definita sui Boreliani di X con la
proprietà che supp µ = X (ad esempio la misura di Lebesgue normalizzata).
La proprietà iii) equivale a richiedere che se C ⊂ X è un insieme chiuso
e µ(C) = 1, allora C = X.
Ricordiamo che nelle ipotesi precedenti, il supporto di µ è il più piccolo
chiuso il cui complementare ha misura nulla, ovvero
\
supp µ =
{V | V ⊂ X chiuso, µ(X r V ) = 0}.
Indichiamo con
- ||f ||K e hf, giK rispettivamente la norma e il prodotto scalare su K;
20
- C(X) lo spazio di Banach delle funzioni continue con la norma della
convergenza uniforme ||f ||∞ = supx∈X |f (x)|;
- L2 (X, µ) lo spazio delle funzioni su X a quadrato integrabile rispetto
a µ, la cui norma e prodotto scalare sono denotati da ||f ||µ e hf, giµ .
Nel caso di kernel riproducente continuo e X spazio topologico separabile, gli elementi dello spazio di Hilbert associato sono anch’essi funzioni
continue come dimostrato nella seguente proposizione.
Proposizione 2. Gli elementi di K sono funzioni continue e, di conseguenza, a quadrato integrabile rispetto a µ. In particolare, per ogni
f ∈ K,
(7)
||f ||µ ≤ ||f ||∞ ≤ κ||f ||K
dove
κ2 = sup K(x, x) = sup ||Kx ||2K .
x∈X
x∈X
Infine K è uno spazio di Hilbert separabile.
Dimostrazione. Mostriamo che K ⊂ C(X) ⊂ L2 (X, µ).
Fissata f ∈ K e dati x, x0 ∈ X,
|f (x) − f (x0 )| = |hf, Kx iK − hf, Kx0 iK |
= |hf, Kx − Kx0 iK |
≤ ||f ||K ||Kx − Kx0 ||K
per la proprietà riproducente (1)
per linearità
per la disuguaglianza di Cauchy-Schwarz.
Poichè
||Kx − Kx0 ||2K = hKx − Kx0 , Kx − Kx0 iK
= hKx , Kx iK + hKx0 , Kx0 iK − 2hKx0 , Kx iK
= K(x, x) + K(x0 , x0 ) − 2K(x, x0 )
ed il kernel K è continuo per ipotesi, quindi ||Kx − Kx0 ||K → 0 per x →
x0 , da cui
lim f (x) = f (x0 ).
x→x0
Essendo f continua e X compatto, allora f è limitata e, di conseguenza,
a quadrato integrabile rispetto a ogni misura di probabilità.
Inoltre, per la proprietà riproducente
(8)
per cui
|f (x)| = |hf, Kx iK | ≤ ||f ||K ||Kx ||K
21
||f ||2µ
Z
=
|f (x)|2 dµ(x) per definizione
X
≤ sup |f (x)|2 µ(X) = ||f ||2∞
essendo µ(X) = 1
x∈X
≤ sup ||Kx ||2K ||f ||2K = κ2 ||f ||2K
per (8).
x∈X
Mostriamo che K è separabile.
Per il Lemma 3 in Appendice è sufficiente esibire una famiglia numerabile {fi }i∈N tale che ({fi }i∈N )⊥ = {0}.
Essendo X separabile, esiste una famiglia numerabile di punti {xi }i∈N ,
xi ∈ X, densa in X. Consideriamo la famiglia di funzioni {Kxi }i∈N e
mostriamo che è totale in K.
Sia f ∈ K tale che hf, Kxi iK = 0 per ogni i ∈ N, allora per la proprietà
riproducente
f (xi ) = 0 per ogni i ∈ N.
Essendo f una funzione continua questo implica che f (x) = 0 per ogni
x appartenente alla chiusura di {xi }i∈N che coincide con X per ipotesi.
Ne segue che f = 0.
t
u
Per enunciare il Teorema di Mercer introduciamo alcuni operatori di
cui in Appendice sono riportate le principali proprietà.
Consideriamo l’operatore di inclusione
S : K → L2 (X, µ)
definito da
(Sf )(x) = f (x) = hf, Kx iK
per quasi ogni x ∈ X
che è continuo per la (7), e denotiamo con
S ∗ : L2 (X, µ) → K
il suo aggiunto.
Dimostriamo alcune proprietà di tale operatore che saranno di particolare interesse nella dimostrazione del teorema di Mercer.
Proposizione 3. Valgono le seguenti proprietà.
a) L’operatore S è di Hilbert-Schmidt (e quindi anche S ∗ );
b) S è un operatore iniettivo, (per cui S ∗ ha range denso);
c) L’operatore SS ∗ : L2 (X, µ) → L2 (X, µ) è l’operatore integrale con
kernel K
Z
∗
(SS ϕ)(x) =
K(x, t)ϕ(t)dµ(t)
ϕ ∈ L2 (X, µ)
X
22
ed è un operatore positivo di classe traccia;
d) S ∗ S è il valore atteso rispetto a µ dell’operatore Kx ⊗ Kx : K → K
(di rango 1), cioè
Z
Z
∗
hS Sf, giK =
h(Kx ⊗ Kx )f, giK dµ(x) =
hf, Kx iK hKx , giK dµ(x)
X
X
ed è un operatore positivo di classe traccia.
Ricordiamo che l’operatore Kx ⊗ Kx : K → K è definito da
(Kx ⊗ Kx )f = hf, Kx iK Kx .
Dimostrazione. a) Dimostriamo che l’operatore S è di Hilbert-Schmidt.
Poichè K è separabile, ammette una base numerabile.
Sia {fi }i∈I una base ortonormale di K. Allora
X
||Sfi ||2µ
=
XZ
X
i∈I
i∈I
=
XZ
|hfi , Kx iK |2 dµ(x)
per definizione di S
|hfi , Kx iK |2 dµ(x)
per convergenza monotona
X
i∈I
=
|(Sfi )(x)|2 dµ(x)
Z X
X i∈I
Z
=
||Kx ||2K dµ(x)
poichè {fi }i∈I sono una base ortonormale
X
(per 2) di Teorema 6 in Appendice)
Z
hKx , Kx iK dµ(x)
=
per definizione di norma
X
Z
K(x, x)dµ(x) ≤ µ(X) sup K(x, x)
=
x∈X
X
2
= sup K(x, x) = κ
poichè µ(X) = 1 e per definizione di κ.
x∈X
Essendo S un operatore di Hilbert-Schmidt anche S ∗ lo è (vedi Appendice).
b) Dimostriamo l’iniettività di S.
Data f ∈ K ⊂ C(X) bisogna dimostrare che se Sf = 0 in L2 (X, µ)
allora f = 0 in K.
Per ipotesi essendo Sf = 0 si ha che
0 = (Sf )(x) = f (x)
per quasi ogni x ∈ X,
ossia {x ∈ X|f (x) 6= 0} ha misura nulla.
Da cui, detto
C = {x ∈ X|f (x) = 0}
23
si ha che C è chiuso, perchè controimmagine di 0 attraverso funzione
continua e µ(C) = 1. Essendo µ(C c ) = 0 e supp µ = X si ricava che
C = X.
Data l’iniettività di S per il Teorema 10 in Appendice si ha che S ∗ ha
range denso.
c) Determiniamo la forma dell’operatore SS ∗ .
Sia ϕ ∈ L2 (X, µ).
Per quasi ogni x ∈ X si ha
(SS ∗ ϕ)(x) = hS ∗ ϕ, Kx iK
per definizione di S
= hϕ, SKx iµ
= hϕ, Kx iµ per definizione di S
Z
=
ϕ(t)Kx (t) dµ(t) per definizione di prodotto scalare
X
Z
K(x, t)ϕ(t) dµ(t).
=
X
Inoltre è positivo per costruzione.
Verifichiamo ora che è un operatore di classe traccia:
X
h(SS ∗ )fi , fi iµ =
X
=
X
=
XX
=
XX
=
X
i∈I
hS ∗ fi , S ∗ fi iK
i∈I
||S ∗ fi ||2K
i∈I
|hS ∗ fi , ej iK |2
i∈I j∈I
|hfi , Sej iµ |2
j∈I i∈I
||Sej ||2µ < +∞
per quanto detto in a),
i∈I
essendo {ej } una base ortonormale di K.
d) Determiniamo la forma dell’operatore S ∗ S.
Siano f, g ∈ K
hS ∗ Sf, giK = hSf, Sgiµ
Z
=
hf, Kx iK hKx , giK dµ(x) per definizione di S
X
e per definizione di prodotto scalare
Z
h(Kx ⊗ Kx )(f ), giK dµ(x) da definizione di prodotto tensore.
=
X
24
Dalla definizione S ∗ S è un operatore positivo. Verifichiamo che è di
classe traccia.
X
X
h(S ∗ S)fk , fk iµ =
hSfk , Sfk iK
k∈I
k∈I
=
X
||Sfk ||2K
k∈I
< +∞ per quanto dimostrato prima.
t
u
Osservazione. Poichè SS ∗ è un operatore autoaggiunto, positivo, di
classe traccia, è in particolare un operatore positivo compatto. Allora
denotata con N la dimensione di L2 (X, µ) come spazio di Hilbert, per
il teorema di Hibert-Schmidt, esiste una base ortonormale {ϕi }N
i=1 di
autovettori di SS ∗ con autovalori positivi, cioè
SS ∗ ϕi = σi2 ϕi
(9)
con σi ≥ 0.
Il fatto che SS ∗ sia di classe traccia implica che
N
X
σi2
=
i=1
N
X
σi2 hϕi , ϕi iµ
essendo (ϕi ) una base ortonormale
i=1
=
N
X
i=1
2
≤κ
hSS ∗ ϕi , ϕi iµ
per quanto detto in c).
Inoltre ciascun autovalore σi , strettamente positivo, ha molteplicità
finita e, se N = +∞, 0 è l’unico punto di accumulazione per {σi }∞
i=1
(per il Teorema Riesz-Schauder, Teorema 12 in Appendice).
Sia I l’insieme degli indici tali che σi > 0; per tali i definiamo
1
fi = S ∗ ϕi .
σi
∗
Dalla definizione di S , la funzione fi appena definita è continua, infatti
fi ∈ K ⊂ C(X).
Osserviamo che vale
fi (x) = σi ϕi (x)
per ogni x ∈ X.
Infatti dato i ∈ I, per definizione di S si ha che Sfi (x) = fi (x) per
quasi ogni x ∈ X.
Inoltre dalla definizione di fi si ha che
Sfi =
1
SS ∗ ϕi = σi ϕi ,
σi
25
essendo
SS ∗ ϕi = σi2 ϕi .
Pertanto
fi (x) = σi ϕi (x)
per quasi ogni x ∈ X.
Poichè supp µ = X, si dimostra che fi è l’unica funzione continua con
questa proprietà.
Teorema 3. (Teorema di Mercer). Sia K uno spazio di Hilbert
a nucleo riproducente con kernel K continuo e sia µ una misura di
probabilità su uno spazio topologico compatto a base numerabile X tale
che supp µ = X.
Denotiamo con S l’operatore di inclusione da K in L2 (X, µ) e siano
ϕi , σi , fi come nell’osservazione precedente.
a) Le funzioni ϕi ∈ C(X), per ogni i ∈ I.
b) La famiglia {fi }i∈I è una base ortonormale di K.
c) Data ϕ ∈ L2 (X, µ),
(10)
ϕ=
X
ai ϕi
con ai = hϕ, ϕi iµ
e
i
∞
X
a2i < +∞
i=1
essendo {ϕi } una base ortonormale. Allora
ϕ = Sf
con f ∈ K
se e solo se
+∞ 2
X
ai
< +∞,
σ2
i=1 i
(con la convenzione che, se σi = 0 necessariamente ai = 0) e , in tal
caso,
∞
X
a2i
2
||f ||K =
< +∞.
2
σ
i
i=1
d) Con la scelta ϕi ∈ C(X) al punto a), se i ∈ I, per ogni x, t ∈ X si
ha che il kernel K si può scrivere come
K(x, t) =
∞
X
σi2 ϕi (x)ϕi (t),
i=1
dove la serie converge assolutamente e uniformemente.
Dimostrazione. a) La continuità delle funzioni ϕi segue dalla definizione e dalla continuità delle funzioni fi .
b) Verifichiamo che {fi }i∈I è una base ortonormale di K.
Dati i, j ∈ I allora
26
1 ∗
1
S ϕi , S ∗ ϕj iK per definizione di fi
σi
σj
1
hS ∗ ϕi , S ∗ ϕj iK
σi σj
1
hSS ∗ ϕi , ϕj iµ
σi σj
σi
hϕi , ϕj iµ per (9)
σj
σi
δij = δij essendo {ϕi } una base ortonormale,
σj
hfi , fj iK = h
=
=
=
=
per cui {fi }i∈I è un sistema ortonormale di K.
Proviamo che è una base.
Sia f ∈ K ortogonale a ogni fi , ossia hf, fi iK = 0 per ogni i ∈ I.
Vogliamo dimostrare che f = 0.
Per prima cosa facciamo vedere che hSf, ϕi iµ = 0 per ogni i ∈ {1, · · · , N }.
Se i ∈ I
0 = hf, fi iK = hSf, fi iµ = hSf, σi ϕi iµ = σi hSf, ϕi iµ .
Da cui hSf, ϕi iµ = 0.
Se i ∈
/ I, allora σi = 0 per cui
SS ∗ ϕi = 0.
Poichè S è iniettivo si ha che
S ∗ ϕi = 0,
da cui segue
hSf, ϕi iµ = hf, S ∗ ϕi iK = 0.
Pertanto per ogni i ∈ {1, · · · , N } si ha che
hSf, ϕi iµ = 0.
2
Poichè {ϕi }N
i=1 è una base ortonormale di L (X, µ), ne segue che Sf =
0, da cui f = 0 per l’iniettività di S.
c) Sia ϕ = Sf, con f ∈ K. Vale che
f=
X
hf, fi iK fi
i∈I
con
X
hf, fi i2K < +∞.
i∈I
27
Ma
hf, fi iK = hf,
1 ∗
S ϕi iK
σi
per definizione di fi
1
hSf, ϕi iµ
σi
1
= hϕ, ϕi iµ per definizione di ϕ
σi
ai
=
per (10)
σi
e, come visto sopra, ai = 0 se σi = 0.
=
Quindi
X
hf, fi i2K
i∈I
N
X
a2i
=
< +∞.
σ2
i=1 i
Viceversa, poichè {fi }i∈I è una base ortonormale, l’ipotesi
N
X
a2i
< +∞
2
σ
i
i=1
implica ai = 0 se σi = 0 e inoltre assicura la convergenza in K della
serie
X ai
f=
fi
σ
i
i∈I
P a2i
2
poichè ||f ||K = i∈I σ2 < +∞.
i
Allora
Sf =
X ai
i∈I
σi
Sfi =
X
ai ϕi
per il punto a)
i∈I
=
N
X
ai ϕi = ϕ
dalla definizione di ϕ.
i=1
Pertanto abbiamo dimostrato che Sf = ϕ.
d) Dati x, t ∈ X, poichè {fi }i∈I è una base ortonormale di K
X
(11)
K(x, t) = hKt , Kx iK =
hKt , fi iK hfi , Kx iK ,
i∈I
dove la serie converge assolutamente.
Per la proprietà riproducente e il punto a) del teorema, per ogni x ∈ X
vale che
hKx , fi iK = fi (x) = σi ϕi (x),
per cui
∞
X
K(x, t) =
σi2 ϕi (x)ϕi (t).
i=1
28
Infine rimane da provare che tale serie converge uniformemente.
Bisogna dimostrare che per ogni > 0 esiste n tale che per ogni n ≥ n
vale
X
sup K(x, t) −
hKt , fi iK hfi , Kx iK < .
x,t∈X
i∈I,i<n
Pertanto per la disuguaglianza di Cauchy-Schwarz in l2 si ha che
2
X
2
X
sup K(x, t)−
hKt , fi iK hfi , Kx iK = sup hKt , fi iK hfi , Kx iK x,t∈X
x,t∈X
i∈I,i<n
≤ sup
t∈X
X
|hKt , fi iK |2 sup
x∈X
i∈I,i≥n
i∈I,i≥n
X
|hKx , fi iK |2 .
i∈I,i≥n
Analizziamo separatamente i due termini della formula precendente.
Si ha che
X
X
sup
hKt , fi i2K ≤ sup
hKt , fi i2K
t∈X
i∈I,i≥n
t∈X
i∈I
= sup K(t, t)
t∈X
2
=κ
per (11)
per la continuità di K su X compatto.
Pertanto il primo termine è maggiorabile con una costante. Consideriamo ora il secondo termine.
Le funzioni hKx , fi i2K ossia fi (x)2 sono positive e continue essendo K
uno spazio di funzioni continue, inoltre per (11) la loro serie converge
a K(x, x), funzione continua. Poichè X è compatto possiamo applicare
il teorema del Dini (Teorema 17 in Appendice).
Per ogni > 0 esiste n ∈ N tale che per ogni n > n ,
X
sup
hKx , fi i2K < .
x∈X
i∈I,i≥n
In conclusione si ha dunque
2
X
sup K(x, t) −
hKt , fi iK hfi , Kx iK < κ2 .
x,t∈X
i∈I,i<n
t
u
1
Applichiamo questo risultato all’esempio di H = Hper
([0, 1]), esaminato
in Sezione 1.
Abbiamo visto che il kernel associato a questo spazio è
K(x, y) =
X e−2πik(y−x)
k∈Z
1 + k2
.
29
Sappiamo che
Z
∗
1
K(x, t) ej (t) dt dalla definizione di SS ∗
(SS ej )(x) =
0
1
X e−2πik(t−x)
ej (t) dt
1 + k2
0 k∈Z
X Z 1 e−2πik(t−x)
=
ej (t) dt poichè la serie converge uniformemente
2
1
+
k
0
k∈Z
Z
=
=
X e2πikx
δkj
1 + k2
k∈Z
=
e2πijx
ej (x)
=
.
1 + j2
1 + j2
Gli elementi ej sono una base ortonormale di autovettori di SS ∗ con
1
autovalori 1+j
2.
Il kernel si può dunque scrivere nella forma
X 1
K(x, y) =
ek (x) ek (y).
1 + k2
k∈Z
L’espressione trovata precedentemente in Sezione 1 è proprio la rappresentazione fornita dal Teorema di Mercer.
Osservazione. Se X non è compatto, allora una funzione continua
non è più necessariamente a quadrato integrabile.
Nella Proposizione 2 la condizione necessaria e sufficiente a garantire
che l’operatore S è di Hilbert-Schmidt è
Z
∗
tr(SS ) =
K(x, x)dµ(x) < +∞.
X
(Vedi p.210 [9]).
In tali ipotesi il teorema di Mercer resta valido ma al punto d) la
convergenza è uniforme solo sui sottoinsiemi compatti di X ×X. Infatti
la dimostrazione è analoga sostituendo X interpretato come X ×X con
C1 × C2 dove Ci sono compatti di X.
Osservazione. Supponiamo di avere un kernel K simmetrico ma di
non avere ipotesi di positività. Supponiamo anche che valga
Z
(12)
|K(x, t)|2 dµ(x) dµ(t) < +∞.
X×X
Si ha che l’operatore Lk : L2 (X, µ) → L2 (X, µ) definito da
Z
Lk f (x) =
K(x, t) f (t) dµ(t)
X
30
è un operatore di Hilbert-Schmidt, poichè vale (12).
La condizione (12) garantisce anche che l’operatore Lk è compatto, ed
essendo K simmetrico è anche autoaggiunto (Vedi p.1009 [4]).
Si può ottenere, in questo caso, una forma più debole del Teorema di
Mercer.
2
Sia {fi }N
i=1 una base ortonormale di L (X, µ) di autovettori di Lk con
autovalori λi , ossia tale che
Lk fi = λi fi .
2
Poichè {fi ⊗ fj }N
i,j=1 è una base ortonormale di L (X × X, µ ⊗ µ).
Il kernel K può essere scritto nella forma
X
K=
hK, fi ⊗ fj iµ⊗µ fi ⊗ fj
i,j
Valutiamo i coefficienti
Z Z
K(x, t) fi (x) fj (t) dµ(x) dµ(t)
hK, fi ⊗ fj iµ⊗µ =
x X
Z Z
= ( K(x, t) fi (x) dµ(x)) fj (t) dµ(t)
x
X
per Teorema di Fubini essendo X compatto
Z
=
Lk fi (t) fj (t) dµ(t) per la definizione di Lk
x
= hLk fi , fj iµ
= hλi fi , fj iµ
= λi δij = λi .
Da questo si deduce che il kernel è scrivibile nella forma
X
K=
λi f i ⊗ f j ,
i
2
ma la serie converge solo in L (X × X, µ ⊗ µ).
Osservazione. Se il supporto di µ non è tutto X, S non è più iniettivo
ma dalla dimostrazione segue che ker S = {Kx |x ∈ supp µ}⊥ .
Il Teorema di Mercer resta valido sostituendo a K lo spazio di Hilbert
generato da {Kx |x ∈ supp µ} e a X il supporto di µ.
Tuttavia le funzioni fi sono funzioni continue definite su tutto X.
Di conseguenza anche le autofunzioni ϕi , dell’operatore SS ∗ , aventi
autovalore strettamente positivo, possono essere scelte in C(X).
31
5. Applicazione
Come già detto nell’introduzione, un’applicazione di questi risultati è
per il riconoscimento delle immagini.
Supponiamo di avere n immagini P1 , · · · , Pn di un determinato soggetto
e supponiamo di ricevere una nuova immagine P . Vogliamo capire se
quest’ultima rappresenta lo stesso soggetto oppure no.
Come prima cosa, traduciamo le immagini in termini di coordinate, ad
esempio, nel caso delle foto, consideriamo i pixel,
xi = (ϕ1 (Pi ), · · · , ϕd (Pi )) ∈ X ⊂ Rd
con d >> n,
dove X è un aperto di Rd .
Le immagini saranno pertanto rappresentate in uno spazio di dimensione molto più grande rispetto alla numerosità del campione.
Tuttavia è ragionevole ipotizzare che le immagini del soggetto vivano
in un insieme Y di dimensionalità più bassa.
In altre parole Y = supp µ = F −1 (0), dove F : X → R è una funzione
continua.
Per modellizzare tale situazione si suppone che gli esempi siano campionati indipendentemente in accordo ad una distribuzione di probabilità
µ il cui supporto è Y.
L’obiettivo è determinare una funzione continua F : X → R tale che
F (x) = 0
se e solo se
x ∈ supp µ.
Per modellizzare la procedura di generazione di dati, introduciamo
(Ω, F, P) uno spazio di probabilità e ξ1 , . . . , ξn : Ω → X variabili aleatorie indipendenti e identicamente distribuite con legge µ.
Fissato ω ∈ Ω definiamo x1 = ξ1 (ω), . . . , xn = ξn (ω) la famiglia di
punti estratti in accordo a µ.
Vogliamo determinare una successione di funzioni
Fn : X → R,
Fn = Fx1 ,··· ,xn = Fξ1 ,...,ξn ,
continue, convergenti a F.
Più precisamente, poichè Fn sono variabili aleatorie richiediamo che,
fissato C compatto in X, valga
h
i
P {ω ∈ Ω| lim sup |F (x) − Fξ1 (ω),...,ξn (ω) (x)| = 0} = 1.
n→∞ x∈C
Costruiamo esplicitamente le funzioni F e Fn in termini di kernel
riproducente.
Passo 1. Fissiamo H spazio di Hilbert a nucleo riproducente tale che
32
a) il corrispondente kernel K : X × X → R sia continuo e limitato sulla
diagonale, ossia
sup K(x, x) ≤ κ2
b) H contenga le funzioni
x∈X
Cc∞ (X), ossia
Cc∞ (X) ⊂ H.
1
.
Ad esempio X = [0, 1] e H = Hper
In analogia con la Proposizione 2, definiamo dapprima un operatore
S : H → L2 (X, µ)
dato da
(Sf )(x) = f (x) = hf, Kx iH .
⊥
Dal precedente osservazione segue che ker S = span{Kx |x ∈ supp µ = Y } .
Con le stesse notazioni della Proposizione 2, definiamo l’operatore
SS ∗ : L2 (X, µ) → L2 (X, µ)
che è un operatore di Hilbert-Schmidt, e l’operatore
S ∗S : H → H
tale che
∗
Z
hf, Kx iH hKx , giH dµ(x).
hS Sf, giH =
X
Sia (ϕi )i∈I una base di L2 (X, µ) di autovettori di SS ∗ e definiamo le
funzioni fi per i ∈ I 0 = {i ∈ I|σi > 0} come
1
fi = S ∗ ϕi ,
σi
Per le proprietà del kernel riproducente, come già visto nel punto a)
del Teorema di Mercer, le funzioni fi possono anche essere scritte nella
forma
fi = σi ϕi .
0
Per ogni i ∈ I , nella seconda uguaglianza le funzioni fi devono essere
interpretate come rappresentanti continui, in quanto elementi di H,
dell’elemento σi ϕi ∈ L2 (X, µ).
Inoltre le funzioni (fi )i∈I 0 sono una base ortonormale di (kerS)⊥ .
Diamo una forma esplicita della funzione F, introdotta nella formulazione del problema, in termini di kernel riproducente:
X
F (x) = K(x, x) −
σi2 |ϕi (x)|2 .
i∈I 0
Teorema 4. F (x) = 0 se e solo se x ∈ Y = supp µ.
33
Dimostrazione. Sia x ∈ supp µ, allora segue che Kx ∈ (kerS)⊥ .
Ricordando che al passo precedente abbiamo scelto (fi )i∈I base ortonormale di (kerS)⊥ , si ha che
X
hKx , Kx iH =
hKx , fi iH hfi , Kx iH
i∈I
=
X
fi (x)fi (x) per la proprietà riproducente
i∈I
=
X
=
X
σi2 ϕi (x)ϕi (x)
dalla definizione di fi
i∈I
σi2 |ϕi (x)|2 .
i∈I
Inoltre dalla definizione di kernel riproducente ricordiamo che
hKx , Kx iH = K(x, x),
per cui si ha che
K(x, x) =
X
σi2 |ϕi (x)|2 ,
i∈I
ossia
F (x) = 0.
Sia x0 ∈
/ supp µ. Poichè supp µ è chiuso per definizione, allora esiste
una funzione f ∈ Cc∞ (X) tale che
f (x0 ) 6= 0 e f (x) = 0 per ogni x ∈ supp µ.
Poichè abbiamo assunto al passo 1 che Cc∞ (X) ⊂ H, la funzione f ∈ H
e per la proprietà riproducente segue che
hf, Kx0 iH 6= 0 e hf, Kx iH = 0 ∀x ∈ supp µ.
Dalla seconda si ricava che f è perpendicolare a Kx per ogni x ∈ supp µ,
inoltre, dato che x ∈ supp µ si ha che Kx ∈ (kerS)⊥ . Da cui
f ∈ kerS.
Dalla prima si ottiene invece che Kx0 ∈
/ (kerS)⊥ , pertanto Kx0 si scrive
Kx0 = g1 + g2
con g1 ∈ (kerS)⊥ e g2 ∈ kerS, g2 6= 0.
Passando alla norma si ottiene che
||Kx0 ||2H = ||g1 ||2H + ||g2 ||2H .
34
Inoltre dalla definizione di Kx0 e per la proprietà riproducente si ha
che
X
||g1 ||2H =
hg1 , fi i2H
i∈I
X
=
hKx0 , fi i2H
poichè g2 ∈ kerS
i∈I
=
X
=
X
fi (x0 )2
i∈I
σi2 |ϕi (x0 )|2 .
i∈I
Pertanto si ottiene che
F (x0 ) = ||g2 ||2H 6= 0
t
u
da cui si ricava la tesi.
Passo 2. Ci mettiamo ora in uno spazio finito-dimensionale, che ha
come dimensione la dimensione del campione. Ricondursi al caso finitodimensionale permette l’applicabilità di tali risultati.
In analogia al passo 1, introduciamo gli strumenti necessari.
Per ogni ω ∈ Ω e n ∈ N siano dunque
x1 = ξ1 (ω), . . . , xn = ξn (ω)
gli esempi estratti e definiamo l’operatore
Sn = Sξ1 (ω),...,ξn (ω) : H → Rn
tale che
(Sn f )j = hf, Kxj iH = f (xj ) = f (ξj (ω)) con j = 1, · · · , n.
Consideriamo pertanto Rn con il prodotto scalare
n
1X
hv, v i =
vj vj0 .
n j=1
0
Rispetto a questo prodotto scalare, l’aggiunto Sn∗ : Rn → H è dato da
n
Sn∗ v
1X
=
Kxj vj .
n j=1
Osserviamo per prima cosa che l’operatore Sn∗ Sn : H → H
n
Sn∗ Sn
1X
K xj ⊗ K xj
=
n j=1
è un operatore a rango finito e quindi di Hilbert-Schmidt.
35
Inoltre l’operatore Sn Sn∗ : Rn → Rn può essere scritto, rispetto alla base
canonica, nella forma
1
K(xi , xj )
n
dove K è una matrice simmetrica semidefinita positiva. Pertanto esiste
una base (v̂j )nj=1 ortonormale di Rn di autovettori per cui vale
(Sn Sn∗ )ij =
Sn Sn∗ v̂j = σˆj 2 v̂j .
Definiamo J 0 = {j|σ̂j > 0} e per ogni j ∈ J 0
1
fˆj = Sn∗ v̂j .
σˆj
L’insieme (fˆj )j∈J 0 è una base ortonormale di kerSn⊥ che si può completare a una base (fˆj )∞
j=1 di H.
Passo 3. Per la legge forte dei grandi numeri per variabili aleatorie in
spazi di Hilbert separabili (vedi [13]), esiste Ω0 ⊂ Ω con P(Ω0 ) = 1 tale
che per ogni ω ∈ Ω0
√
n
∗
∗
= 0.
(13)
lim ||Sn Sn − S S||HS
n→∞
log n
Tale condizione garantisce una buona convergenza per la successione
(σ̂i ) degli autovalori strettamente positivi.
Passo 4. Per ogni ω ∈ Ω e λ > 0 definiamo
Fnλ :
Fnλ (x)
X→R
= K(x, x) −
∞
X
j=1
σˆj 2
|fˆj (x)|2
σˆj 2 + λ
dove σˆj = 0 se j ≥ n.
Teorema 5. Sia (λn )n∈N una successione decrescente tale che λn → 0
per n → ∞ e
log n
sup √
= M < +∞.
n λn
n∈N
(14)
Esiste Ω0 ∈ Ω, P(Ω0 ) = 1 tale che per ogni ω ∈ Ω0 e C è un compatto
contenuto in X, allora
lim sup |F (x) − Fnλn (x)| = 0.
n→∞ x∈C
Dimostrazione. Sia Ω0 per cui vale (13) e mostriamo che per ogni
ωinΩ0
sup |F (x) − Fnλn (x)| → 0 per n → ∞.
x∈C
36
Notiamo che
|F (x) − Fnλn (x)| = |F (x) − F λn (x) + F λn (x) − Fnλn (x)|
≤ |F (x) − F λn (x)| + |F λn (x) − Fnλn (x)|
dove F λ (x) : X → R è definita da
F λ (x) = K(x, x) −
∞
X
i=1
σi2
|fi (x)|2 ,
σi2 + λ
con la convenzione che σi = 0 se i ∈
/ I 0.
Per prima cosa dimostriamo che, se ω ∈ Ω0 allora
sup |F λn (x) − Fnλn (x)| → 0 per n → ∞.
x∈X
Vale che
|F
λn
(x) −
Fnλn (x)|2
∞
X
=
i=1
∞
X
σi2
σˆj 2
2
2
ˆ
|f
(x)|
−
|
f
(x)|
i
j
2
σi2 + λn
σ
ˆ
+
λ
j
n
j=1
2
∞
X
=
σi2
hfi , Kx iH hfi , Kx iH +
2
σ
+
λ
n
i
i=1
∞
2
X
σˆj 2
ˆj , Kx iH hfˆj , Kx iH −
h
f
σˆj 2 + λn
j=1
(per la proprietà riproducente)
∞
∞
X
X
σi2
ˆ
ˆ
hfi , fj iH hKx , fj iH hfi , Kx iH +
=
σi2 + λn j=1
i=1
−
∞
X
∞
2
σˆj 2 X ˆ
ˆ
hfj , fi iH hKx , fi iH hfj , Kx iH 2
σˆj + λn i=1
j=1
∞
X
=
i,j=1
2
σˆj 2 ˆ
σi2
ˆj , Kx iH .
−
h
f
,
f
i
hK
,
f
i
h
f
j
i
H
x
i
H
σi2 + λn σˆj 2 + λn
Poniamo
αij =
σi2
σˆj 2 ˆ
−
hfj , fi iH
σi2 + λn σˆj 2 + λn
e
βij =
hKx , fi iH hfˆj , Kx iH .
Allora per Cauchy-Schwarz vale che
|
∞
X
i,j=1
2
αij βij | ≤
∞
X
i,j=1
2
|αij |
∞
X
i,j=1
|βij |2 .
37
Pertanto riscrivendo esplicitamente αij e βij
|F λn (x) − Fnλn (x)|2 ≤
∞ X
i,j=1
∞
X
2
(σˆj 2 − σi2 ) λn
2
ˆ
|h
f
,
f
i
|
·
j
i H
(σi2 + λn ) (σˆj 2 + λn )
2
|hKx , fi iH |
∞
X
2
ˆ
|hfj , Kx iH | .
j=1
i=1
Notiamo inoltre che
1 ∗
S ϕi )
σi
1
= S ∗ (SS ∗ ϕi )
σi
1
= σi2 S ∗ ϕi
σi
2
= σi fi ,
S ∗ Sfi = S ∗ S (
e analogamente per Sn∗ Sn fˆj , da cui
h (Sn∗ Sn − S ∗ S) fˆj , fi iH
2
2
= (σˆj 2 − σi2 ) hfˆj , fi iH .
Allora continuando la catena di disuguaglianze precedente si ottiene
2
1 X 2
2 ˆ
||Kx ||4
h(
σ
ˆ
−
σ
)
f
,
f
i
j
j
i
H
i
2
λn i,j
2
1 X ∗
hSn Sn − S ∗ S fˆj , fi iH ||Kx ||4
= 2
λn i,j
1 X ∗
= 2
||Sn Sn − S ∗ S||2HS κ4 .
λn i,j
|F λn (x) − Fnλn (x)|2 ≤
Pertanto
sup |F
x∈X
λn
(x) −
Fnλn (x)|
√
κ log n
n
√
||Sn∗ Sn − S ∗ S||HS
≤
λn
n log n
√
n
< κM
||S ∗ Sn − S ∗ S||HS → 0 per il passo 3
log n n
per n → ∞ se ω ∈ Ω0 per (13).
Fissiamo C compatto e consideriamo Fnλn − F.
38
Fnλn (x) − F (x) =
X
=
X
=
X
1−
i∈I 0
σ2
i∈I 0 i
i∈I 0
σi
λn
σi2 fi (x)2
σi2 + λn
λn
fi (x)2
+ λn
1
fi (x)2
+1
=: gn (x).
Notiamo che
σi
λn
1
|fi (x)|2 ≤ |fi (x)|2 ,
+1
dove
X
|fi (x)|2
i∈I 0
converge uniformemente su ogni compatto per il Teorema di Mercer,
infatti
X
X
σi2 ϕ2i (x) = K(x, x)
|fi (x)|2 =
i∈I 0
i∈I 0
converge uniformemente sui compatti e quindi gn è continua.
La successione (gn ) è decrescente, essendo λn descrescente. Mostriamo
che converge a 0 per n → ∞. Poichè la convergenza è uniforme vale
che
X
1
gn (x) = lim
|fi (x)|2
σi
n→∞
+1
i∈I 0 λn
X
1
=
lim
|fi (x)|2 = 0.
n→∞ σi + 1
λn
i∈I 0
Le funzioni gn sono positive, continue e convergono puntualmente a 0.
Inoltre, essendo la successione (gn ) monotona decrescente, per il Teorema del Dini per successioni, si ha che (gn ) converge uniformemente
a 0.
Pertanto la convergenza è uniforme sui compatti.
t
u
La condizione (14) controlla la velocità di convergenza dei λn , che non
deve essere troppo rapida ed è soddisfatta, ad esempio, scegliendo
log n
λn = √ .
n
39
Riassumendo, dati n esempi di immagini di un soggetto, per prima cosa
si diagonalizza la matrice
 2
  
σ
ˆ
0
v̂1
1
h1
i

  .. 
.
.
K(xi , xj ) = v̂1 · · · v̂n 
 . .
.
n
ij
2
v̂n
0
σˆn
Per gli autovalori σ̂j > 0, si definiscono le funzioni
n
1 1X
ˆ
K(x, xi )(v̂j )i .
fj (x) =
σˆj n i=1
Infine si pone
Fn (x) = K(x, x) −
∞
X
j=1
σˆj 2
|fˆj (x)|2 .
2
σˆj + λn
Data una nuova immagine x, questa è un’immagine del soggetto dato
se e solo se
x ∈ supp µ,
ossia se e soltanto se
lim Fn (x) = 0.
n→∞
40
6. Appendice
6.1. Spazi di Hilbert.
Definizione 3. (V, || · ||) è detto spazio normato se V è uno spazio
vettoriale e || · || è una funzione
|| · || : V → R
che soddisfa le seguenti proprietà, per ogni v, w ∈ V e per ogni α
scalare:
i) ||v|| ≥ 0 e vale ||v|| = 0 se e solo se v = 0
ii) ||αv|| = |α| ||v||
iii) ||v + w|| ≤ ||v|| + ||w||.
Ogni spazio vettoriale normato è uno spazio metrico con la metrica
indotta dalla norma d(x, y) = ||x − y||.
Definizione 4. Uno spazio normato è detto spazio di Banach se lo
spazio metrico associato è completo, ossia ogni successione di Cauchy
converge in V.
Sia V uno spazio vettoriale, definiamo prodotto interno l’applicazione
h·, ·i : V × V → R
che soddisfa le seguenti proprietà per ogni x, y, z ∈ V e α scalare:
i) hx, xi ≥ 0 e vale hx, xi = 0 se e solo se x = 0
ii) hx + y, zi = hx, zi + hy, zi
iii) hαx, yi = αhx, yi
iv) hx, yi = hy, xi.
Pertanto hx, αyi = αhx, yi.
Sia x ∈ V. Definiamo norma di x come ||x||2 = hx, xi.
Disuguaglianza di Cauchy-Schwarz. Per ogni x, y ∈ V si ha che
|hx, yi| ≤ ||x|| ||y||.
Definizione 5. Sia H uno spazio vettoriale dotato di prodotto scalare
h·, ·iH ; allora H è detto spazio di Hilbert se (H, || · ||) è uno spazio di
Banach.
Dati due vettori x, y in H spazio di Hilbert, questi sono detti ortogonali
se hx, yi = 0.
Una famiglia {xi } di vettori in H è detto sistema ortonormale se
hxi , xj i = δij .
41
Definizione 6. Se S è un sistema ortonormale in H, spazio di Hilbert, allora S è detto base ortonormale o sistema ortonormale completo, se nessun altro sistema ortonormale contiene S come sottoinsieme
proprio, ossia se, detti {xi } gli elementi di S, si ha che
i) hxi , xj i = δij ;
ii) {xi } è totale, ossia lo spazio di tutte le combinazioni lineari finite
di elementi di S è denso in H:
span {xi | i ∈ I} = H.
Definizione 7. Uno spazio metrico si dice separabile se ha un sottoinsieme numerabile denso.
Vale il seguente risultato.
Teorema 6. Uno spazio di Hilbert H separabile ammette una base
ortonormale numerabile.
Fissata una tale base {xi }, per ogni y ∈ H, valgono le seguenti proprietà:
P
1) y = i∈I hy, xi iH xi nel senso di H,
cioè vale che
||y −
n
X
hy, xi iH xi ||H → 0
per n → +∞.
i=1
2) ||y||2H =
P
3) hx, yiH =
i∈I
P
|hy, xi iH |2 .
i hx, xi iH
hy, xi iH e la serie converge assolutamente.
La cardinalità di due differenti basi è la stessa.
La dimensione di uno spazio di Hilbert è la cardinalità di una sua base
ortonormale e non dipende dalla base scelta.
Lemma 3. Una famiglia {fi }i∈I è totale in K se e solo se ({fi }i∈I )⊥ =
{0}.
Dimostrazione. Sia {fi }i∈I totale in K, ossia span{fi } = K. Sia
f ∈ K, ortogonale a fi , ∀i. Vogliamo dimostrare che f = 0.
Dato che
hf, fi iK = 0
per ogni i, allora f è ortogonale a ogni combinazione lineare finita,
n
X
hf,
fi iK = 0,
i
pertanto
f ∈ span{fi }⊥ .
42
Consideriamo f0 ∈ span{fi }, esiste una successione (fn ) ∈ span{fi }
che converge a f0 .
Allora
hf, f0 iK = limhf, fn iK = 0.
n
Pertanto
⊥
f ∈ span{fi } = K⊥ = {0},
poichè {fi }i∈I è totale in K.
⊥
Viceversa sia f ∈ span{fi } . Dobbiamo dimostare che f = 0.
Per ipotesi si ha che
hf, fi iK = 0,
per ogni i, da cui f = 0, per ipotesi.
t
u
Teorema 7. Siano H1 , H2 due spazi di Hilbert e siano S1 , S2 sottoinsiemi totali rispettivamente di H1 e H2 . Sia W : S1 → S2 una mappa surgettiva tale che hW v, W v 0 iH2 = hv, v 0 iH1 . Allora esiste unico
Ŵ : H1 → H2 operatore unitario tale che
Ŵ v = W v
per ogni v ∈ S1 .
Dimostrazione. Sia v ∈ spanS1 , v è del tipo v =
αi ∈ R e vi ∈ S1 .
Poniamo Ŵ v : spanS1 → spanS2
Ŵ v =
n
X
Pn
i=1
αi vi con
αi W vi .
i=1
Verifichiamo
Pmche Ŵ è ben definito. Supponiamo che v si scriva anche
come v = i=1 βi wi ; allora
n
X
αi vi =
i=1
m
X
βi w i .
i=1
Ponendo αn+i = −βi e vn+i = wi per ipotesi si ha che
n+m
X
i=1
αi vi = 0.
43
Vale che
n+m
X
0=h
=
i=1
n+m
X
αi vi ,
n+m
X
αi vi iH1
i=1
αi αj hvi , vj iH1
i,j=1
=
n+m
X
αi αj hW vi , W vj iH2
poichè W operatore unitario
i,j=1
=h
n+m
X
α i W vi ,
n+m
X
i=1
αi W vi iH2 .
i=1
Da cui segue che
n+m
X
αi W vi = 0,
i=1
e quindi
n
X
αi W vi =
i=1
m
X
βj W vj .
j=1
Chiaramente Ŵ è lineare e preserva il prodotto scalare
0
hŴ v, Ŵ v iH2
n
m
X
X
=h
α i W vi ,
βj W vj0 iH2
=
=
=
i=1
n
m
XX
i=1 j=1
n X
m
X
j=1
αi βj hW vi , W vj0 iH2
αi βj hvi , vj0 iH1
poichè W conserva prodotto scalare
i=1 j=1
hv, v 0 iH1 .
L’operatore Ŵ v : spanS1 → spanS2 si estende a un operatore isometrico, che denotiamo ancora con Ŵ v da H1 = spanS1 a H2 = spanS2 .
Poichè W S1 = S2 , anche Ŵ è surgettivo.
Pertanto Ŵ è un operatore isometrico.
Dimostriamo ora l’unicità.
Supponiamo esista un altro operatore unitario W1 , che prolunga W, tale
che W1 (S1 ) = S2 = Ŵ (S1 ). Poichè S1 è totale in H1 , i due operatori
W1 e Ŵ coincidono infatti, per ogni x ∈ H1 , esiste una successione
44
(xn ) ∈ S1 che converge a x, per cui vale
Ŵ (x) = Ŵ (lim xn )
n
= lim Ŵ (xn )
n
= lim W1 (xn )
n
= W1 (lim xn )
n
= W1 (x).
t
u
6.2. Operatori su spazi di Hilbert.
Definizione 8. Un operatore T : H1 → H2 è continuo se esiste c > 0
tale che ||T x||H2 ≤ c ||x||H1 per ogni x ∈ H1 .
Siano H1 , H2 spazi di Hilbert, denotiamo con L(H1 , H2 ) l’insieme delle
trasformazioni lineari e continue da H1 in H2 . L(H1 , H2 ) è uno spazio
vettoriale e diventa uno spazio di Banach con la norma
||T ||op =
sup ||T x||H2 .
||x||H1 =1
Usiamo la notazione L(H) per indicare L(H, H).
Definizione 9. Sia H uno spazio di Hilbert. Lo spazio L(H, C) è detto
spazio duale continuo di H ed è denotato con H∗ . Gli elementi di H∗
sono detti funzionali lineari continui.
Teorema 8. (Teorema di rappresentazione di Riesz). Per ogni
T ∈ H∗ , esiste un unico yT ∈ H tale che T (x) = hyT , xi per ogni x ∈ H.
L’operatore T 7→ yT è lineare. Inoltre ||yT ||H = ||T ||H∗ .
Per la dimostrazione vedere Theorem II.4 di [9].
Come conseguenza H e H∗ possono essere identificati come spazi di
Hilbert.
Definiamo il prodotto tensore tra due spazi di Hilbert.
Siano H1 , H2 due spazi di Hilbert. Per ogni x1 ∈ H1 , x2 ∈ H2 ,
denotiamo con x1 ⊗ x2 la forma bilineare che agisce su H1 × H2 come
(x1 ⊗ x2 )(y1 , y2 ) = hx1 , y1 iH1 hx2 , y2 iH2
per ogni (y1 , y2 ) ∈ H1 × H2 .
45
Definiamo inoltre un prodotto scalare
hx ⊗ y, z ⊗ tiH1 ⊗H2 = hx, ziH1 hy, tiH2 .
Definiamo prodotto tensore di H1 e H2 il completamento dello spazio
delle combinazioni lineari finite di x1 ⊗ x2 rispetto al prodotto scalare
sopra definito.
Sia T una trasformazione lineare continua da uno spazio di Hilbert H
in se stesso.
Definizione 10. La mappa T ∗ : H → H definita da
hT x, yiH = hx, T ∗ yiH
è detto aggiunto di T.
L’esistenza può essere provata nel modo seguente.
In generale, siano H1 e H2 due spazi di Hilbert e sia T : H1 → H2
un operatore lineare e continuo. Mostriamo che esiste un operatore
T ∗ : H2 → H1 lineare e continuo tale che
hT x, yiH2 = hx, T ∗ yiH1 .
Infatti per ogni y ∈ H2 il funzionale lineare Ly : H1 → R definito da
Ly x = hT x, yiH2
è continuo, infatti
|Ly x| = |hT x, yiH2 |
≤ ||T x||H2 ||y||H2
per la disuguaglianza di Cauchy-Schwarz
≤ ||T ||op ||x||H1 ||y||H2 .
Per il teorema di rappresentazione di Riesz, esiste un unico zy ∈ H1
tale che
Ly x = hx, zy iH2 .
L’operatore lineare
y ∈ H2 7→ zy ∈ H1
definisce l’aggiunto di T .
Valgono le seguenti proprietà:
i) (T S)∗ = S ∗ T ∗ per ogni S, T ∈ L(H)
ii) (T ∗ )∗ = T
iii) ||T ∗ ||op = ||T ||op .
Definizione 11. Un operatore T : H → H si dice auto-aggiunto se
T = T ∗.
Teorema 9. T ∈ L(H) ha range denso, cioè T (H) = H se e solo se
T ∗ è iniettivo.
46
Per la dimostrazione Proposition 1.8 [3].
Sia H uno spazio di Hilbert. Un operatore T ∈ L(H) è detto positivo
se hT x, xi ≥ 0 per ogni x ∈ H.
Un sottoinsieme B ⊂ H1 è detto relativamente compatto in H1 se la
chiusura di B è compatta in H1 .
Definizione 12. Siano H1 , H2 due spazi di Hilbert, un operatore T ∈
L(H1 , H2 ) è detto compatto se manda sottoinsiemi limitati di H1 in
sottoinsiemi relativamente compatti di H2 .
Sia A ∈ L(H) e λ ∈ R. λ è detto autovalore di A se esiste x ∈ H, non
nullo tale che
Ax = λx.
L’elemento x è detto autovettore.
Fissato λ si definisce autospazio relativo a λ lo spazio vettoriale
Vλ = {x ∈ H | Ax = λx}.
La molteplicità di λ è la dimensione di Vλ .
Teorema 10. (Teorema di Hilbert-Schmidt). Sia A un operatore
compatto auto-aggiunto su H. Allora esiste una base ortonormale {en }
di H tale che Aen = λn en con λn autovalori tali che λn → 0 per n → ∞.
Per la dimostrazione Theorem VI.16 [9].
Teorema 11. (Teorema di Riesz-Schauder). Sia A un operatore
compatto su H, allora l’insieme degli autovalori non nulli di A è discreto e ha come unico punto di accumulazione 0. Inoltre ogni autovalore
non nullo ha molteplicità finita.
Per la dimostrazione Theorem VI.15 [9].
Definizione 13. Sia H uno spazio di Hilbert separabile e sia {en }∞
n=1
una base ortonormale. Per ogni operatore positivo A ∈ L(H) si definisce traccia di A,
trA =
∞
X
hAen , en i.
n=1
Si dimostra che tale definizione è indipendente dalla base ortonormale
scelta.
47
P
In generale, se A è un operatore arbitrario, la serie ∞
n=1 hAen , en i può
essere indeterminata. Se tuttavia l’operatore A è positivo, ogni termine è hAen , en i ≥ 0, pertanto la serie converge assolutamente oppure
diverge a +∞.
Teorema 12. Se A è un operatore lineare, positivo e continuo, esiste
un unico operatore lineare, positivo e continuo B tale che B 2 = A.
L’operatore B è detto radice quadrata di A e si scrive B = A1/2 .
Dato A operatore lineare continuo, allora A∗ A è anch’esso un operatore
lineare, continuo e positivo e si definisce modulo di A
|A| = (A∗ A)1/2 .
Definizione 14. Un operatore A ∈ L(H) si dice di classe traccia se e
soltanto se
tr|A| < +∞.
Ossia se esiste una base ortonormale {en } di H tale che
∞
X
h(A∗ A)1/2 en , en i < +∞.
n=1
Lo spazio degli operatori di classe traccia è uno spazio di Banach con
la norma ||A||1 = tr|A| ≤ ||A||op .
Vediamo la relazione tra operatori di classe traccia e operatori compatti.
Teorema 13. Ogni operatore di classe traccia è compatto.
Viceversa un operatore compatto A è di classe traccia se e solo se
∞
X
λn < +∞
n=1
dove {λn }n sono gli autovalori di |A|.
Per la dimostrazione Theorem VI.21 [9].
6.3. Operatori di Hilbert-Schmidt.
Definizione 15. Sia H uno spazio di Hilbert separabile. Un operatore
T ∈ L(H) è detto di Hilbert-Schmidt se e solo se tr(T ∗ T ) < +∞.
Ossia se esiste una base ortonormale {en } di H tale che
∞
X
||T en ||2H < +∞.
n=1
48
La serie converge assolutamente ed è indipendente dalla scelta della
base (Rif. [8]).
Nel caso in cui lo spazio di Hilbert H è rappresentato come uno spazio L2 (X, µ), allora gli operatori di Hilbert-Schmidt possono essere
rappresentati nella forma
Z
K(x, t) f (t) dµ(t),
Lk (f )(x) =
X
con la condizione
Z Z
X
|K(x, t)|2 dµ(x) dµ(t).
X
Se il kernel K è simmetrico tale operatore Lk è anche autoaggiunto
(Rif. [4]).
Se un operatore T è di Hilbert-Schmidt, allora anche T ∗ è di HilbertSchmidt.
Lo spazio degli operatori di Hilbert-Schmidt è uno spazio di Hilbert
separabile rispetto al prodotto scalare
hA, BiH = trB ∗ A.
Teorema 14. (Teorema di convergenza monotona). Sia (X, µ) è
uno spazio di misura e sia {fn }n una successione crescente di funzioni
misurabili positive tale che fn (x) → f (x) per quasi ogni x ∈ X. Allora
f è misurabile e
Z
Z
lim
n→+∞
fn dµ =
X
f dµ.
X
Questo teorema si applica alle serie di funzioni misurabili positive.
Teorema 15. (Teorema del Dini). Sia X ⊂ Rn un insieme compatto,
{fn }n una successione di funzioni continue positive tale che
P
f
(x)
converge
n n
P a f (x) per ogni x ∈ X, dove f è una funzione
continua. Allora n fn converge uniformemente a f.
49
Riferimenti bibliografici
[1] Aronszajn, N. Theory of reproducing kernels. Trans. Amer. Math. Soc. 68,
(1950). 337–404.
[2] Baver Okutmustur, Reproducing kernel Hilbert spaces. Tesi di laurea
[3] Conway, J. B. A course in functional analysis. Second edition. Graduate Texts
in Mathematics, 96. Springer-Verlag, New York, 1990. xvi+399 pp.
[4] Dunford, N.; Schwartz, J. T. Linear operators. Part II. Spectral theory. Selfadjoint operators in Hilbert space. With the assistance of William G. Bade and
Robert G. Bartle. Reprint of the 1963 original. Wiley Classics Library. A WileyInterscience Publication. John Wiley & Sons, Inc., New York, 1988. pp. i–x,
859–1923 and 1–7.
[5] Godement, R. Les fonctions de type positif et la thorie des groupes. Trans. Amer.
Math. Soc. 63, (1948). 1–84.
[6] Kolmogorov, A. N. Stationary sequences in Hilbert space, in Selected Works.
Probability Theory and Mathematical Statistics, Vol. II (Kluwer, 1992), pp.
228–271.
[7] Kreı̈n, M. G. Hermitian positive kernels on homogeneous spaces. I. (Russian)
Ukrain. Mat. Žurnal 1, (1949). no. 4, 64–98.
[8] Lang, S. Real and functional analysis. (English summary) Third edition. Graduate Texts in Mathematics, 142. Springer-Verlag, New York, 1993. xiv+580
pp.
[9] Reed, M.; Simon, B. Methods of modern mathematical physics. I. Functional
analysis. Academic Press, New York-London, 1972. xvii+325 pp.
[10] Rudin, Walter Real and complex analysis. Third edition. McGraw-Hill Book
Co., New York, 1987. xiv+416 pp.
[11] Saitoh, S. Theory of reproducing kernels and its applications. Pitman Research
Notes in Mathematics Series, 189. Longman Scientific & Technical, Harlow;
copublished in the United States with John Wiley & Sons, Inc., New York,
1988. x+157 pp.
[12] Schoenberg, I. J. Metric spaces and positive definite functions. Trans. Amer.
Math. Soc. 44 (1938), no. 3, 522–536.
[13] Steinwart, I.; Christmann, A. Support vector machines. Springer, 2008. 601pp.
[14] Taylor, A. E.; Lay, D. C. Introduction to functional analysis. Reprint of the
second edition. Robert E. Krieger Publishing Co., Inc., Melbourne, FL, 1986.
xii+467 pp.