(F94) Metodi statistici per l’apprendimento
Compression bounds
Docente: Nicolò Cesa-Bianchi
versione 4 giugno 2016
In questa lezione vediamo come limitare il rischio statistico del classificatore prodotto da un algoritmo di apprendimento in grado di rappresentare tale classificatore usando un piccolo sottoinsieme
del training set.
Consideriamo una sequenza di esempi S = (x1 , y1 ), . . . , (xm , ym ) da utilizzare come training set
per un problema di classificazione binaria e consideriamo un algoritmo di classificazione A che
dato il training set S in input genera un classificatore A(S). Chiamiamo sketch una qualsiasi
sottosequenza S0 di S tale che A(S0 ) = A(S). Ovvero A con input S0 genera lo stesso classificatore
di A con input S (si noti che questo è vero per qualsiasi algoritmo A dato che S0 può essere anche
uguale ad S). Vogliamo limitare il rischio er(b
h) in termini di er(
e b
h), dove
er(
e b
h) =
1
|S \ S0 |
X
I{b
h(xt ) 6= yt }
(xt ,yt )∈S\S0
è la frazione di errori commessi da h sulla sottosequenza di training set S \ S0 che non include gli
esempi dello sketch.
Indichiamo con σ(A, S) lo sketch S0 che l’algoritmo A produce con input S. Quindi, se σ(A, S) = S0
allora A(S0 ) = A(S). Inoltre, sia |S0 | la dimensione dello sketch S0 . Per ogni J ⊆ {1, . . . , m} sia
SJ la sottosequenza del training set che contiene soltanto gli esempi indicizzati da J.
Procediamo ora a limitare
il rischio
di A(S). Per comodità, nel resto dell’analisi consideriamo solo
.
algoritmi A tali che σ(A, S) ≤ m
2 Introducendo εk > 0 da determinare in seguito notiamo che,
per ogni training set S fissato,
er A(S) > er
e A(S) + ε|σ(A,S)|
implica
∃J, |J| ≤ m
e A(SJ ) + ε|σ(A,S)|
2 , er A(SJ ) > er
dove SJ = σ(A, S). Quindi possiamo scrivere
P er A(S) > er
e A(S) + ε|σ(A,S)| ≤ P ∃J, |J| ≤
m
2,
er A(SJ ) > er
e A(SJ ) + ε|σ(A,S)|
m/2
≤
X X
P er A(SJ ) > er
e A(SJ ) + εk
k=0 J : |J|=k
dove abbiamo usato la regola della somma P(A ∪ B) ≤ P(A) + P(B). Si noti che er
e A(SJ ) denota
la frazione di errori di A(SJ ) sugli esempi (xt , yt ) del training set tali che t 6∈ J. Ora, in ciascuna
probabilità
P er A(SJ ) > er
e A(SJ ) + εk
il classificatore A(SJ ) per definizione
è indipendente da tutti gli m − k esempi (xt , yt ) di training
tali che t 6∈ J. Quindi er
e A(SJ ) , che è proprio determinato da questi m − k esempi, è una media
1
campionaria di un classificatore fissato ed ha valore atteso er A(SJ ) . Possiamo quindi applicare
il maggiorante di Chernoff-Hoeffding ottenendo
m/2
X X
2
P er A(S) > er
e A(S) + ε|σ(A,S)| ≤
e−2(m−k)εk .
k=0 J : |J|=k
Ora, scegliendo
s
εk =
1
m
1
1
ln
+ ln
wk
δ
(1)
dove i pesi wk ≥ 0, che determineremo in seguito, soddisfano
m/2
X X
wk ≤ 1
(2)
k=0 J : |J|=k
otteniamo
m/2
X X
m/2
e
−2(m−k)ε2k
≤
k=0 J : |J|=k
2
X X
e−mεk
dato che k ≤ m/2
k=0 J : |J|=k
m/2
≤
X X
δ wk
usando (1)
k=0 J : |J|=k
≤δ
usando (2).
Quindi, con probabilità almeno 1 − δ rispetto all’estrazione del training set abbiamo
s 1
1
1
er A(S) ≤ er
e A(S) +
ln
.
+ ln
m
w|σ(A,S)|
δ
Si noti ora che per soddisfare (2) è sufficiente definire
wk =
Utilizzando il maggiorante
m
k
≤
1
m
m
k
.
em k
k
vediamo che
1
m
em
ln
= ln m + ln
≤ ln m + k ln
≤ k + (k + 1) ln m .
wk
k
k
Quindi, con probabilità almeno 1 − δ rispetto all’estrazione del training set abbiamo infine
s 1
1
|σ(A, S)| + |σ(A, S)| + 1 ln m + ln
.
er A(S) ≤ er
e A(S) +
m
δ
2
(3)