(F94) Metodi statistici per l’apprendimento Compression bounds Docente: Nicolò Cesa-Bianchi versione 4 giugno 2016 In questa lezione vediamo come limitare il rischio statistico del classificatore prodotto da un algoritmo di apprendimento in grado di rappresentare tale classificatore usando un piccolo sottoinsieme del training set. Consideriamo una sequenza di esempi S = (x1 , y1 ), . . . , (xm , ym ) da utilizzare come training set per un problema di classificazione binaria e consideriamo un algoritmo di classificazione A che dato il training set S in input genera un classificatore A(S). Chiamiamo sketch una qualsiasi sottosequenza S0 di S tale che A(S0 ) = A(S). Ovvero A con input S0 genera lo stesso classificatore di A con input S (si noti che questo è vero per qualsiasi algoritmo A dato che S0 può essere anche uguale ad S). Vogliamo limitare il rischio er(b h) in termini di er( e b h), dove er( e b h) = 1 |S \ S0 | X I{b h(xt ) 6= yt } (xt ,yt )∈S\S0 è la frazione di errori commessi da h sulla sottosequenza di training set S \ S0 che non include gli esempi dello sketch. Indichiamo con σ(A, S) lo sketch S0 che l’algoritmo A produce con input S. Quindi, se σ(A, S) = S0 allora A(S0 ) = A(S). Inoltre, sia |S0 | la dimensione dello sketch S0 . Per ogni J ⊆ {1, . . . , m} sia SJ la sottosequenza del training set che contiene soltanto gli esempi indicizzati da J. Procediamo ora a limitare il rischio di A(S). Per comodità, nel resto dell’analisi consideriamo solo . algoritmi A tali che σ(A, S) ≤ m 2 Introducendo εk > 0 da determinare in seguito notiamo che, per ogni training set S fissato, er A(S) > er e A(S) + ε|σ(A,S)| implica ∃J, |J| ≤ m e A(SJ ) + ε|σ(A,S)| 2 , er A(SJ ) > er dove SJ = σ(A, S). Quindi possiamo scrivere P er A(S) > er e A(S) + ε|σ(A,S)| ≤ P ∃J, |J| ≤ m 2, er A(SJ ) > er e A(SJ ) + ε|σ(A,S)| m/2 ≤ X X P er A(SJ ) > er e A(SJ ) + εk k=0 J : |J|=k dove abbiamo usato la regola della somma P(A ∪ B) ≤ P(A) + P(B). Si noti che er e A(SJ ) denota la frazione di errori di A(SJ ) sugli esempi (xt , yt ) del training set tali che t 6∈ J. Ora, in ciascuna probabilità P er A(SJ ) > er e A(SJ ) + εk il classificatore A(SJ ) per definizione è indipendente da tutti gli m − k esempi (xt , yt ) di training tali che t 6∈ J. Quindi er e A(SJ ) , che è proprio determinato da questi m − k esempi, è una media 1 campionaria di un classificatore fissato ed ha valore atteso er A(SJ ) . Possiamo quindi applicare il maggiorante di Chernoff-Hoeffding ottenendo m/2 X X 2 P er A(S) > er e A(S) + ε|σ(A,S)| ≤ e−2(m−k)εk . k=0 J : |J|=k Ora, scegliendo s εk = 1 m 1 1 ln + ln wk δ (1) dove i pesi wk ≥ 0, che determineremo in seguito, soddisfano m/2 X X wk ≤ 1 (2) k=0 J : |J|=k otteniamo m/2 X X m/2 e −2(m−k)ε2k ≤ k=0 J : |J|=k 2 X X e−mεk dato che k ≤ m/2 k=0 J : |J|=k m/2 ≤ X X δ wk usando (1) k=0 J : |J|=k ≤δ usando (2). Quindi, con probabilità almeno 1 − δ rispetto all’estrazione del training set abbiamo s 1 1 1 er A(S) ≤ er e A(S) + ln . + ln m w|σ(A,S)| δ Si noti ora che per soddisfare (2) è sufficiente definire wk = Utilizzando il maggiorante m k ≤ 1 m m k . em k k vediamo che 1 m em ln = ln m + ln ≤ ln m + k ln ≤ k + (k + 1) ln m . wk k k Quindi, con probabilità almeno 1 − δ rispetto all’estrazione del training set abbiamo infine s 1 1 |σ(A, S)| + |σ(A, S)| + 1 ln m + ln . er A(S) ≤ er e A(S) + m δ 2 (3)