Principali Paradigmi di Apprendimento: Richiamo Dati Dati (cont

Sistemi di Elaborazione dell’Informazione
21
Sistemi di Elaborazione dell’Informazione
22
Principali Paradigmi di Apprendimento: Richiamo
Dati
Consideriamo il paradigma di Apprendimento Supervisonato
Dati a nostra disposizione (off-line)
Apprendimento Supervisionato:
Dati
, apprendere
dato in insieme di esempi pre-classificati,
una descrizione generale che incapsula l’informazione contenuta negli esempi
):
Suddivisione tipica (
(regole valide su tutto il dominio di ingresso)
usato alla fine dell’apprendimento per stimare la bontà della soluzione.
dell’insieme di apprendimento)
per le istanze
Test Set
si assume che un esperto (o maestro) ci fornisca la supervisone
(cioè i valori della
usato direttamente dall’algoritmo di apprendimento;
)
predire l’output associato
(dato un nuovo ingresso
Training Set
tale descrizione deve poter essere usata in modo predittivo
Training Set
Find-S è un algoritmo di apprendimento supervisionato
Test Set
Dati
Alessandro Sperduti
Alessandro Sperduti
Sistemi di Elaborazione dell’Informazione
23
Sistemi di Elaborazione dell’Informazione
24
Errore Ideale
Dati (cont.)
Spazio di Ingresso X
Se
abbastanza grande il Training Set è ulteriormente suddiviso in due
sottoinsiemi (
-
):
f
-
h
+
Training Set’
+
usato direttamente dall’algoritmo di apprendimento;
!
!
Dove f
e h differiscono
usato indirettamente dall’algoritmo di apprendimento.
"
Il Validation Set serve per scegliere l’ipotesi
-
Validation Set
#
$
migliore fra quelle consistenti
Supponiamo che la funzione
da apprendere sia una funzione booleana (concetto):
%
(
rispetto al concetto
7
) di una ipotesi
e la distribuzione di
%
2
76 .
4
45
34
Def: L’Errore Ideale (
-2
-.
,+
*)
'
&%
Training Set
1+
/0)
con il Training Set’
Training Set’
Validation Set
Test Set
classifichi
.
9 2D
BC7 A
92
% .@
76 .
4
45
34
Alessandro Sperduti
:
<4 ? >
; =
2
8
Alessandro Sperduti
7
:
Dati
) è la probabilità che
9
(probabilità di osservare l’ingresso
'
8
probabilità
erroneamente un input selezionato a caso secondo
Sistemi di Elaborazione dell’Informazione
25
Sistemi di Elaborazione dell’Informazione
26
Errore di Apprendimento
PAC learning
Spazio di Ingresso X
E’ possibile sviluppare una teoria che non ha bisogno del Validation Set e che e` in grado di
h2
-
f
dirmi di quanti esempi di apprendimento ho bisogno per ottenere una ipotesi che risponda a
-
h0
+
determinati criteri di qualità ?
h1
+
Per l’apprendimento di concetti una possibile risposta (parziale) è la teoria del PAC Learning
(Probabily Approximately Correct Learning)
-
Dove f
e h differiscono
Assunzioni: tutti gli input ed output sono binari, e i dati non contengono rumore e sono estratti
secondo una distribuzione di probabilità
,
quale scegliere ?
7
4
Vantaggi:
è il numero di esempi
è possibile definire dei bound sul numero di esempi di apprendimento per garantire che
rispetto a
7
) di una ipotesi
7.
4
45
34
Def: L’Errore Empirico (
,
7
7
= Training Set’, pi `u ipotesi possono essere consistenti:
4
Dato
2
-
.
con una certa probabilità un algoritmo di apprendimento è in grado di restituire una
92
:
:
:
se
7
4
ipotesi con errore ideale basso (approssimazione)
tale che
è possibile caratterizzare formalmente la complessità computazionale nell’apprendere
2
2
76 .
4
45
34
2
2
76 .
4
45
34
.
7.
4
45
34
7.
4
45
34
, ma
2
.)
+% .
2
7
è sovraspecializzata (overfit)
4
92
9
7.
4
45
34
7
Def: Una ipotesi
CB7A
92
%.
;
classifica erroneamente:
che
arbitraria ma stazionaria.
8
'
da
determinate classi di concetti
Il Validation Set serve per cercare di selezionare l’ipotesi migliore (evitare overfit).
Alessandro Sperduti
Alessandro Sperduti
Sistemi di Elaborazione dell’Informazione
27
Sistemi di Elaborazione dell’Informazione
28
PAC learning
di possibili concetti target (funzioni da apprendere) definite su un
Consideriamo una class
'
di lunghezza
insieme di istanze
PAC learning
E’ stato dimostrato che se si assume:
(ad esempio stringhe binarie), ed un algoritmo di
:
che utilizza uno spazio delle ipotesi
.
apprendimento
consistente, cioè restituisce una ipotesi consistente con l’insieme di apprendimento
usando
è PAC-apprendibile da
Definizione:
se per tutti i
(Find-S è un algoritmo consistente)
:
,
,
'
8
restituisce un’ipotesi
:
a patto che il numero di esempi di apprendimento
2
76 .
4
45
34
tale che
7
,
2
.
su
, l’algoritmo di apprendimento
/
allora con probabilità almeno
distribuzioni
soddisfi la seguente disuguaglianza:
,
,
tali che
*
,
*
tali che
,
,
1
22
.
2
.
7
:
2
.
è il logaritmo in base naturale
2
.
2
Alessandro Sperduti
è la cardinalità dello spazio delle ipotesi e
dove
(spazio di
2
3.
,e
,
76 .
4
45
34
,
,
,
, in tempo che e` polinomiale in
memoria che serve per rappresentare ).
Alessandro Sperduti
, .
restituisce un’ipotesi
,
con probabilità almeno
/
l’algoritmo di apprendimento
tale che
Sistemi di Elaborazione dell’Informazione
29
Sistemi di Elaborazione dell’Informazione
30
PAC learning
letterali PAC-apprendibile usando Find-S con
? Si !
E’ la congiunzione di
PAC learning
Usando la disuguaglianza ed altre considerazioni si è potuto dimostrare che alcune classi di
concetti non sono PAC-apprendibili considerando un particolare algoritmo di apprendimento e
Infatti:
spazio delle ipotesi.
letterali è inclusa in
ogni congiunzione di
In particolare si è dimostrato che:
Find-S è un algoritmo consistente
'
non è
1
1
22 .
.
.
22 .
2
.
.
1
,2
1
allora
contiene tutte le funzioni booleane realizzabili su
B
se
,
B
e poichè
PAC-apprendibile da algoritmi consistenti.
,
1
2
1
22
.
.
,2
.
, .
esistono classi di concetti
che non sono apprendibili da algoritmi consistenti che
come spazio delle ipotesi, ma diventano PAC-apprendibili se come spazio
(che non compare)
2
3.
,e
,
,
,
,
è polinomiale in
quindi
utilizzano
Un problema con l’uso della disuguaglianza e` che questa diventa inutile se
) e la dimensione
non è finito
2
3.
l’ipotesi corrente (che è di dimensione maggiore o uguale a
delle ipotesi si usano opportuni
per ogni esempio di apprendimento Find-S esegue una elaborazione che è lineare con
Quello che in realtà interessa è caratterizzare la “potenza” di uno spazio delle ipotesi: la
4
), quindi di nuovo polinomiale, e globalmente polinomiale per
dell’input (
Quindi tutte le condizioni per la PAC-apprendibilità sono soddisfatte!
VC-dimension (Vapnik-Chervonenkis) fornisce una risposta in questa direzione
Alessandro Sperduti
Alessandro Sperduti
Sistemi di Elaborazione dell’Informazione
31
Sistemi di Elaborazione dell’Informazione
32
VC-dimension
VC-dimension: Esempio
Definizione: Frammentazione (Shattering)
Quale è la VC-dimension di
?
!:
+
!:
+
1
B
%
%
-
2
.
)
.
.
B
,
9
:
:
:
+
92
7 +
7+
9
tale che
2
se e solo se
2
è frammentato (shattered) dallo spazio delle ipotesi
B
,
'
Dato
.
realizza tutte le possibili dicotomie di
)
−
(
Definizione: VC-dimension
La VC-dimension di uno spazio delle ipotesi
'
definito su uno spazio delle istanze
'
dalla cardinalità del sottoinsieme pi `u grande di
cheè frammentato da
è data
f() = −1
:
B
&
2
.
frammenta
f() = +1
B
se
non è limitato
2
.
iperpiano
Alessandro Sperduti
Alessandro Sperduti
w .y + b = 0
+
w
Sistemi di Elaborazione dell’Informazione
33
Sistemi di Elaborazione dell’Informazione
34
VC-dimension: Esempio
?
. Vediamo cosa succede con 3 punti:
,
Quindi
banale. Vediamo cosa succede con 2 punti:
Quale è la VC-dimension di
?
Quale è la VC-dimension di
VC-dimension: Esempio
2
.
2
.
−
+
w
−
−
+
w
+
−
+
−
+
+
+
−
+
+
+
−
+
+
+
+
+
+
−
−
+
+
+
−
−
−
+
w
−
−
−
+
w
−
+
+
w
−
−
+
−
+
−
−
+
−
−
+
−
−
−
−
+
−
Alessandro Sperduti
Alessandro Sperduti
Sistemi di Elaborazione dell’Informazione
35
Sistemi di Elaborazione dell’Informazione
36
VC-dimension: Esempio
Quale è la VC-dimension di
?
. Cosa succede con 4 punti ? Non si riesce a frammentare 4 punti!!
Quindi
. Cosa succede con 4 punti ?
Quindi
?
Quale è la VC-dimension di
VC-dimension: Esempio
2
.
2
.
Infatti esisteranno sempre due coppie di punti che se unite con un segmento provocano una
intersezione fra i due segmenti e quindi, ponendo ogni coppia di punti in classi diverse, per
B
separarli non basta una retta, ma occorre una curva. Quindi
Alessandro Sperduti
2
.
Alessandro Sperduti
Sistemi di Elaborazione dell’Informazione
37
Sistemi di Elaborazione dell’Informazione
38
PAC learning
VC-dimension
E’ stato dimostrato che se si assume:
, infatti
$
si ha
può realizzare
$
$
frammenta
tale che
:
Per ogni
consistente, cioè restituisce una ipotesi consistente con l’insieme di apprendimento
$
$
Dimostriamo che
$
$
si ottiene
per cui vale
2
.
Scegliendo un
.
restituisce un’ipotesi
:
a patto che il numero di esempi di apprendimento
, che sono esattamente
,
76 .
4
45
34
7
tale che
, l’algoritmo di apprendimento
/
allora con probabilità almeno
tutte le possibili dicotomie di
(Find-S è un algoritmo consistente)
2
soddisfi la seguente disuguaglianza:
ad entrambi i membri dell’ultima disuguaglianza, possiamo
Quindi, applicando
,
,
$
$
1
22
.
2
.
2
.
, .
concludere che
$
$
Notare che vale
Alessandro Sperduti
Alessandro Sperduti
Sistemi di Elaborazione dell’Informazione
39
Sistemi di Elaborazione dell’Informazione
40
Compiti di Classificazione pi`
u Complessi
Giocare a Tennis!!
E’ la giornata ideale per giocare a Tennis ?
In molte applicazioni del mondo reale non è sufficiente apprendere funzioni
booleane con ingressi binari.
Gli Alberi di Decisione sono particolarmente adatti a trattare:
istanze rappresentate da coppie attributo-valore;
funzioni target con valori di output discreti (in generale più di 2 valori);
esempi di apprendimento che possono contenere errori e/o avere valori
mancanti.
Inoltre, algoritmi di apprendimento per Alberi di Decisione sono in genere molto
veloci.
Per questi motivi gli Alberi di Decisione sono molto utilizzati in applicazioni pratiche.
Alessandro Sperduti
Alessandro Sperduti
Day
Outlook
Temperature
Humidity
Wind
PlayTennis
D1
Sunny
Hot
High
Weak
No
D2
Sunny
Hot
High
Strong
No
D3
Overcast
Hot
High
Weak
Yes
D4
Rain
Mild
High
Weak
Yes
D5
Rain
Cool
Normal
Weak
Yes
D6
Rain
Cool
Normal
Strong
No
D7
Overcast
Cool
Normal
Strong
Yes
D8
Sunny
Mild
High
Weak
No
D9
Sunny
Cool
Normal
Weak
Yes
D10
Rain
Mild
Normal
Weak
Yes
D11
Sunny
Mild
Normal
Strong
Yes
D12
Overcast
Mild
High
Strong
Yes
D13
Overcast
Hot
Normal
Weak
Yes
D14
Rain
Mild
High
Strong
No