Computazione per l`interazione naturale: Regressione

Computazione per l’interazione naturale:
Regressione probabilistica
Corso di Interazione Naturale Prof. Giuseppe Boccignone
Dipartimento di Informatica
Università di Milano
[email protected]
boccignone.di.unimi.it/IN_2016.html
Regressione lineare
//modelli probabilistici: stima di ML
• Assumiamo rumore gaussiano additivo
precisione
• Allora
Regressione lineare
//modelli probabilistici: stima di ML
• Abbiamo N osservazioni nel
training set
• Considerando la probabilità
congiunta dei target
• Vogliamo stimare i parametri
w
Introduzione alla Statistica Bayesiana
//metodologia generale
• Obiettivo: predire un dato x sulla base di n osservazioni
S = {x1, . . . , xn}
• Tre step:
• Specifica del modello h con parametri di tuning
generazione dei dati in S
• Inferenza (learning dei parametri)
• Predizione
per la
Modello o
ipotesi h
Statistica Bayesiana
//stime puntuali
• Rinunciando ad un approccio completamente Bayesiano, si possono ottenere
stime puntuali dei parametri (ovvero i parametri diventano “numeri” e non VA)
• Stima Maximum A Posteriori (MAP)
• Stima di massima verosimiglianza (Maximum Likelihood, ML)
Esempio: stima di massima verosimiglianza
//caso Gaussiano
• Insieme di campioni x1, . . . , xn da distribuzione Gaussiana di parametri
ignoti (identicamente distribuiti)
• Campioni estratti indipendentemente:
• allora
• oppure usando la log-verosimiglianza
L’ipotesi
i.i.d
Esempio: stima di massima verosimiglianza
//caso Gaussiano
• Un vettore aleatorio
forma quadratica di x
• per il singolo campione
Esempio: stima di massima verosimiglianza
//
della Gaussiana
• Se
con covarianza nota e media da stimare
• per il singolo campione
• derivando il secondo termine rispetto a
(il primo è costante rispetto a teta)
• per tutti i campioni
• ponendo uguale a 0
media empirica
Esempio: stima di massima verosimiglianza
// Parametri della Gaussiana
• Se
con covarianza e media da stimare
• per il singolo campione
• derivando il secondo termine rispetto a
prima
e
ripetendo il procedimento di
media empirica
covarianza empirica
Regressione lineare
//stima di ML dei parametri
• Training set
• La likelihood è
L’ipotesi
i.i.d
funzione di costo
Regressione lineare
//modelli probabilistici: stima di ML
Funzione di
loss (errore)
quadratica
Regressione lineare
//modelli probabilistici: stima di ML
• Abbiamo che
max
min
punto stazionario
Regressione lineare
//modelli probabilistici: stima di ML
• Abbiamo che
max
min
punto stazionario
negativa
il punto stazionario è un max
soluzione di ML
=
equazioni normali
per i minimi quadrati
Regressione lineare
//modelli probabilistici: stima di ML
• Relazione tra parametri del modello e parametri stimati:
la curva deterministica
• ML è stimatore unbiased!
Regressione lineare
REGRESSIONE PROBABILISTICA
//modelli probabilistici: stima di ML
THE AUTHOR
• Analogamente possiamo anche fornire una stima ML della varianza del rumore,
!
Assumendo w = w
assumendo
N
∂L
N
1 "
! 2=0
=− + 2
(tn − xT w)
∂σ
σ
σ
(1)
n=1
(2)
N
1
1 "
! T (t − Xw)
!
! 2 = (t − Xw)
(tn − xT w)
σ
! =
N n=1
N
2
negativa
il punto stazionario è un max
Regressione lineare
//predizione e incertezza
•Possiamo effettuare la predizione sui dati nuovi (test set)
•Qual è l’incertezza sulle predizioni del modello?
1
Regressione lineare
//predizione e incertezza
•Possiamo effettuare la predizione sui dati nuovi (test set)
•Qual è l’incertezza sulle predizioni del nostro modello?
•Usiamo la covarianza...
l’incertezza è legata alla covarianza dei parametri stimati !!
Regressione lineare
//modelli probabilistici: stima di ML
• Qual è l’incertezza sulle predizioni del nostro modello?
Regressione lineare
//modelli probabilistici: stima di ML
• Qual è l’incertezza sui parametri stimati?
• E’ legata alla covarianza dei parametri stimati...
• Poichè ML è stimatore unbiased:
rumore a media 0
Regressione lineare
//modelli probabilistici: stima di ML
• Qual è l’incertezza sulle stime del nostro modello?
• E’ legata alla covarianza dei parametri stimati...
• Si ottiene
piccola curvatura
=
elevata varianza
=
parametri poco significativi
Regressione lineare
//modelli probabilistici: stima di ML
• Qual è l’incertezza sulle stime del nostro modello?
REGRESSIONE PROBABILISTICA
THE AUTHOR
!
sumendo w = w
N
∂L
N
1 "
! 2=0
=− + 2
(tn − xT w)
∂σ
σ
σ
n=1
σ
!2 =
!
lazione tra w e w
N
1
1 "
! T (t − Xw)
!
! 2 = (t − Xw)
(tn − xT w)
N n=1
N
#
!
wp(t|X,
w, σ)dt
Regressione
lineare
#
= (X X) della
X
tp(t|X,
w, σ)dt
//andamento
funzione
di log-likelihood
! =
Ep(t|X,w,σ) [w]
−1
T
T
= (XT X)−1 XT Ep(t|X,w,σ) [t]
= (XT X)−1 XT Xw
= w
edizione:
elihood:
! T xnew
tnew = w
$
%
2
σnew
= var{tnew } = Ep(t|X,w,σ) t2new − (Ep(t|X,w,σ) [tnew ])2
= σ 2 xTnew (XT X)−1 xnew
! new
= xTnew cov{w}x
N
N
&2
&2 − 1 N σ
log 2π −
log σ
&
2
2
2
2σ
N
N
&2
= − (1 + 2 log 2π) −
log σ
2
2
log L = −
1
Regressione lineare
//stima di ML dei parametri di generiche funzioni di x
• La likelihood è • Dove la funzione di costo o di errore è
Regressione lineare
//stima di ML dei parametri di generiche funzioni di x
max
min
equazioni normali
per i minimi quadrati
Regressione lineare
//modelli probabilistici: stima di ML
• Abbiamo generalizzato il risultato già ottenuto per la retta
equazioni normali
per i minimi quadrati
design
matrix
Regressione lineare
//modelli probabilistici: stima di ML
• Possiamo computare il Minimo di ED(w) anche in modo non analitico: metodo
di discesa del gradiente (procedura iterativa)
• Inizializzazione
• while ( ~ condizioneTerminazione)
i = i+1;
Regressione lineare
//modelli probabilistici: stima di ML
• Possiamo computare il Minimo di ED(w) anche in modo non analitico: metodo
di discesa del gradiente (procedura iterativa)
• Inizializzazione
• while ( ~ condizioneTerminazione)
i = i+1;