Regressione non lineare

Regressione non lineare
Introduzione
Ottimizzazione: definizione funzione obiettivo
Metodi diretti
Metodi del gradiente
Metodo della massima pendenza
Metodo di Newton-Raphson
Metodo di Gauss-Newton
Metodo
d d
di Levenberg-Marquardt
b
d
Matrice di covarianza per parametri (cenni)
Regressione non lineare Introduzione
Regressione
non lineare
• Sino ad ora si sono considerati casi in cui i modelli fossero lineari
nei parametri:
y = β 0 + β1 f1 + β 2 f 2 + ... + +β k f K
• Tale scrittura risulta più generica di quanto sembri dato che la
singola variabile regressore può essere una funzione non lineare
generica delle condizioni sperimentali.
• Esempi:
f1 = z 2 z
f 2 = log(z )
etc.
Analisi dei Processi Chimici e Biotecnologici Regressione non lineare
1
Regressione non lineare Introduzione
Regressione
non lineare
• Ci possono essere dei casi in cui il modello fisico non può essere
più descritto da una dipendenza lineare nei parametri:
[
y = exp θ1 + θ1 x 2
]
θ1
y=
[exp(− θ1 x ) − exp(− θ 2 x )]
θ1 + θ 2
1)
2)
• Il modello 1) può essere “linearizzato”, come visto nelle precedenti
lezioni.
– NB: Trasformazioni non lineari di variabili aleatorie sono
comunque da evitare
• Il modello 2) non permette invece alcun tipo di linearizzazione.
Regressione non lineare Introduzione
Regressione
non lineare
• I modelli non lineari possono essere scritti nella generica forma:
y = f (x, θ )
• Nei casi precedenti:
x = {x}
⎧θ ⎫
θ = ⎨ 1⎬
⎩θ 2 ⎭
• Per la generica prova si può scrivere:
yi = f (x i , θ )
Analisi dei Processi Chimici e Biotecnologici Regressione non lineare
2
Regressione non lineare Introduzione
Regressione
non lineare
• Come nel caso lineare si può definire la funzione somma
quadratica degli errori:
n
Φ (θ ) = ∑ ( yi − f (x i , θ ))2
i =1
• Tale funzione dipende solo dal vettore parametri θ, dato che le
osservazioni yi e le corrispondenti condizioni sperimentali xi sono
fissate.
• Si può quindi applicare il metodo dei Minimi Quadrati,
analogamente
l
t all caso li
lineare: il valore
l
d
dell vettore
tt
θ che
h rende
d
minima la distanza tra i valori osservati ed i valori predetti dal
modello (e quindi la funzione Φ(θ)) è il vettore θ ricercato.
Regressione non lineare Introduzione
• Da notare che nel caso in cui:
(
ε i = N 0,σ 2I
Regressione
non lineare
)
• Lo stimatore θ dei minimi quadrati coincide con lo stimatore
Massima Verosimiglianza:
(
) (
L θ,σ 2 = 2πσ 2
)
−
n
2
⎡
ε2⎤
exp ⎢− ∑ 2i ⎥ = 2πσ 2
⎣ 2σ ⎦
(
)
−
n
2
⎡ Φ (θ )⎤
exp ⎢−
2⎥
⎣ 2σ ⎦
• Cercare il minimo della funzione Φ(θ) equivale a cercare il
massimo della funzione Verosimiglianza, indipendentemente dal
valore che assume σ2.
Analisi dei Processi Chimici e Biotecnologici Regressione non lineare
3
Regressione non lineare Introduzione
Regressione
non lineare
• Se si differenzia rispetto al vettore parametri θ, non si perviene ad
una soluzione analitica, come nel caso della regressione lineare
∂ Φ(θ ) n
∂ Φ(θ )
= ∑ ( yi − f ( xi , θ ))
=0
∂ θi
∂ θi x
i =1
i
Funzioni non lineari di θ
• In conclusione, si approda ad un sistema di equazioni non lineari.
Regressione non lineare Introduzione
Regressione
non lineare
• Conseguenze della non linearità:
– Non è possibile ottenere una soluzione analitica del problema.
– Il vettore θ sarà una funzione non lineare delle condizioni
sperimentali xi e dei valori osservati yi (supposti gaussiani): i
parametri quindi non saranno più delle variabili aleatorie di tipo
gaussiano.
– Non è affatto detto che esista una ed una sola soluzione del
sistema di equazioni non lineari
Analisi dei Processi Chimici e Biotecnologici Regressione non lineare
4
Regressione non lineare Introduzione
Regressione
non lineare
• L’inferenza puntuale per modelli non lineari coincide quindi con la
ricerca del minimo della funzione dei parametri Φ(θ).
• La ricerca del minimo ((o del massimo)) di una funzione ((detta
funzione obiettivo) è un problema dalle molteplici applicazioni:
– Stima dei parametri di un modello non lineare data una
campagna sperimentale.
– Ricerca condizioni di progetto per la massima produttività di un
processo di impianto
– Ricerca parametri ottimali per un controllore di impianto
– Etc.
Et etc.
t
• Tali tipi di procedura numerica prendono il nome di algoritmi di
ottimizzazione
Ottimizzazione – Funzioni obiettivo
Regressione
non lineare
• Il diagramma della funzione Φ(θ) non sarà più un paraboloide
come nel caso della regressione lineare.
Φ(θ)
Φ(θ)
• Per esempio,
esempio in un caso scalare (θ Є R) si può avere:
θmin
θ
Caso Lineare
Analisi dei Processi Chimici e Biotecnologici Regressione non lineare
θmin
θ
Caso Non Lineare
5
Ottimizzazione – Funzioni obiettivo
Regressione
non lineare
• Si possono avere casi più complicati con la presenza di più minimi
nella funzione obiettivo:
Φ(θ)
Minimo relativo
Minimo Assoluto
• In questo caso è necessario
individuare il minimo assoluto
θ
Ottimizzazione – Funzioni obiettivo
Regressione
non lineare
• Nel caso di una funzione dipendente da più variabili (per esempio
θ Є R2) la funzione obiettivo può essere molto complicata da
g
gestire
Φ(θ1,θ2)
Analisi dei Processi Chimici e Biotecnologici Regressione non lineare
6
Ottimizzazione – Funzioni obiettivo
Regressione
non lineare
• Rappresentando le curve di isolivello
Punto di
minimo
assoluto
Punti di
massimo
Punto di
sella
Per tutti I punti
riportati si
ha:
∂ Φ ∂Φ
=
=0
∂θ1 ∂θ2
Punti di
massimo
Curve di isolivello
Punto di
minimo
relativo
Algoritmi di ottimizzazione
• La ricerca del minimo di una funzione obiettivo è
effettuata per via numerica utilizzando metodi
iterativi:
• Si parte da un valore di primo tentativo θ0 e si genera
una successione di valori
Regressione
non lineare
Necessità di
ricorrere a metodi
iterativi
θ0, θ1, θ2, ... , θn
• Che si spera converga verso il minimo θmin
• Quando i valori della successione θi non cambiano più
in modo
d significativo
f
(ovvero
(
sono uguali
l a meno d
di
una fissata tolleranza) il metodo è giunto a
convergenza
Analisi dei Processi Chimici e Biotecnologici Regressione non lineare
7
Algoritmi di ottimizzazione
• La convergenza può essere valutata sui valori di θ o,
alternativamente, sui valori che assume la funzione
obiettivo:
θ i − θi−1 ≤ toll1
o alternativamente
Regressione
non lineare
Definizione
tolleranza
Φ (θ i ) − θ (θ i−1 ) ≤ toll2
• N.B. Il valore θ* che soddisfa le relazioni precedenti
non è, dal punto di vista rigoroso, il valore θmin,
minimo della funzione obbiettivo, ma una sua
ragionevole approssimazione.
approssimazione
• Non è garantita la convergenza al minimo assoluto!!!
(può essere che si è in presenza di un minimo
relativo)
Algoritmi di ottimizzazione Definizioni
Regressione
non lineare
• Definizioni:
• Metodo ammissibile
• Un algoritmo di ottimizzazione si definisce ammissibile se:
Φ(θi+1 ) ≤ Φ(θi )
∀i
• Velocità di convergenza
• Un algoritmo di ottimizzazione converge linearmente se, nei pressi
del minimo:
lim
i→∞
θi+1 − θmin
≤c
θi − θmin
0 ≤ c ≤1
• In genere, la convergenza è di ordine p se
θi+1 − θmin
lim
i→∞ θ
i
− θmin
p
≤c
0 ≤ c ≤ 1, p ≥ 1
Analisi dei Processi Chimici e Biotecnologici Regressione non lineare
p=2 Î convergenza quadratica
8
Algoritmi di ottimizzazione Definizioni
•
Regressione
non lineare
Metodi diretti
– Richiedono la conoscenza della sola funzione obiettivo
• Semplici da implementare
• Relativamente lenti nel convergere verso il minimo
• Robusti (in grado di gestire facilmente anche problemi con
discontinuità)
•
Metodi del gradiente
– Richiedono la conoscenza delle derivate (p
(prima ed eventualmente
anche seconda) della funzione obiettivo rispetto alle variabili
• Più sofisticati
• Convergono velocemente
• Difficoltà in caso di discontinuità
Algoritmi di ottimizzazione –
Metodi diretti – Ricerca a griglie
Regressione
non lineare
• Si fissa una griglia nello spazio e si cerca nell’intorno del valore iesimo della successione quale è il punto dell’intorno
dell intorno che abbia
valore minimo.
θ0 valore di primo tentativo
θ1 valore in cui la funzione assume valore valore in cui la funzione assume valore
minimo nell’intorno di θ0
θ2 valore in cui la funzione assume valore minimo nell’intorno di θ1
Analisi dei Processi Chimici e Biotecnologici Regressione non lineare
9
Algoritmi di ottimizzazione –
Metodi diretti – Ricerca a griglie
Regressione
non lineare
• Caratteristiche del metodo:
• Vantaggi
– È necessaria la conoscenza della sola funzione obiettivo.
• Svantaggi
– Può rivelarsi molto oneroso dal punto di vista computazionale:
per ogni iterazione è necessaria la valutazione della funzione in
(3n-1) punti, dove n è la dimensione dello spazio delle variabili
di stato
t t ((nell caso in
i esame n =2).
2)
Algoritmi di ottimizzazione –
Metodi diretti – Nelder - Mead
Regressione
non lineare
• Il metodo di Nelder-Mead, detto anche Metodo del Simplesso
è stato sviluppato dagli autori nel 1965.
• Definizione Simplesso:
• Un simplesso in uno spazio di dimensioni Rn è un insieme di (n+1)
punti che non giacciono in uno stesso iperpiano di dimensioni (n1)
Simplesso in 2D
in 2D
Si l
Simplesso
i 3D
in 3D
Non è un simplesso in 2D
Analisi dei Processi Chimici e Biotecnologici Regressione non lineare
10
Algoritmi di ottimizzazione –
Metodi diretti – Nelder - Mead
Regressione
non lineare
• Filosofia:
• Informazioni sulla direzione in cui muoversi nello spazio dei
parametri, a partire dalla valutazione della funzione obiettivo in
più punti
• Si genera una successione di simplessi (e non di valori puntuali)
– Due simplessi successivi generati nell’algoritmo
• sono contigui (hanno un “lato” in comune) oppure
• sono delle “contrazioni”
Algoritmi di ottimizzazione –
Metodi diretti – Nelder - Mead
Regressione
non lineare
• Procedura: Esempio 2D
• Si considera un simplesso di primo tentativo e si valuta la funzione
obbiettivo in corrispondenza di esso:
v1
v1=(x1,y1)
v2=(x2,y2)
v3
v2
200
150
v3=(x3,y3)
100
• Si valuta la funzione obiettivo in corrispondenza dei punti del
simplesso e si stabilisce un ordine. Per esempio:
Φ(v1)<Φ(v2)<Φ(v3)
• La funzione assume valore massimo in corrispondenza di v3
Analisi dei Processi Chimici e Biotecnologici Regressione non lineare
11
Algoritmi di ottimizzazione –
Metodi diretti – Nelder - Mead
Regressione
non lineare
• Procedura di riflessione (“reflect”)
• Per muovermi verso valori più bassi, mi devo allontanare il più
possibile da v3.
• Una possibilità è di considerare un nuovo punto v4, ad esso
speculare, rispetto al segmento definito dagli altri due punti v1 e
v2 del simplesso
v1
v1
v4
m1
v3
v3
v2
m1 =
v1 + v 2 ⎛ x1 + x2 y1 + y2 ⎞
=⎜
,
⎟
⎝ 2
2
2 ⎠
v2
||d1||=
||d2||=
||m1-v3|| ||(m1-v3)||
v 4 = m1 + (m1 − v 3 ) = 2m1 − v 3
Algoritmi di ottimizzazione –
Metodi diretti – Nelder - Mead
Regressione
non lineare
• Caso 1:
Φ(v4) < Φ(v3)
• Il nuovo simplesso da prendere in considerazione è rappresentato
dal triangolo (v1,v2,v4) riportato con il tratto arancione.
• Nella iterazione successiva si valuta di nuovo la funzione obiettivo
nei nuovi punti del simplesso. Si può avere, per esempio:
Φ(v4)<Φ(v1)<Φ(v2)
• La funzione assume valore massimo in corrispondenza di v2
v5
• Èp
possibile q
quindi eseguire,
g
,
eventualmente, una nuova
v1
riflessione
m2
v4
⎛x + x y + y ⎞
v +v
m2 = 1 4 = ⎜ 1 4 , 1 4 ⎟
⎝ 2
2
2 ⎠
v3
v 5 = 2m 2 − v 2
v2
Analisi dei Processi Chimici e Biotecnologici Regressione non lineare
12
Algoritmi di ottimizzazione –
Metodi diretti – Nelder - Mead
Regressione
non lineare
• Caso 2:
Φ(v4) > Φ(v3)
• In questo caso il nuovo valore ottenuto è maggiore del valore di
partenza.
• Sarà quindi necessaria la ricerca di un nuovo vertice per il
simplesso, sempre lungo la direzione supposta di massima
decrescita (ovvero v3-m1)
• Possiamo avere diverse
v1
opzioni:
• Espansione (expand)
• Contrazione “in avanti”
(forward contraction)
v3
m1
• Contrazione all’indietro”
v2
(backward contraction)
• Restringimento (shrink)
Algoritmi di ottimizzazione –
Metodi diretti – Nelder - Mead
Regressione
non lineare
• Caso 2 (Espansione: “expand”):
• Si prova un nuovo punto di tentativo v’4 ad una distanza doppia
da m1
v1
v'4
v4
v' 4 = m1 + 2(m1 − v 3 ) = 3m1 − 2v 3
m1
v3
v2
||d||= ||d1||=2 ||(m1-v3)||
||m1-v3||
=2 ||d||
Analisi dei Processi Chimici e Biotecnologici Regressione non lineare
13
Algoritmi di ottimizzazione –
Metodi diretti – Nelder - Mead
Regressione
non lineare
• Caso 2 (Contrazione: “forward contraction” o “backward
contraction”)
• Si prova un nuovo punto di tentativo v
v’4 ad una distanza inferiore
da m1 a destra di esso, o alternativamente, a sinistra
v1
v’’’4
v’’4
v4
v4
m
m
1
1
v3
v3
v2
d=m1-v3
½ d=
½ (m1-v3)
1
3
1
v'' 4 = m1 + (m1 − v 3 ) = m1 − v 3
2
2
2
v2
d=m1-v3
½ d=
½ (m1-v3)
1
1
1
v''' 4 = m1 − (m1 − v 3 ) = m1 + v 3
2
2
2
Algoritmi di ottimizzazione –
Metodi diretti – Nelder - Mead
Regressione
non lineare
• Da notare che non si può mai scegliere il punto m1 come nuovo
vertice, dato che altrimenti non si otterrebbe un simplesso (i punti
m1, v2, v3 sono allineati))
• Nel caso in cui:
Φ(v 4 )
Φ(v' 4 )
> Φ(v 3 )
Φ(v'' 4 )
Φ(v'''
''' 4 )
• Nessun punto lungo la direzione v3m1 ha portato ad una
decrescita della funzione obiettivo.
Analisi dei Processi Chimici e Biotecnologici Regressione non lineare
14
Algoritmi di ottimizzazione –
Metodi diretti – Nelder - Mead
Regressione
non lineare
• Caso 2 (Restringimento: “shrink”)
• Ci avviciniamo al minimo v1 selezionando come vertici del nuovo
simplesso il punto v1 (ricordiamo che in corrispondenza di esso la
funzione obiettivo assumeva il valore minimo tra i tre punti) ed i
punti medi dei segmenti m1=v1v2 e m’1=v1v3
v1
m1 =
m’1
m1
v3
v1 + v 2 ⎛ x1 + x2 y1 + y2 ⎞
=⎜
,
⎟
⎝ 2
2
2 ⎠
m'1 =
v2
v1 + v 3 ⎛ x1 + x 3 y1 + y3 ⎞
=⎜
,
⎟
⎝ 2
2
2 ⎠
Algoritmi di ottimizzazione –
Metodi diretti – Nelder - Mead
Regressione
non lineare
• Vantaggi:
– Non richiede la conoscenza delle derivate della funzione
obiettivo
– Relativamente semplice da implementare
– Robusto: in grado di gestire funzioni con discontinuità
• Difetti:
– Lento
– Poco controllo nella direzione
Analisi dei Processi Chimici e Biotecnologici Regressione non lineare
15
Algoritmi di ottimizzazione –
Metodi del gradiente
Regressione
non lineare
• La ricerca del minimo risulterebbe meno onerosa se si avessero
informazioni sulla “direzione” lungo cui muoversi nello spazio dei
p
parametri.
θi +1 = θi + σ i
• dove
Lungo la direzione fissata il problema diventa di natura scalare
σ i = λi v i
Modulo del passo i‐esimo
Direzione del passo i‐esimo
Algoritmi di ottimizzazione –
Metodi del gradiente
Regressione
non lineare
• Il gradiente della funzione obiettivo
∂Φ
∂θ θi
• Rappresenta la direzione di massima crescita della funzione nello
spazio delle variabili θ.
• Quindi, per procedere verso il minimo si deve comunque scegliere
una qualunque direzione opposta alla direzione del gradiente:
Direzione del gradiente
150
100
50
Direzioni ammissibili vi
Analisi dei Processi Chimici e Biotecnologici Regressione non lineare
16
Algoritmi di ottimizzazione –
Metodi del gradiente
Regressione
non lineare
• La direzione vi può essere scritta nella seguente forma:
vi = −R i
∂Φ
∂θ θ
i
• Il tensore R è un tensore definito positivo che “modula”
opportunamente la direzione di θi.
• Il vettore v ha un ruolo più importante di λ. Infatti, una volta
scelto v si può scegliere λ con grandissima precisione, per
esempio per tentativi:
min Φ(θi +1 )
λ
Metodi del Gradiente – Metodo
Massima Pendenza
Regressione
non lineare
• In inglese: Steepest Descent Method
• Nel metodo della massima pendenza si adotta R = I (matrice
identità) e λ fissato (da notare che sarà spesso necessario
adottare valori piccoli di λ per problemi di stabilità). Il metodo si
traduce quindi nella formula:
θi+1 = θi+1 − λi
∂Φ
∂θ θi
• O, equivalentemente:
R= I
λi ∈ ℜ+
Analisi dei Processi Chimici e Biotecnologici Regressione non lineare
17
Metodi del Gradiente – Metodo
Massima Pendenza
Regressione
non lineare
• Metodo Gradiente Coniugato:
• Il passo λi alla iterazione i-esima è dato da
λi =
σ Ti
σ Ti ⋅ σ i
⋅ H (θ i ) ⋅ σ i
• dove:
∂φ
∂θ θ i
σi = −
( p×1)
• e H(θi) è l’Hessiano della funzione obiettivo valutato in
corrispondenza di θi, matrice di dimensioni (p,p)
∂ 2φ
(H (θ i ))lm = ∂θ ∂θ
l
m θ =θ i
Metodi del Gradiente – Metodo
Massima Pendenza
Regressione
non lineare
• Vantaggi:
• Molto semplice da implementare.
• Svantaggi:
• E' estremamente lento nella convergenza ed instabile.
• Da origine ad un percorso "zig-zag" in funzioni "banana shaped"
Analisi dei Processi Chimici e Biotecnologici Regressione non lineare
18
Metodi del Gradiente – Metodo di
Newton-Raphson
Regressione
non lineare
• Il metodo della massima pendenza può essere migliorato con una
opportuna scelta della matrice R.
• È possibile approssimare la funzione obiettivo con un’altra
funzione il cui minimo è molto più semplice da calcolare.
• Per semplicità si incominci a considerare un caso scalare e si
sviluppi la funzione obiettivo in serie di Taylor intorno al punto
generico θi delle iterazioni:
Φ (θ ) ≈ Q (θ ) = Φ (θ i ) +
2
∂Φ
(θ − θi ) + 1 ∂ Φ2 (θ − θi )2
2 ∂θ θ =θ
∂θ θ =θ
i
i
Metodi del Gradiente – Metodo di
Newton-Raphson
Regressione
non lineare
• Dal punto di vista grafico, si approssima la funzione con una curva
quadratica passante per θi:
La curva Q(θ) è la
quadratica che
approssima meglio la
funzione in θ0
Q(θ)
Il nuovo valore di
ttentativo
t ti
θ1 è il valore
l
in cui Q(θ) assume
valore minimo
Φ(θ)
θ
θmin
θ1
θ0
Analisi dei Processi Chimici e Biotecnologici Regressione non lineare
19
Metodi del Gradiente – Metodo di
Newton-Raphson
Regressione
non lineare
• Per trovare il minimo, si può derivare la Q(θ) rispetto a θ:
∂Q
Q ∂Φ
∂ 2Φ
(θ − θi ) = 0
+ 2
=
∂θ ∂θ θ =θ ∂θ θ =θ
i
i
• Da cui, con semplici passaggi, si perviene al valore θi+1 della
successione
θi +1 = θi −
1
∂Φ
⋅
∂θ θ
∂ 2Φ
2
∂θ θ
i
i
Metodi del Gradiente – Metodo di
Newton-Raphson
Regressione
non lineare
• Il caso precedente può essere concettualmente esteso senza
problemi al caso vettoriale:
θi +1
( p × 1)
=
Hθ−i1
−
θi
( p × 1)
( p × p)
T
⋅
⎛ ∂Φ ⎞
⎜
⎟
⎝ ∂θ ⎠θ
( p × 1)
i
• dove p è il numero dei parametri e:
(H(θ ))
i
ij
=
∂ 2Φ
∂θ i ∂θ j
• è l’ Hessiano della funzione Φ
Analisi dei Processi Chimici e Biotecnologici Regressione non lineare
20
Metodi del Gradiente – Metodo di
Newton-Raphson
Regressione
non lineare
• Limiti:
– Il metodo di NR è estremamente veloce nei pressi del
minimo,
i i
ma non è garantita
tit la
l convergenza se llontani
t id
dall
limite
– In particolare, la matrice Hessiana deve essere definita
positiva per ciascuna iterazione affinché la funzione
obiettivo decresca nelle iterazioni
– (Hessiano definito positivo) = gli autovalori della matrice
sono tutti positivi
• Per ovviare a questo inconveniente è possibile modificare il
metodo, ricordando che la funzione obiettivo è definita come
somma di quadrati.
Metodi del Gradiente – Metodo di
Gauss-Newton
Regressione
non lineare
• Esplicitando le derivate della funzione obiettivo
Φ (θ ) = ∑ ( yi − f ( xi , θ )) = ∑ ( yi − f i (θ ))
n
i =1
n
2
2
i =1
n
∂f
∂Φ
= −∑ ( yi − f ( xi , θ )) i
i =1
∂θ j
∂θ j
n
n ∂f
∂ 2Φ
∂ 2 fi
∂f i
= − ∑ ( yi − f ( xi , θ ))
+ 2∑ i
i =1 ∂θ ∂θ
i =1
∂θ j ∂θ k
∂θ j ∂θ k
j
k
• Il metodo di Gauss-Newton prevede l’adozione della seguente forma
approssimata per l’Hessiano
n ∂f
∂f i
∂ 2Φ
≈ 2∑ i
i =1 ∂θ ∂θ
∂θ j ∂θ k
j
k
2
⎛ n
⎞
⎜ − ∑ ( yi − f ( xi , θ )) ∂ f i ≈ 0 ⎟
⎜ i =1
⎟
∂θ j ∂θ k
⎝
⎠
Analisi dei Processi Chimici e Biotecnologici Regressione non lineare
21
Metodi del Gradiente – Metodo di
Gauss-Newton
Regressione
non lineare
• Si definisce la matrice V:
Vij =
∂f i
∂θ j
i = 1,,...,, N ; j = 1,,...,, p
• Vantaggi del metodo di Gauss-Newton
– La matrice:
(V
T
∂f i ∂f i
i =1 ∂θ ∂θ
j
k
⋅ V ) jk = 2∑
n
è sempre definita positiva
– È più semplice da calcolare (non è necessario calcolare derivate
seconde)
• Problemi:
• Non si può escludere l’eventualità che la matrice sia malcondizionata
Metodi del Gradiente – Metodo di
Levenberg-Marquardt
Regressione
non lineare
• Per ovviare al problema della gestione dell’eventualità di matrici
malcondizionate la matrice V può essere modificata, con
l’introduzione di un opportuno
pp
fattore di condizionamento k:
• Metodo di Levenberg (1944)
Q = V T V + kI
R = Q −1
• Metodo di Marquardt (1963)
Q = V T V + kD
R = Q −1
• dove D è una matrice diagonale i cui elementi sono gli elementi
diagonali di VTV
Analisi dei Processi Chimici e Biotecnologici Regressione non lineare
22
Inferenza di intervallo e test
statistici per modelli non lineari
Regressione
non lineare
• Nel caso di modelli non lineari non è possibile effettuare dei test rigorosi,
dato che la maggior parte delle variabili non sono assimilabili a VA normali.
• Si deve far ricorso a delle approssimazioni, ovvero una linearizzazione del
modello nei pressi della stima puntuale dei parametri.
• È possibile solo esprimere giudizi approssimativi e qualitativi
45
Inferenza di intervallo e test
statistici per modelli non lineari
Regressione
non lineare
• È possibile effettuare una linearizzazione del generico modello non
lineare sviluppandolo in serie di Taylor:
∂f ( x, θ )
∂f ( x, θ )
yi = f ( xi , θ ) ≈ f xi , θˆ +
θ1 − θˆ1 + ... +
θ p − θˆp
∂θ1 (x ,θˆ )
∂θ p (x ,θˆ )
( )
(
)
i
• Da cui
(
)
i
( )
b = (θ − θˆ )
∂f (x , θ̂ )
V = V (x ) =
ξ i = yi − f xi , θˆ = b1V1 ( xi ) + b2V2 ( xi ) + ... + bpV p ( xi )
j
j
ij
j
j
i
i
∂θ j
46
Analisi dei Processi Chimici e Biotecnologici Regressione non lineare
23
Inferenza di intervallo e test
statistici per modelli non lineari
Regressione
non lineare
• In conclusione, il modello linearizzato nei pressi della stima
puntuale di θ, può essere riscritto nella seguente forma:
()
p
ξ i = ∑Vij θˆ b j
j =1
Vettore [nх1]
(riparametrizzato)
delle osservazioni
sperimentali
i = 1,..., n
Ha il ruolo che aveva
la matrice X delle
condizioni sperimentali
per la regressione
lineare
Vettore [pх1]
(riparametrizzato) dei
parametri
Inferenza di intervallo e test
statistici per modelli non lineari
Regressione
non lineare
• Da notare che nella matrice V compaiono i valori dei parametri
stimati, quindi non è nota a priori
• È inoltre sensibile alla stima ottenuta per i parametri (ed
ovviamente al modello)
• E’ possibile (per esempio) definire una matrice asintotica di
covarianza
()
() ()
T
cov θˆ = MSE ⎛⎜ V θˆ ⋅ V θˆ ⎞⎟
⎝
⎠
−1
• dove
MSE =
()
(
( ))
1
1 n
Φ θˆ =
∑ yi − f xi , θˆ
n− p
n − p i =1
2
48
Analisi dei Processi Chimici e Biotecnologici Regressione non lineare
24