Contenuto
•
•
•
•
•
•
•
•
•
•
•
Ripasso di matematica
02/10/2006 12.50
minimimi
insiemi convessi
funzioni convesse
curve di livello
funzione lipschitziana
derivata direzionale
gradiente
hessiano
jacobiano
sviluppo in serie di Taylor
forme quadratiche
Raffaele Pesenti
Raffaele Pesenti
Minimi
Premesse
Un punto x* ∈ X è un punto di minimo globale di f su X se f(x*)≤f(x), per
ogni x ∈ X.
Supporremo sempre di lavorare con una funzione
f:X →ℜ
dove
X ⊆ℜ n
Un punto x* ∈ X è un punto di minimo locale se esiste un intorno circolare
I(x*,ε ) di x* , avente raggio ε >0 tale che f(x*)≤f(x), per ogni x ∈ X∩I(x*,ε )
Supporremo inoltre che f sia continua: f ∈C0
Raffaele Pesenti
2
Un minimo x* globale (locale) si dice stretto se f(x*)< f(x), per ogni x ≠ x*
in X (in I(x*,ε ) ).
3
Raffaele Pesenti
4
Minimi
Insiemi convessi
f(x)
Combinazione convessa:
dato un insieme {a1, ..., am} di m vettori t.c. ai∈ℜ n, ∀ i,e m scalari λ1,..., λm
non negativi si definisce combinazione convessa il vettore y∈ℜ n t.c.
Σi=1,..,m λi ai = y, Σi=1,..,m λi = 1, λ ≥ 0
minimi locali non stretti
Involucro convesso:
l’insieme di tutte le combinazioni convesse di vettori appartenenti a S⊆ℜ
detto involucro convesso di S, conv(S). Tale involucro si dimostra essere
minimale.
x
minimo locale
minimo globale
Raffaele Pesenti
5
n
Raffaele Pesenti
è
6
Insiemi convessi
Insiemi convessi
Insieme convesso:
a1
a4
conv({a3})
un insieme S⊆ℜ n si definisce convesso se e solo se qualunque combinazione
convessa λx +(1-λ)y, 0 ≤λ ≤1, di ogni coppia* di vettori x, y appartenenti ad S
appartiene ad S.
insieme non convesso
insieme convesso
x
conv({a1, a2})
a2
y
conv({0,a4, a5})
a3
y
a5
x
0
involucro convesso
* si noti che si parla solo di coppie di vettori, mentre negli involucri convessi si
considera un qualunque insieme finito di vettori, non è quindi ovvio che per insiemi
convessi S = conv(S)
Raffaele Pesenti
7
Raffaele Pesenti
8
Insiemi convessi
Teoremi:
– l’intersezione di due insiemi convessi S1 e S2 è un insieme convesso
(sia S1 ∩ S2 ≠∅, per qualunque coppia di vettori x1, x2∈ S1 ∩ S2, si verifica che, data la
convessità di S1 e S2 , qualunque vettore y combinazione convessa di x1, x2 appartiene
sia a S1 che a S2 e quindi a S1 ∩ S2)
– l’intersezione di un numero finito di insiemi convessi è un insieme convesso
(per induzione a partire da due insiemi utilizzando il teorema precedente)
– l'insieme S è convesso se e solo se S=conv(S)
(per definizione S ⊆ conv(S), per provare S ⊇ conv(S) si deve dimostrare che, dato un
qualunque insieme di vettori Q={a1, ..., ak} ⊆ S, qualunque loro combinazione convessa
y appartiene a S oltre che a conv(S). Si procede per induzione sulla cardinalità di Q. Se
|Q| = 2 la condizione è vera poiché S è convesso. Se |Q|=k oλ k = 1 e la condizione è
banalmente vera poiché ak ∈ S, oppure la combinazione convessa può essere vista come
la combinazione convessa di due vettori in S: il vettore ak, e un vettore, combinazione
convessa dei primi k-1 vettori, che per induzione è in S)
Raffaele Pesenti
9
Insiemi convessi
Teoremi (cont.):
– dato l'insieme S
• conv(S) è convesso
• conv(S) è minimale, i.e., è contenuto in tutti gli insiemi convessi che
contengono S
(sia C un qualunque insieme convesso che contiene S allora conv(C) ⊇ conv(S), ma
dai teoremi precedenti ne deriva C = conv(C) ⊇ conv(S) = S, quindi C ⊇ conv(S).
Analogamente si potrebbe dimostrare la minimalità di lin(S), aff(S), cone(S))
Raffaele Pesenti
Insiemi convessi
Iperpiani e semispazi
Punti estremi:
dato un insieme convesso S⊆ℜ n un punto x∈S è detto estremo se e solo se
non può essere espresso come combinazione convessa di due punti distinti x1,
x2∈S. l’insieme dei punti estremi di S è indicato con Ext(S)
punto estremo
Raffaele Pesenti
10
Iperpiani e semispazi:
dati il vettore a∈ℜ n e lo scalare b∈ℜ
– l’insieme H={x∈ℜ n: ax = b} è detto iperpiano
– gli insiemi S≥ = {x∈ℜ n: ax ≥ b} e S≤= {x∈ℜ n: ax ≤b} sono detti
semispazi (chiusi)
Teoremi:
– un iperpiano è un insieme convesso
– un semispazio è un insieme convesso
11
Raffaele Pesenti
12
Poliedri
Iperpiani e semispazi
H= {(x1,x2): x1 + x2 = 1}
Poliedri:
data una matrice A ∈ ℜ m× n , un vettore b ∈ ℜ m l'insieme intersezione dei
semispazi definiti dalle righe del sistema Ax ≤b è detto poliedro
P(A,b)={x∈ℜ n: Ax ≤b }
Il sistema Ax ≤b è detto rappresentazione esterna del poliedro
S
≤=
Teoremi:
– un poliedro è un insieme convesso
– un cono (poliedrale) C è un poliedro se e solo se esiste A ∈ ℜ
C={x∈ℜ n: Ax ≤0 }
{(x1,x2): x1 + x2 ≤1}
Raffaele Pesenti
13
Raffaele Pesenti
m× n
t.c.
14
Poliedri
Poliedri
poliedro limitato non vuoto (politopo)
poliedro non limitato
x1 ≥ 0
x1 ≥ 0
a31x1 + a32x2 ≤b3
a11x1 + a12x2 ≤b1
a21x1 + a22x2 ≤b2
x2 ≥ 0
x2 ≥ 0
a11x1 + a12x2 ≤b1
Raffaele Pesenti
15
Raffaele Pesenti
16
Poliedri
Poliedri
poliedro vuoto
x1 ≥ 0
Disequazioni valide:
dato un poliedro P e una disequazione ax ≤b la disequazione è detta valida se
e solo se P ⊆ S, con S = {x∈ℜ n: ax ≤b}
a11x1 + a12x2 ≤b1
Iperpiani di supporto:
dato un poliedro P e una disequazione ax ≤b valida l’iperpiano
H = {x∈ℜ n: ax = b} è detto di supporto se e solo se P∩ H ≠ ∅
a21x1 + a22x2 ≤b2
x2 ≥ 0
Facce:
dato un poliedro P e un suo iperpiano di supporto H, l’intersezione F=P∩ H
è detta faccia. In particolare F è un vertice se e solo se dim(F)=0, F è uno
spigolo se e solo se dim(F)=1, F è una faccia massimale se e solo se dim(F)=
dim(P) - 1, F è una faccia impropria se e solo se F=P
a31x1 + a32x2 ≤b3
Raffaele Pesenti
17
Raffaele Pesenti
18
Poliedri
Poliedri
disuguaglianza valida
ax ≤b
vertice
spigolo (e faccia massimale)
H(1)
ax ≤b
P
P
disuguaglianza non valida
ax = b
Raffaele Pesenti
iperpiano di supporto
19
H(2)
Raffaele Pesenti
20
Poliedri
Poliedri
Punti estremi e disuguaglianze:
dato un poliedro P(A,b) ⊆ ℜ n e un punto x(1) ∈ P allora x(1) è un punto
estremo se e solo se soddisfa all’uguaglianza n disuguaglianze indipendenti*
del sistema Ax ≤b, i.e., se
rango{Ai. : i∈ I(x(1))} = n
dove
I(x(1)) = {i ∈ {1,...,m} : Ai. x (1) = bi}
le rimanenti condizioni possono essere soddisfatte anche non all’uguaglianza
Raffaele Pesenti
21
Dimostrazione (cenno)
sia rango{Ai. : i∈ I(x(1))} < n allora il sistema composto dalle equazioni
Ai. x (1) = bi , i∈ I(x(1)),
(*)
ha soluzioni multiple ammissibili per Ax ≤b nell’intorno di x(1), infatti i vincoli di
Ax ≤b non in I(x(1)) sono soddisfatti solo debolmente da x(1).
Ne consegue che x(1) può essere espresso come combinazione di vettori
dell’intorno e quindi non è estremo.
Viceversa sia x(1) non estremo allora esistono almeno altri due vettori soluzioni del
sistema (*) e quindi l’ipotesi rango{Ai. : i∈ I(x(1))} = n è contraddetta. I due vettori
in questione devono soddisfare (*) altrimenti anche la loro combinazione convessa
x(1) non potrebbe soddisfare (*) (vedi dimostrazione teorema successivo)
Raffaele Pesenti
Poliedri
22
Poliedri
Corollari:
– se il rank(A) < n il poliedro P(A,b) non ha punti estremi (è un cilindro
poliedrico)
Punti estremi e vertici:
dato un poliedro P(A,b) ⊆ ℜ n, un punto x(1) è estremo se e solo se è vertice
del poliedro.
– un punto x(1) è estremo se e solo se è soluzione unica del sistema
Ai. x (1) = bi , i∈ I(x(1)),
– un poliedro P(A,b) ha un numero finito di punti estremi, se m ≥ n in A
esistono al più m!/n!(m-n)! sottoinsiemi di n righe indipendenti, se m < n
P(A,b) non ha punti estremi.
(il valore indicato è un limite superiore, comunque, in generale, i vertici possono
essere molto numerosi. Un ipercubo di n dimensioni ha 2n vertici)
Raffaele Pesenti
23
Raffaele Pesenti
24
Funzioni convesse
Poliedri
Dimostrazione
Sia x(1) un vertice ma non un estremo:
• poiché è vertice allora esiste un iperpiano di supporto H={x: dx = h} t.c.
P ⊆ {x: dx ≤h} e che H∩P = {x(1)}, i.e., solo x(1) in P è t.c. d x(1) = h,
• poiché non è vertice esistono x(2) ,x(3)∈ P t.c. x(2) ≠ x(3), d x(2) < h, d x(3) < h e
x(1) = αx(2) +(1-α) x(3) con 0 <α <1
ne consegue la contraddizione:
h = d x(1) = α d x(2) +(1-α) d x(3)< α d h +(1-α) d h = h
Una funzione f definita su un insieme convesso X si dice convessa se per
qualunque coppia di punti x, y ∈ X vale
α f(x) + (1-α)f(y) ≥ f(α x + (1-α) y)
Viceversa se x(1) è un estremo allora esiste un iperpiano di supporto H’ la cui
intersezione con P è solo x(1). In particolare H’={x: dx = h} dove d = Σi ∈ I(x(1)) Ai. e
h = Σi ∈ I(x(1)) bi implica H’∩P ={x(1)}, infatti:
• per definizione di H’: H’∩P ⊇{x(1)},
• solo x(1) soddisfa Ai.x = bi per tutti gli i∈ I(x(1)), per tutti i punti x∈ P diversi da
x(1) almeno una condizione risulta essere Ai. x < bi e ovviamente nessuna può
essere Ai. x > bi, ne consegue che nessun altro punto può appartenere ad H’
Raffaele Pesenti
25
(una funzione f è concava se -f e convessa).
Proprietà
• Una funzione f convessa, se ammette minimo, assume un unico valore
minimo in X
• Una funzione f convessa, se ammette massimo, assume valori massimi
sulla frontiera di X
Raffaele Pesenti
26
Curve di livello
Funzioni convesse
Una curva di livello di una funzione f(x) associata al valore k è il luogo dei
punti
f(x)
{x : f(x) = k}
La curva di livello associata un minimo globale stretto è un punto
Un insieme di livello di una funzione f(x) associata al valore k è l’insieme dei
punti
x
{x : f(x) ≤k}
Raffaele Pesenti
27
Raffaele Pesenti
28
Funzioni lipschitziane
8
Una funzione f si dice lipschitziana se esiste L <∞ tale che per qualunque
coppia di punti x, y ∈ X vale
[x,y,z] = peaks(25) %funzione demo in matlab
mesh(x,y,z)
6
4
2
0
||f(x) - f(y)|| ≤ L||x-y||
-2
-4
-6
3
-8
3
La lipschitzianità pone dei limiti su come possa variare una funzione
all’interno di un insieme limitato. Ad esempio una funzione lipschitziana non
può presentare asintoti verticali, né discontinuità.
2
2
3
1
2
0
1
0
-1
1
-1
-2
-2
-3
-3
0
contour(x,y,z,30)
Ogni funzione continuamente differenziabile f ∈C1 con derivata prima (o
gradiente) limitata è lipschitziana
-1
-2
-3
-3
-2
-1
0
1
Raffaele Pesenti
2
3
29
Raffaele Pesenti
Funzioni lipschitziane
30
Derivata direzionale
f(x)
La derivata direzionale di f in x rispetto alla direzione u (un vettore è una
direzione se ha norma unitaria) indica il tasso di variazione della funzione in
x lungo la direzione di u.
La derivata direzionale è definita come
∇ uf(x) = limh→0 (f(x+hu) – f(x))/h
x
y
x
Nel caso in cui f è differeziabile ∇ uf(x) = ∇f(x) ⋅ u
Raffaele Pesenti
31
Raffaele Pesenti
32
Gradiente
Gradiente
Dalle precedenti proprietà si deduce che se ∇f (x) ≠0, la direzione del
gradiente è quella con massimo tasso di variazione positiva (crescita) della
funzione in x.
In particolare esiste λ > 0 tale che
f(x+λ∇ f (x)) > f(x)
Il gradiente di una funzione f differenziabile in un punto x è il vettore
∇f (x) = [∂f (x) / ∂x1, ∂f (x) / ∂x2, ..., ∂f (x) / ∂xn] T
Proprietà
• La direzione di ∇f (x) corrisponde a quella per cui la derivata direzionale è
massima, |∇f (x)| è il valore della derivata direzionale.
Infatti ∇ uf(x) = ∇f(x) ⋅ u/|u| da cui ∇ uf(x) = ∇f(x) se e solo se ∇f(x) // u.
• Se ∇f (x) non è nullo è perpendicolare alle curve di livello di f (x) in x.
• Se f ∈C2 allora f è convessa se e solo se f(y) – f(x) ≥ ∇ f (x)(y-x) per qualunque
x, y ∈ X
• I punti x tali che ∇f (x)=0 sono detti stazionari. Un punto stazionario è un
massimo, un minimo o un punto di flesso.
Raffaele Pesenti
Poiché inoltre ∇ uf(x) = limh→0 (f(x+hu) – f(x))/h = ∇ f(x)⋅ u/|u| ne consegue
che la funzione f localmente cresce lungo qualunque direzione u tale che
∇ f(x)⋅ u > 0 e decresce lungo qualunque direzione u tale che ∇ f(x)⋅ u < 0.
Si ricordi che ∇ f(x)⋅ u > 0 (∇ f(x)⋅ u < 0) implica che esiste un angolo acuto
(ottuso) tra le direzioni di ∇ f(x) e u. Infatti cosθ = ∇ f(x)⋅ u /(|f(x)||u|).
Raffaele Pesenti
33
[px,py]= gradient(z,.25,.25)
quiver(x,y,px,py,2)
3
34
Hessiana
2
3
L’hessiana di una funzione f differenziabile due volte in un punto x è la
matrice
1
0
2
-1
 ∂2 f
 ∂x 2
 21
 ∂ f
∇ 2 f ( x) = H ( x) =  ∂x2 ∂x1
 ⋮
 ∂2 f

 ∂xn ∂x1
-2
1
-3
-3
-2
-1
0
1
2
3
0
8
-1
6
4
2
0
-2
-2
-4
∂2 f
∂x1∂x2
∂2 f
∂x22
⋮
∂2 f
∂xn ∂x2
∂2 f 
∂x1∂xn 

∂2 f 
⋯
∂x2 ∂xn 
⋱
⋮ 
∂2 f 
⋯

∂xn2 
⋯
Proprietà
-6
-8
3
• L’hessiana è una matrice simmetrica
• L’hessiana di f può essere vista anche come il jacobiano di ∇f (x)
-3
2
3
1
2
0
1
0
-1
-1
-2
-2
-3
-3
Raffaele Pesenti
-4
-4
-3
-2
-1
0
1
2
3
4
35
Raffaele Pesenti
36
Sviluppo in serie di Taylor
Jacobiano
Data una funzione f ∈C2 questa può essere espressa nell’intorno del
punto x attraverso i seguenti sviluppi in serie di Taylor
Dato un vettore g(x) di n funzioni differenziabili in x
gi:X →ℜ , X ⊆ ℜ n, lo jacobiano di g(x) in x è la matrice
 ∂g1
 ∂x
 ∂g1
 2
J ( x) =  ∂x1
 ⋮
 ∂g n
 ∂x
1
∂g1
∂x2
∂g 2
∂x2
∂g n
∂x2
f(x+h) = f(x) + ∇ f (x)⋅ h + o1(x,h)
∂g1 
∂xn 
∂g 2 

⋯
∂xn 
⋱ ⋮ 
∂g n 
⋯
∂xn 
⋯
f(x+h) = f(x) + ∇ f (x)⋅ h + ½hT⋅ ∇ 2f (x)⋅ h + o2(x,h)
dove o1(x,h) e o2(x,h) sono due funzioni nulle per h=0 e con ordine di
infinitesimo rispettivamente superiore a 1 e a 2.
Se si troncano gli sviluppi in serie di Taylor al termine del primo
(secondo ordine) si ottiene l’approssimazione locale della funzione f
con un iperpiano o una forma quadratica.
Raffaele Pesenti
37
Raffaele Pesenti
Sviluppo in serie di Taylor
Approssimare f(x) = 12x –
3x4
–
2x6 nell’intorno
del punto
Sviluppo in serie di Taylor
x0=
½
%Sviluppo in serie di Taylor simbolico
syms x
f = 12*x-3*x^4-2*x^6;
T = taylor(f,2,0.5)
T = 23/32+81/8*x
T = taylor(f,3,0.5)
T = 23/32+81/8*x-51/8*(x-1/2)^2
f(0.5) = 6 – 3/16 -2/64 = 185/32
df/ dx|x=0.5 = 12 -12x3-12x5|x= ½ = 12(1-1/8-1/32)= 81/8
d2f/ dx2|x=0.5 = -12(3x2+5x4) |x= ½ = -12(3/4+5/16) = -51/4
simple(T)
-7/8+33/2*x-51/8*x^2
approssimazione lineare
f(x) ≈ f(0.5) + df/ dx|x=0.5 (x-0.5) = 185/32 + 81/8 (x- 0.5) =
= 23/32+81/8*x
approssimazione quadratica
f(x) ≈ f(0.5) + df/ dx|x=0.5 (x-0.5) + ½ d2f/ dx2|x=0.5 (x-0.5) 2 =
= 185/32 + 81/8 (x- 0.5) -51/8 (x- 0.5)2 =
= -7/8+33/2*x-51/8*x^2
Raffaele Pesenti
38
12
approssimazione
lineare
10
8
f(x)
6
4
2
%Disegno
x = 0:0.05:1;
f = 12*x-3*x.^4-2*x.^6;
y = 23/32+81/8*x;
q = -7/8+33/2*x-51/8*x.^2;
plot(x,f,x,y,x,z);
39
Raffaele Pesenti
approssimazione
quadratica
0
-2
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
40
Sviluppo in serie di Taylor
Sviluppo in serie di Taylor
Approssimare la Rosenbrock banana function
f(x) = 100 (x2 – x12 )2 +(1-x1) 2
nell’intorno del punto x0= (0,-1)
f(0,-1) = 101
∇f
1
x = ( 0 , −1)
0.8
− 400( x2 − x12 ) x1 − 2(1 − x1 )
 −2 
=
=


2
200( x2 − x1 )

 x=( 0 , −1) − 200
450
0.6
400
0.4
350
300
∇2 f
0.2
250
0
200
150
x = ( 0 , − 1)
-0.2
100
1200 x12 − 400 x 2 + 2
=
− 400 x1

− 400 x1 
 402
=

200 
 0
x = ( 0 , −1 )
0 
200 
-0.4
50
-0.6
0
1
0.5
0
0
-0.5
-0.5
-1
-1
%calcolo simbolico
syms x1 x2
f = 100*(x2-x1^2)^2+(1-x1)^2;
grad = [diff(f,x1) diff(f,x2)]
hes = [diff(grad,x1);diff(grad,x2)]
-0.8
1
0.5
-1
-1
tx = -1:.05:1;
[x,y] = meshgrid(tx);
f = 100*(y-x.^2).^2+(1-x).^2 ;
mesh(x,y,f)
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
Raffaele Pesenti
1
41
Raffaele Pesenti
Sviluppo in serie di Taylor
42
Sviluppo in serie di Taylor
approssimazione lineare
f(x) ≈ -99-2x1-200x2 500
approssimazione quadratica
f(x) ≈ 1 -2x1+ 201x12 + 100 x22450
400
400
300
350
200
300
100
tx = -1:.05:1;
[x,y] = meshgrid(tx);
f = 100*(y-x.^2).^2+(1-x).^2 ;
g = -99-2*x-200*y;
surfl(x,y,g);
shading interp;
colormap(jet);
hold on
mesh(x,y,f)
hold off
Raffaele Pesenti
250
0
200
tx = -1:.05:1;
[x,y] = meshgrid(tx);
f = 100*(y-x.^2).^2+(1-x).^2 ;
h = 1 -2*x+ 201*x.^2 + 100*y.^2
surfl(x,y,h);
shading interp;
colormap(jet);
hold on
mesh(x,y,f)
hold off
-100
-200
-300
1
-400
1
0
0.5
0
-0.5
-1
-1
43
Raffaele Pesenti
150
100
50
1
0
0.5
0
1
0.5
0
-0.5
-0.5
-1
-1
44
Forme quadratiche
Forme quadratiche
La matrice quadrata A di una forma quadratica è simmetrica quindi
• A è sempre diagonalizzabile, ha autovalori reali e autovettori ortogonali
• A è definita (semidefinita) positiva, i.e., xTAx > 0 (xTAx ≥ 0), per
qualunque x≠0, se e solo se tutti i suoi autovalori sono positivi (non
negativi)
• A è definita positiva se e solo se tutti se i determinanti dei leading
minori principali sono positivi (criterio di Sylvester).
• A è definita negativa se la sua negata è definita positiva e se e solo se
tutti se i determinanti di tutti i minori principali dispari sono negativi e i
minori principali pari sono positivi
• Se λm e λM sono rispettivamente gli autovalori massimi e minimi di A
allora per qualunque x vale
λm xTx ≤ xTAx ≤λM xTx
Una forma quadratica è una generica funzione
f(x) = c + bTx + ½ xTAx
dove A è una matrice quadrata simmetrica.
E’ importante conoscere le proprietà delle forme quadratiche, in
particolare l’eventuale convessità, poiché le serie di Taylor troncate al
secondo ordine che approssimano localmente una funzione sono forme
quadratiche.
Raffaele Pesenti
45
Raffaele Pesenti
Forme quadratiche
Forme quadratiche
Teorema
Una forma quadratica è convessa se e solo se la matrice A è semidefinita positiva.
Prova
Si osservi criterio di Syslvester non si applica alle matrici semidefinite
positive.
Si osservi che per qualunque x e y vale
½ α xTAx + ½(1-α) yTAy ≥ ½ (α x + (1-α) y) TA (α x + (1-α) y)
infatti sviluppando i prodotti e raccogliendo i termini si ottiene
½ α (1-α) xTAx + ½ α (1-α) yTAy ≥ α (1-α) y TA x
dividendo per ½ α (1-α) e portando tutto al primo termine si ha
xTAx - 2 y TA x + yTAy ≥ 0 e quindi (x-y)TA(x-y)≥ 0, quest’ultima condizione è certamente
vera dato che A è semidefinita positiva.
Utilizzando quanto sopra si prova
α f(x) + (1-α)f(y) = α (c + bTx + ½ xTAx) + (1-α) (c + bTx + ½ yTAy) =
= c + bT (α x + (1-α) y) + ½ α xTAx + ½(1-α) yTAy ≥
≥ c + bT (α x + (1-α) y) + ½ (α x + (1-α) y) TA (α x + (1-α) y) = f(x + (1-α) y)
1 1 1
A= 1 1 1
1 1 0
A non è semidefinita positiva anche se i determinanti leading principal
minors sono non negativi.
Gli autovalori di A sono infatti 0, 1+√3, 1- √3
La generalizzazione di Sylvester richiederebbe di verificare i
determinanti di TUTTI i minori principali non solo i leading.
Raffaele Pesenti
46
47
Raffaele Pesenti
48
Forme quadratiche
Forme quadratiche
Teorema
Una funzione f ∈C2 definita su X convesso è convessa se e solo se l’hessiana
∇ 2f (x) è semidefinita positiva per qualunque x in X.
Teorema
• In una forma quadratica f(x) = c + bTx + ½ xTAx definita su tutto ℜ n che
ammetta una soluzione minima x* la matrice A è semidefinita positiva.
• Se un minimo esiste è globale e soddisfa l’equazione b+ A x* =0
Prova
Un punto x* è minimo per f(x) = c + bTx + ½ xTAx se solo se è minimo per
f(x) = bTx + ½ xTAx. Ci si può limitare quindi a studiare questi ultimo casi.
Caso b = 0) Se f(x) = ½ xTAx e A è semidefinita positiva allora x* = 0 infatti
f(0)=0 ≤f(x) per qualunque x, dato che per definizione f(x) ≥ 0.
Se A non è semidefinita positiva allora esiste x tale che ½ xTAx <0, e quindi
esiste anche y= 2x tale che
f(y) = ½ yTAy c < 2 xTAx = f(x)
Iterando il ragionamento, ridefinendo x ←y si ottiene che la funzione f è
illimitata. (cont.)
Raffaele Pesenti
Raffaele Pesenti
Poiché una generica funzione f ∈C2 è localmente approssimabile con una
forma quadratica allora, se f è convessa allora la sua hessiana deve essere
semidefinita positiva in X. Questa relazione vale anche in senso opposto.
49
50
Forme quadratiche
Forme quadratiche
•
Se A è singolare e b≠0 non esiste minimo. Infatti esiste certamente un
x∈ker(A) tale che bTx < 0, ma allora esiste anche y= 2x tale che y ∈ker(A)
tale che bT y < 0 e
f(y) = bT y + c = 2bT x + c < bT x + c = f(x)
Iterando il ragionamento, ridefinendo x ←y si ottiene che la funzione f è
illimitata.
Se A non è singolare e b≠0 allora x* = -A-1b. Basta verificare che
con la traslazione di assi x = y-A-1b la funzione diventa f(y) = ½ yTAy + k
che quindi, per i ragionamenti precedenti, ammette minimo solo se A è
semidefinita positiva e y=0.
f(x) =
Forma non semidefinita positiva.
=
4
x 10
 x1 
 1 4  x1 
x2 ]
+ [1 − 1]  + 3 =



 4 1  x2 
 x2 
1
[x
2 1
1
1 2
x + 8 x1 x2 + x22 + x1 − x2 + 3
2
2 1
15
10
80
60
5
40
20
0
0
-20
-5
100
-40
100
50
50
0
-60
0
-50
-50
-100
Raffaele Pesenti
51
Raffaele Pesenti
-100
-80
-100
-100
-80
-60
-40
-20
0
20
40
60
80
52
Forme quadratiche
•
f ( x) =
Forma definita positiva.
=
4
1
[x
2 1
 x1 
 3 2  x1 
x2 ]
  + [1 − 1] x  + 3 =
 2 5  x2 
 2
5
3 2
x + 2 x1 x2 + x22 + x1 − x2 + 3
2
2 1
x 10
7
100
6
80
5
60
4
40
3
20
2
0
1
-20
-40
0
100
-60
100
50
50
0
0
-50
-50
-100
Raffaele Pesenti
-80
-100
-100
-80
-60
-40
-20
0
20
40
60
80
100
-100
53