I MOLTIPLICATORI DI LAGRANGE Le funzioni

annuncio pubblicitario
I MOLTIPLICATORI DI LAGRANGE
NOZIONI GENERALI
▸ Le funzioni Rn ➙ Rm tra spazi euclidei sono un sottogruppo delle funzioni tra spazi vettoriali qualsiasi
di dimensione qualsiasi.
Quando n = m = 1 una tale funzione è detta funzione a valori reali di una variabile reale.
Quando n = 1 e m > 1 è detta funzione a valori vettoriali di una variabile reale
Quando n > 1 e m = 1 è detta funzione a valori reali di variabile vettoriale, o semplicemente campo
scalare
Quando n > 1 e m > 1 è detta funzione a valori vettoriali di una variabile vettoriale, o semplicemente
campo vettoriale
Queste ultime funzioni possono essere scomposte nelle cosiddette funzioni componenti:
f1 : Rn ➙ R
…………..
fm : Rn ➙ R
tali che si abbia:
f(x1, …, xn) = (f1(x1, …, xn), …, fm(x1, …, xn))
Per evitare ingombranti denominazioni, nel prosieguo parleremo rispettivamente di funzioni R ➙ R,
funzioni R ➙ Rm, funzioni Rn ➙ R e funzioni Rn ➙ Rm anche se tecnicamente esse potrebbero essere
definite solo su un sottoinsieme dello spazio euclideo indicato come dominio.
▸ Un sottospazio S dello spazio vettoriale V è un sottoinsieme che è esso stesso uno spazio vettoriale con le
stesse operazioni definite in V. Per essere un sottospazio, deve essere chiuso rispetto a tali operazioni,
cioè dati i vettori s1, s2 e lo scalare k, la somma s1 + s2 e il prodotto k ⋅ s1 devono appartenere anch’essi
ad S. In questo modo vengono ereditate tutte le altre proprietà di spazio vettoriale.
▸ Data una funzione di classe C1 g : Rn ➙ Rm (m < n) e un punto p in cui g(p) = 0 e il rango della matrice
 ∂g1
 ∂x
 1
 L
 ∂g m
 ∂x1

∂g1 
∂xn 
L L 
∂g m 
L
∂xn 

L
è pari ad m, allora esiste un intorno U di p con una permutazione delle coordinate, esiste un aperto V ⊂
Rn–m costituito dalla proiezione (p i1 . …, pin) ↦ (pi1, …, pin–m) delle coordinate permutate di U∩
∩g–1(0),
esiste una funzione h : V ➙ Rm tali che ogni punto di U∩
∩g–1(0) abbia coordinate (pi1, …, pin–m, h(pi1, …,
pin–m))
Ma, riguardo l’insieme U∩
∩g–1(0), questa è anche la definizione di varietà (n – m)-dimensionale, cosicché
U∩
∩g–1(0) è una varietà (n – m)-dimensionale.
 ∂f
∂f
,...,
∂
x
∂
xn
1

▸ Data una funzione f : Rn ➙ R il gradiente nel punto a è dato da ∇f (a) = 
Abbiamo la seguente relazione tra vettore gradiente e derivata direzionale:




Dvf(a) = ∇f(a) ⋅ v
SUPERFICI K-DIMENSIONALI
Le funzioni gi che costituiscono il vincolo possono essere di numero qualsiasi, purché inferiore alla
dimensione dello spazio su cui è definita la funzione f da massimizzare.
Così, nel caso che la funzione f sia definita su R3 possiamo avere una sola funzione vincolo o due funzioni
g1, g2, che costituiscono le funzioni componenti di un’unica funzione G : R3 ➙ R2
Nel caso di una sola funzione continuamente differenziabile g, l’insieme di livello corrispondente ai punti
nei quali si ha g = 0 e rango della jacobiana eguale ad uno costituisce una familiare superficie definita in
forma parametrica.
La definizione classica di rappresentazione parametrica regolare di classe Ck di una superficie in R3 è
quella di una funzione Ck φ : U ⊂ R2 ➙ R3:
x1 = φ1(u,v)
x2 = φ2(u,v)
x3 = φ3(u,v)
definita su un aperto U di R2, con la jacobiana di rango 2.
Richiedere che la jacobiana della superficie abbia rango 2 equivale a richiedere che i due vettori ∂φ/∂
∂u e
∂φ/∂
∂v siano linearmente indipendenti
Questi due vettori individuano un piano. E’ facile dimostrare che tale piano contiene tutti i vettori
tangenti alle curve differenziabili giacenti sulla superficie e passanti per il punto considerato.
Si dice che la superficie è semplice se l’applicazione φ è iniettiva
Per dimostrare che la jacobiana di φ è di rango 2 si ricorre al teorema della funzione implicita.
Il teorema della funzione implicita stabilisce che, laddove la jacobiana della funzione continuamente
differenziabile g abbia rango uno in un punto p, allora esiste un intorno U di p in R3 che racchiude una
porzione g–1(0)∩
∩U dell’insieme di livello costituito da tutti i punti p tali che g(p) = 0 e una funzione h : R2
➙ R che manda due delle coordinate dell’insieme di livello nella terza coordinata in modo che sia
g(xi1,xi2,h(xi1,xi2)) = 0
Il che vuol dire che nell’intorno U la superficie di livello può essere espressa mediante due parametri xi1 e
xi2:
xi1 = xi1
xi2 = xi2
xi3 = h(xi1,xi2)
Si può facilmente calcolare che la jacobiana della parametrizzazione ottenuta con il teorema della
funzione implicita è:
 ∂ϕ1
 ∂x
 1

 ∂ϕ 2
 ∂x
 1

 ∂ϕ 3

 ∂x1
∂ϕ1 
∂x 2   1

 
∂ϕ 2   0
=
∂x 2  
  ∂h
∂ϕ 3   ∂x
  1
∂x 2 
0 


1 


∂h 
∂x 2 
Questa matrice ha chiaramente rango 2, perché le due prime righe sono linearmente indipendenti
La condizione che la jacobiana della rappresentazione parametrica regolare abbia rango 2 assicura che
ogni punto della immagine abbia un piano tangente, formato dalle derivate di tutte le curve passanti per
il punto considerato.
Assicura anche che si tratti di una superficie “liscia”, senza spigoli o cuspidi, perché si può dimostrare che
laddove l’immagine di una funzione differenziabile φ : R2 ➙ R3 ha uno spigolo o una cuspide, allora le
derivate parziali ∂φ/∂
∂u e ∂φ/∂
∂v devono essere tutte zero. Ne consegue che se la matrice jacobiana ha
invece rango 2 allora si tratta di una superficie senza spigoli o cuspidi.
La particolare rappresentazione parametrica regolare assicurata dal teorema della funzione implicita è
nota come rappresentazione di Monge: la sua peculiarità sta nel fatto che i due parametri coincidono con
due delle variabili in R3.
x1 = u
x2 = v
x3 = φ(u,v)
Il tipo più semplice di rappresentazione di Monge si ha quando la terza coordinata è quella del punto
dell’insieme di livello di coordinate (x1, x2, x3).
La rappresentazione di Monge ha come caratteristiche aggiuntive quella di essere iniettiva e bicontinua.
Se le funzioni vincolo sono due, g1, g2, che costituiscono le funzioni componenti di un’unica funzione G :
R3 ➙ R2 allora l’insieme di livello G-1(0) sarà non una superficie ma una linea.
Anche in questo caso il teorema della funzione implicita, nell’intorno di ciascun punto p nel quale la
jacobiana delle derivate ∂gi/∂
∂xi ha rango 2 dimostra l’esistenza di una parametrizzazione del tipo:
xi1 = xi1
xi2 = h1(xi1)
xi3 = h2(xi1)
Ecco due esempi di insiemi di livello che, non avendo la jacobiana delle derivate di rango 2, non
rappresentano una linea, bensì un punto o una croce.
▸ S = {(x,y) | x2 + y2 = 0} è soddisfatto solo nell’origine, e consiste quindi di un solo punto; ∇g(0) = (2x , 2y)
= (0 , 0) e si vede come S non è l’immagine di una curva in un intorno del punto (0,0)
▸ S = {(x,y) | x2 – y2 = 0} è costituito dalle due bisettrici degli assi coordinati, ∇g(0) = (2x , – 2y) = (0,0) e si
vede come S non è una immagine di una curva, avendo forma di croce.
Una rappresentazione parametrica regolare iniettiva e bicontinua (omeomorfa) rappresenta l’inversa di
una carta locale con cui la geometria differenziale moderna definisce le varietà o manifolds. Se ogni punto
della superficie ha una siffatta carta locale, allora in luogo di superficie, si usa il termine più astratto di
varietà k-dimensionale o k-varietà, che può essere applicato a curve, superfici e ad altri insiemi di punti
parametrizzati con più di due parametri.
Nella teoria delle varietà o manifolds una parametrizzazione Rn ➙ RN corrisponde al concetto di
immersione non iniettiva (funzione con la jacobiana di rango pari a quello del dominio)
Il caso di parametrizzazione di Monge collegata dal teorema della funzione implicita ad un insieme di
livello, corrisponde invece al concetto di immersione regolare (funzione iniettiva, con jacobiana di rango
pari a quello del dominio e omeomorfa sulla propria immagine dotata della topologia indotta dal
codominio).
VARIETÀ K-DIMENSIONALI CORRISPONDENTI A K FUNZIONI VINCOLO
Quando le funzioni vincolo gi sono in numero k con k > 2, non più su R3 ma su RN con N qualsiasi,
l’insieme di livello G = 0 (G è la funzione le cui funzioni componenti sono le gi) è un oggetto geometrico
più astratto di una superficie, che prende il nome di varietà k-dimensionale.
Daremo qui di seguito la definizione di varietà k-dimensionale o k-varietà che generalizza il concetto di
superficie o varietà 2-dimensionale.
S ⊂ Rn è un k-dimensional patch se esiste una permutazione xi1, …, xin delle coordinate dei punti di S e
una funzione differenziabile h : U ⊂ Rk ➙ Rn–k tale che nel nuovo sistema di coordinate le coordinate dei
punti di S siano date da (xi1, …, xik, h (xi1, …, xik))
Un insieme M ⊂ Rn è chiamato una varietà k-dimensionale in Rn se ogni punto di M si trova in un aperto
V ⊂ Rn tale che V ∩ M è un k-dimensional patch.
Si può dimostrare che una varietà k-dimensionale ha un piano tangente k-dimensionale in ognuno dei
suoi punti
Si può dimostrare che l’insieme di livello di cui sopra, se la jacobiana di G ha rango k, è una varietà kdimensionale, e come tale ha un piano tangente k-dimensionale in ognuno dei suoi punti.
MASSIMI, MINIMI, PUNTI STAZIONARI
▹ Se p è un punto di massimo per f in un aperto, allora il gradiente ∇f è ortogonale al vettore velocità di
qualsiasi curva che passi per p
Questo teorema è applicabile sia al boundary (cioè ai punti dell’insieme S in ogni intorno dei quali cade
sia un punto interno all’insieme che un punto esterno all’insieme) che all’interior di S (cioè ai punti
dell’insieme s per i quali esiste un intorno nel quale cadono solo punti di S) e per l’interior dà come
risultato che p deve essere un punto critico.
▸ Quando tutte le componenti del gradiente ∇f di una funzione differenziabile f : Rn ➙ R sono nulle in un
punto p, cioè se ∇f = 0, allora tale punto dicesi punto stazionario o punto critico della funzione
I punti stazionari di una funzione si classificano generalmente in tre categorie: punti di massimo, punti
di minimo e punti di sella.
Si dice che una funzione Rn ➙ R ha un massimo assoluto in un punto a di un sottoinsieme S di Rn se
f(x) ≤ f(a)
per ogni x in S. Il valore f(a) è detto massimo assoluto di f in S.
Si dice che una funzione ha un massimo relativo in a se la disuguaglianza f(x) ≤ f(a) è soddisfatta per
tutti gli x di un intorno di a contenuto in S.
In modo analogo si definiscono il minimo assoluto in un punto di S e il minimo relativo in un punto di S.
Si dice estremo di f un numero che sia o un massimo relativo o un minimo relativo di f.
Un punto è detto punto di sella se ogni intorno di a contiene punti x tali che f(x) <f(a) e altri punti tali
che f(x) > f(a)
▸ Se f ha un estremo in un punto interno p del sottoinsieme S ed è ivi differenziabile, allora tutte le
derivate parziali del primo ordine sono nulle (il vettore gradiente è eguale a zero).
Questa è però solo una condizione necessaria ma non sufficiente (in altre parole, non è vero l’inverso: se
p è un punto critico non necessariamente la funzione ha un massimo o minimo locale in quel punto).
▹ Se f : Rn ➙ R possiede un massimo/minimo su una superficie n-dimensionale, non necessariamente il
gradiente è eguale a zero
Se invece f : Rn ➙ R possiede un massimo o minimo su una superficie n-dimensionale, non
necessariamente il suo gradiente in tal punto è eguale a zero (cioè è un punto critico della funzione).
Pertanto, nel caso di una funzione definita su un sottoinsieme di Rn compreso entro una superficie (n –
1)-dimensionale chiusa, per trovare i punti di massimo o minimo locali occorre usare procedimenti
diversi a seconda che tali punti si trovino sulla superficie o all’interno di essa: nel secondo caso si
procede eguagliando a zero le derivate prime e, una volta trovati i punti, si procede a determinare se
siano di massimo, minimo o di sella tramite l’analisi della matrice hessiana delle derivate seconde; nel
primo caso si procede col metodo dei moltiplicatori di Lagrange.
▹ [0901061522] Dato un insieme compatto (chiuso e limitato) una funzione ha su di esso un massimo e un
minimo, che possono essere nell’interior o nel boundary. Tra i casi più interessanti vi sono quelli di
regioni entro (iper)superfici chiuse.
Una funzione f : D ⊂ Rn ➙ R su un subset D compatto (= chiuso e limitato), se continua ha un massimo e
un minimo su D.
Frequentemente si considerano i punti entro una superficie (n – 1)-dimensionale: regioni racchiuse da
una curva chiusa in R2; regioni racchiuse da una superficie chiusa in R3; e così via. La funzione può
avere un massimo/minimo sia all’interno di D sia sulla (n – 1)-superficie. Se il punto di massimo/minimo
si trova all’interno di D deve essere un punto critico e viene individuato ponendo le derivate parziali
eguali a zero. Ma se è un punto di confine (in ogni intorno vi sono sia punti che appartengono a D sia
punti che non appartengono a D) allora non è necessariamente un punto critico e per individuarlo si
deve usare il procedimento dei moltiplicatori di Lagrange.
Se una funzione f : Rn ➙ R ha un massimo o minimo locale su un aperto di Rn allora il punto è un punto
critico.
▹ Un teorema analogo a quello [0901061522] degli estremi su un intervallo chiuso e limitato di Rn si ha
per funzioni Rn ➙ R continue su un intervallo chiuso. In tal caso infatti la chiusura più la continuità
implicano la limitatezza e quindi la esistenza di un estremo superiore e inferiore dei valori della
funzione.
IL METODO DEI MOLTIPLICATORI DI LAGRANGE
▹ Il metodo dei moltiplicatori di Lagrange per trovare i possibili punti di massimo/minimo di una
funzione Rn ➙ R sull’insieme di livello di una funzione Rn ➙ Rm
Data una funzione di classe C1 g : Rn ➙ Rm consideriamone l’insieme di livello g–1(0) dei punti le cui
coordinate soddisfano le equazioni:
g1(x1, …, xn) = 0
…………………
gm(x1, …, xn) = 0
Se la funzione differenziabile f : Rn ➙ R ha un massimo o minimo in un punto p di tale insieme di
livello, allora esistono m numeri reali λ1, …, λm (chiamati moltiplicatori di Lagrange) tali che si ha:
∇f(a) = λ1∇G1(a) + … + λm∇Gm(a)
Per determinare il valore di x1, …, xn e di λ1, …, λm si utilizza il sistema di n + m equazioni:
∇f(x) = λ1∇G1(a) + … + λm∇Gm(a)
g1(x) = 0
…………………
gm(x) = 0
 ∂f
 ∂g
 ∂g
∂g 
∂g 
∂f 
 = λ1  1 ,..., 1  + ... + λm  m ,..., m 
Dato che è:  ,...,





 ∂x1
∂xn 
 ∂x1
∂xn 
 ∂x1
∂xn 
le equazioni sono:
∂g
∂g
∂f
= λ1 1 + ... + λm m
∂x1
∂x1
∂x1
..............................................
∂g
∂g
∂f
= λ1 1 + ... + λm m
∂xn
∂xn
∂xn
g1 ( x) = 0
.................
g m ( x) = 0
Il metodo è valido se il numero dei vincoli, m, è più piccolo del numero delle variabili, n, e se i
determinanti jacobiani delle funzioni vincolo rispetto a m delle n variabili x1,…,xn non sono tutti nulli
nei punti di estremo in questione.
Quest’ultimo requisito equivale a chiedere che il rango della jacobiana sia m nel punto considerato,
ovvero anche a chiedere che i gradienti delle m funzioni vincolo siano linearmente indipendenti.
DERIVATA DIREZIONALE ITERATA DI ORDINE K CHE APPROSSIMA UNA FUNZIONE R
CON h VETTORE DI R
n
➙ Rm NEL PUNTO a + h
n
.
▸ La derivata direzionale di una derivata direzionale di ordine n di una funzione f : Rn ➙ R rispetto al
vettore (h1, …, hn) è data da:
DhD1j1…Dnjnf = ∑1≤r≤n hrD1j1…Drjr+1…Dnjnf
▸ La derivata direzionale iterata nella direzione del vettore (h1, …, hn) è data da:
Dhkf = (h1D1 + … + hnDn)kf
cioè:
 k

j ... j n
j1 + ... + j n = k  1
∑
 j1
 h1 ... h njn D1j1 ... D njn f

dove è:
 k 
k!

 =
j
...
j
j
!...
jn !
1
 1 n
Questa formula è la formula multinomiale, che dà i coefficienti della potenza (x1 + … + xn)k, mentre la
k 
 k 
k!
k!
formula del binomio,   =
o, espresso con la simbologia di Edwards  1 2  = 1 2 , che si
 j j  j !j !
 n  n!(k − n)!
k
identifica col triangolo di Tartaglia, fornisce i coefficienti della potenza (x1 + x2) .
Il coefficiente binomiale (kn) rappresenta le combinazioni distinte, senza ripetizioni, senza considerare
l’ordine, di n elementi scelti da un insieme di k elementi.
Il coefficiente multinomiale (kj1,…,jn) indica in quanti modi distinti (senza considerare l’ordine) possono
essere scelti n gruppi di oggetti, rispettivamente di j1,…,jn elementi su un totale di k oggetti.
POLINOMIO DI TAYLOR DI ORDINE K DI UNA FUNZIONE R
n
➙ R DI CLASSE CK
L’espansione di Taylor della funzione f : Rn ➙ R di classe Ck è:
f ( a + h) =
Dhr f (a) Dhk +1 f (ξ ) k +1
+
h
r!
(k + 1)!
r =0
k
∑
con:
k
Dhr f (a)
= f (a) + D1 f (a)h1 + ... +
r!
r =0
∑
 k  j1

h1 ...hnjn D1j1 ...Dnjn f
j
...
j
n
j1 +...+ jn =k  1
∑
dove é
Dh0f(a) = f(a).
Se scriviamo x = a + h otteniamo:
f(x) = Pk(x – a) + Rk(x – a)
dove Pk(x – a) è un polinomio di grado kth nei componenti x1 – a1, …, xn – an e
Rk ( x − a ) =
Dxk−+a1 f (a + τ ⋅ h)
(k + 1)!
3
ESEMPIO DI POLINOMIO DI TAYLOR DI ORDINE 3 CHE APPROSSIMA IL VALORE DI UNA FUNZIONE R
➙R
Data f : R3 ➙ R, scriviamo:
f(x) = f(a) + Dh1f(a) + (1/2!) Dh2f(a) + (1/3!) Dh3f(a)
= f(a) + [h1D1f + h1D3f + h3D3f] + (1/2!) Dhf[h1D1f + h1D3f + h3D3f] + (1/3!) Dhf{ Dhf[h1D1f + h1D3f + h3D3f] }
Senza occuparci ulteriormente della formula sviluppiamo Dhf[h1D1f + h1D3f + h3D3f]:
Dhf[h1D1f + h1D3f + h3D3f] =
= D1D1h1h1 + D1D2h1h2 + D1D3h1h3 + D1D2h1h2 + D2D2h2h2 + D2D3h2h3 + D1D3h1h3 + D2D3h2h3 + D13h3 =
= D12 h12 + 2D1D2h1h2 + 2D1D3h1h3 + D22h22 + 2D2D3h2h3 + 2D32h32
Sviluppiamo ora Dhf{ Dhf[h1D1f + h1D3f + h3D3f] }:
Dhf{ Dhf[h1D1f + h1D3f + h3D3f] } =
= Dhf{ D12 h12 + 2D1D2h1h2 + 2D1D3h1h3 + D22h22 + 2D2D3h2h3 + 2D32h32 }
= D13h13 + 2D12D2h12h2 + 2D12D3h12h3 + D1D22h1h22 + 2D1D2D3h1h2h3 + D1D32h1h32 + D12D2h12h2 +
2D1D22h1h22 + 2D1D2D3h1h2h3 + D23h23 + 2D22D3h22h3 + D2D32h2h32 + D12D3h12h3 + 2D1D2D3h1h2h3 +
2D1D32h1h32 + D22D3h22h3 + 2D2D32h2h32 + D33h33 =
= D13h13 + 3D12D2h12h2 + 3D12D3h12h3 + 3D1D22h1h22 + 6D1D2D3h1h2h3 + 3D1D32h1h32 + D23h23 + 3D22D3h22h3
+ 3D2D32h2h32 + D33h33
Utilizzando la regola del coefficiente multinomiale i coefficienti sono rispettivamente:
 3 
3 3

 D1 h1 +
3
,
0
,
0


 3 
2
2

 D1D3 h1h3
1
,
0
,
2


 3 
 3 
 3 
 3 
2
2
2
2
2
2

 D1 D2h1 h2 + 
 D1 D3h1 h3 + 
 D1D2 h1h2 + 
 D1D2D3h1h2h3
2
,
1
,
0
2
,
0
,
1
1
,
2
,
0






1,1,1
 3 
 3 
 3 
 3 
3 3
2
2
2
2
3 3
 D2 h2 + 
 D2 D3h2 h3 + 
 D2D3 h2h3 + 
 D3 h3
+ 
0
,
0
,
3
0
,
2
,
1
0
,
1
,
2
0
,
0
,
3








+
e cioè:
3! 3 3
D1 h1
3!
3! 3 3
D2 h2
3!
+
+
3!
2!1!
D12D2h12h2 +
3!
D22D3h22h3
2!1!
+
3!
D12D3h12h3
2!1!
3!
D2D32h2h32
1!2!
+
+
3!
D1D22h1h22
1!2!
+
3!
D1D2D3h1h2h3
1!1!1!
+
3!
D1D32h1h32
1!2!
+
3! 3 3
D3 h3
3!
Come si vede, tali coefficienti coincidono con quelli trovati col calcolo diretto.
Si è visto sopra che a questi coefficienti occorre ulteriormente moltiplicare 1/k! dove k è il grado della
derivata.
IL METODO DELL’HESSIANA
▸ Dato un punto critico a di una funzione f : Rn ➙ R di classe almeno C3, allora possiamo scrivere
(espansione di Taylor):
f(a + h) – f(a) = q(h) + R2(h)
dove:
q(h) = ½Dh2f(a) = ½(h1D1 + … + hnDn)2f(a) = ½∑
∑≤i,j≤n DiDjf(a)xixj = xt A x
dove le entrate aij della matrice A sono date da aij = ½DiDjf(a) e la matrice A è simmetrica, dato che è
DiDjf(a) = DjDif(a).
Quanto al resto si ha:
lim
h→0
R 2 (h )
h
2
=0
Se non tutte le derivate seconde svaniscono allora q(h) è un polinomio di secondo grado nelle incognite
h1, …, hn di forma:
q(h) = ∑1≤i≤j≤n aijhihj
ed è chiamato forma quadratica di una funzione in un punto critico a.
Possiamo scrivere:
 2 h
 h q  se h ≠ 0
h

 

q (h ) = 

0 se h = 0


Dal momento che h/|h| è un punto sulla sfera unitaria Sn–1, ne segue che la forma quadratica è
completamente determinata dai suoi valori su Sn–1.
Una forma quadratica è chiamata positiva definita (risp. negativa definita) se e solo se è positiva (risp.
negativa) in ogni punto di Sn–1 (e dunque ovunque eccetto che nel punto zero), e è chiamata non definita
se assume sia valori positivi che valori negativi su Sn–1 (e dunque in ogni intorno dello zero).
Si noti che y2, visto come una forma quadratica in x ed y in cui i coefficienti di x2 e xy sono zero, non è
né positiva definita né negativa definita né non definita (è non negativa dappertutto ma è zero sull’asse
x)
▸ [0901051914] Data una funzione f : Rn ➙ R di classe C3 nell’intorno di un punto critico a, allora in tale
punto essa ha:
▸ un minimo locale se la sua forma quadratica q(h) è positiva definita
▸ un massimo locale se la sua forma quadratica è negativa definita
▸ né un minimo né un massimo se q(h) è non definita
Se q(h) = 0 il teorema non si applica
Questo teorema si basa sul fatto che, poiché le derivate prime sono zero, la formula di Taylor di secondo
grado assume la forma:
f ( a + h) − f ( a ) =
1
2
⋅ h ⋅ H ( a ) h t + h E 2 ( a, h )
2!
dove E(a,h) ➙ 0 se h ➙ 0
E’ abbastanza intuitivo che, essendo il resto ∥h∥∥2 E2(a,h) un infinitesimo di grado superiore al secondo
rispetto ad ∥h∥∥, per valori piccoli di h esso diventa trascurabile rispetto al valore della forma
quadratica, e quindi il valore della differenza f(a + h) – f(a) è completamente determinato dal valore di
tale forma quadratica q(h).
▹ [0901061403] Determinazione della natura della forma quadratica q di una funzione f : Rn ➙ R
mediante l’analisi degli autovalori della forma lineare associata
Una forma quadratica è chiamata positiva definita (risp. negativa definita) se e solo se è positiva (risp.
negativa) in ogni punto di Sn–1 (e dunque ovunque eccetto che nel punto zero), e è chiamata non definita
se assume sia valori positivi che valori negativi su Sn–1 (e dunque in ogni intorno dello zero).
Se una forma quadratica ha il minimo/massimo su Sn–1 allora la matrice ha ivi un autovettore v e un
autovalore λ, e si ha q(v) = λ
Gli autovalori della forma lineare associata alla forma quadratica sono tutti e soli le soluzioni
dell’equazione:
|A – λI = 0
The maximum (minimum) value attained by the quadratic form a(x) = xt ⋅ A ⋅ x on Sn–1 is the largest
(smallest) real root of the equation
|A – λI = 0
▹ [0811231703] Determinazione della natura della forma quadratica q di una funzione f : Rn ➙ R
mediante i determinanti dell’hessiana
[0811231703] Un modo alternativo di determinare la natura della forma quadratica q di una funzione f
: Rn ➙ R è, anziché tramite l’analisi degli autovalori, mediante i determinanti dell’hessiana.
Consideriamo una forma quadratica q(x) = xt A x su Rn per la quale | A | ≠ 0. Scriviamo A come (aij) e
denotiamo con ∆k il determinante della sottomatrice kxk superiore sinistra della matrice A, cioè:
a11 L a1k
∆k = L L L
a k1 L a kk
in modo che si ha:
∆1 = a11
∆2 =
a11
a12
a 21
a 22
LLLLLLL
∆n = A
Allora q è:
▸ positiva definita se e solo se ∆k > 0 per 1 ≤ k ≤ n
▸ negativa definita se e solo se (– 1)k∆k > 0 per 1 ≤ k ≤ n
▸ non definita se nessuna delle due precedenti condizioni è soddisfatta
▹ [0901052016] Combinazione della [0901051914] e della [0811231703] e determinazione della natura dei
punti stazionari di una funzione f : Rn ➙ R in un punto p (si combinano il teorema [0901051914] sulla
forma quadratica in dipendenza dell’hessiana e il teorema [0811231703] sulla natura del punto critico
in dipendenza dalla forma quadratica)
Combinando i teoremi [0901051914] e [0811231703] otteniamo il modo di determinare la natura del
punto considerato dalla osservazione dell’hessiana.
Occorre innanzitutto che la matrice hessiana (delle derivate seconde) sia nonzero. Data una funzione f :
Rn ➙ R di classe C3 nell’intorno di un punto critico a allora si ha:
▸ ∀k ∆k > 0 ⇒ q positiva definita ⇒ minimo locale
▸ ∀k (– 1)k∆k > 0 ⇒ q negativa definita ⇒ massimo locale
▸ nessuna delle condizioni precedenti ⇒ q non definita ⇒ né un massimo né un minimo locale
▹ Il metodo classico di determinazione della natura dei punti critici di una funzione R2 ➙ R è una
applicazione del teorema [0901052016]
Data una funzione f : R2 ➙ R di ordine C2 in un intorno del punto critico p. Sia dato:
∆ = D12f(a,b)D22f(a,b) – (D1D2f(a,b))2
Allora:
▸ f ha un minimo locale in p se ∆ > 0 e D12f(p) > 0
▸ f ha un massimo locale in p se ∆ > 0 e D12f(p) < 0
▸ f non ha né un minimo né un massimo locale in p (ha un punto di sella) se ∆ < 0
▹ Se l’hessiano non è zero e la forma quadratica assume sia valori positivi che negativi allora esistono due
distinti sottospazi di Rn ortogonali l’uno all’altro tali che su uno la forma quadratica ha un minimo, e
sull’altro la forma quadratica ha un massimo.
Questa è una generalizzazione delle caratteristiche di un punto di sella in R3.
▹ Caso in cui l’hessiano è zero
Se l’hessiano è zero allora tale matrice non fornisce alcuna informazione circa il punto critico. Questa è
ad esempio la situazione se la forma quadratica q di f nel punto a è positiva semidefinita ma non
positiva definita o negativa semidefinita ma non negativa definita.
Una forma quadratica è detta positiva semidefinita se q(x) ≥ 0 per ogni x e negativa semidefinita se q(x)
≤ 0 per ogni x. Il termine “non definita” significa che q non è né positiva semidefinita né negativa
semidefinita (si potrebbe usare il termine “non definita”).
The quadratic form is called positive-semidefinite if q(x) ≥ 0 for all x, and negative-semidefinite if q(x) ≤
0 for all x. Notice that the terminology “q is nondefinite” which we have been using, actually means that
q is neither positive semidefinite nor negative semidefinite (so we might more descriptively have said
“non semidefinite”).
IL METODO DELLA FUNZIONE AUSILIARIA
▹ Date f : Rn ➙ R e g : Rn ➙ Rm (m < n) consideriamo il set M = g–1(0) dei punti che hanno gradiente non
nullo. Definiamo punto critico a ∈ M quello in cui ∇f è ortogonale allo spazio tangente di M in a. Poiché i
vettori gradienti ∇gi generano il complemento ortogonale a Ta allora si avrà:
∇f(a) = ∑1≤i≤mλi ∇gi(a).
Sia a un punto critico per f su M, e denotiamo con q : Rn ➙ R la forma quadratica di f in a e con H la
“funzione ausiliaria”:
H = f – ∑1≤i≤m λigi
Si noti che la funzione H è tale che nel punto critico su M si ha:
∇H(a) = ∇f – ∑1≤i≤m λi∇gi = 0
cosicché il punto a è un normale punto critico per la funzione H.
Se f e g sono di classe C3 in un intorno di a, allora f ha:
▸ un minimo locale su M in a se q è positiva definita sullo spazio tangente Ta a M in a
▸ un massimo locale su M in a se q è negativa definita sullo spazio tangente Ta a M in a
▸ né un massimo locale né un minimo locale se q è non definita su Ta
La proposizione “q è positiva definita su M” significa che q(x) > 0 per tutti I vettori non zero di Ta
La forma quadratica per H è eguale a ½∑
∑1≤i,j≤n DiDjH(a)hihj
DIMOSTRAZIONE DEL TEOREMA:
Consideriamo anzitutto un esempio pratico da tenere presente durante la lettura della dimostrazione
FIGURA 0811192032
Sn–1
Ta
m
a
g–1(0)
Scriviamo la espansione di Taylor:
H(a + h) = H(a) + 0 + q(h) + R2(h)
dove lo zero si giustifica col fatto che, trattandosi di un punto critico, tutte le derivate parziali sono
zero.
Spostando a secondo membro otteniamo:
H(a + h) – H(a) = q(h) + R2(h)
Abbiamo anche
H(x) = f(x) se x ∈ M, perché g(x) = 0 per ogni x ∈ M
Occorre mostrare che dato un δ > 0 sufficientemente piccolo si ha:
[0811192043]
∃δ > 0 (q (h ) + R2 (h ) > 0 )
Possiamo aggiungere una |h|2 al denominatore, perché, essendo una quantità positiva, non altera la
condizione:
h <δ
⇒
q (h ) + R 2 (h )
h
Poiché è lim
R 2 (h )
h→0
R 2 (h )
h
2
2
h
2
=0
>0
esiste sicuramente un valore δ al disotto del quale
(valore non assoluto) è negativa il segno di
Poiché è
q (h )
h
q (h )
h
2
h
= q  ,
h
 
2
+
R 2 (h )
h
2
R2 (h )
h
2
dipende solo da
<
m
2
e quindi anche se
q (h )
h
2
che è il valore della forma quadratica sulla sfera unitaria Sn–1, sia m il valore
minimo che f ha su Sn–1∩ Ta; per la condizione in ipotesi si ha m > 0; per la continuità di q è possibile
trovare un δ tale che
a + h ∈ M & |h| < δ ⇒ q(h/|h|) > m/2
Con il che si è dimostrata la condizione [0811192043]
ESEMPI (MOLTIPLICATORI DI LAGRANGE)
▹ [0901061409] Esempio di ricerca di massimo vincolato: due sfere che si intersecano lungo un cerchio
obliquo rispetto agli assi con la funzione f data dall’altezza z di ciascun punto di R3.
FIGURA 0811301529
z
v1
v3
v2
p
S2
b (1,1,1)
S1
y
C
a
x
I centri delle sfere S1 ed S2 sono rispettivamente i punti a e b; la sfera S1 ha raggio unitario, mentre la
sfera S2 ha raggio = 0,8.
L’equazione di S2 è (1 – x)2 + (1 – y)2 + (1 – z)2 = (0,8)2 e il segmento ab misura √12 + 12 + 12 = √3 =
1,732…
Abbiamo le seguenti funzioni:
f : R3 ➙ R : (x, y, z) ↦ z
g1 : R3 ➙ R : (x, y, z) ↦ x2 + y2 + z2
g2 : R3 ➙ R : (x, y, z) ↦ (1 – x)2 + (1 – y)2 + (1 – z)2
I vincoli sono:
g1(x, y, z) = 1
g2(x, y, z) = 0,8
e la funzione da massimizzare è la f
La funzione f ha evidentemente massimo vincolato nel punto p, dove i gradienti delle funzioni g1 e g2
sono rispettivamente v1 e v2. Poiché si dimostra che nel punto di massimo vincolato il gradiente ∇f = v3 è
ortogonale a qualsiasi linea che percorra il circolo C, e quindi normale a C, esso è una combinazione
lineare dei vettori v1 e v2.
▹ [0901061432] Esempio di non-applicabilità del metodo dei moltiplicatori di Lagrange per la
determinazione dei minimi/massimi di una funzione f : R3 ➙ R sullo zero set di una funzione g : R3 ➙
R2
I due vincoli, espressi in termini delle due funzioni componenti g1 e g2 sono:
z=0
z2 – (y – 1)3 = 0
e cioè:
z=0
z2 – (y3 – 3 y2 + 3 y – 1) = 0
e cioè:
z=0
z2 – y3 + 3 y2 – 3 y + 1 = 0
Vediamo che z = 0 e y = 1 sono una soluzione della seconda equazione:
– 13 + 3 ⋅ 12 – 3 ⋅ 1 + 1 = –1 + 3 – 3 + 1 = 0
Il vincolo è quindi costituito in R3 dalla retta z = 0, y = 1
Abbiamo poi:
 ∂g ∂g ∂g   ∂z ∂z ∂z 
∇g1 =  1 , 1 , 1  =  , ,  = (0,0,1)
 ∂x ∂y ∂z   ∂x ∂y ∂z 
 ∂g ∂g ∂g
∇g 2 =  2 , 2 , 2
 ∂x ∂y ∂z
(
) (
) (
) =
  ∂ z 2 − y 3 + 3 y 2 − 3 y + 1 ∂ z 2 − y 3 + 3 y 2 − 3 y + 1 ∂ z 2 − y 3 + 3 y 2 − 3 y + 1
 =
,
,
∂x
∂y
∂z
 


= (0,−3 y 2 + 6 y − 3,0)
Per quanto riguarda ∇g2 si vede che nel punto (0,1,0) è:
∇g2 = (0, – 3 y2 + 6y – 3, 0) = (0, – 3 ⋅ 12 + 6 ⋅ 1 – 3, 0) = (0,0,0)
Per quanto riguarda la f abbiamo:
 ∂f ∂f ∂f 
∇f =  , ,  = (2 x,2 y,0)
 ∂x ∂y ∂z 
e cioè, poiché x = 0 ed y = 1, abbiamo:
∇f = (0,2,0)
Si vede subito che non esistono costanti λ1, λ2 tali che si abbia:
(0,1,0) = λ1 ⋅ (0,0,1) + λ2 ⋅ (0,0,0)
e quindi il punto di minima distanza tra la retta e l’asse z, pur esistendo (è il punto (0,1,0)) non può
essere calcolato col metodo dei moltiplicatori di Lagrange.
ESEMPI DI UTILIZZO DELL’HESSIANA
▹ [0901061417] Esempio di ricerca degli autovalori della funzione lineare associato alla forma quadratica
per stabilire la natura di quest’ultima e conseguentemente la natura di massimo/minimo del punto.
Suppose a is a critical point of the function f : R3 ➙ R and that the quadradic form of f at a is
q(x,y,z) = x2 + y2 + z2 + 4yz
ovvero:
q(x1,x2,x3) = x12 + x22 + x32 + 4x2x3
cosicché la matrice di q è:
1 0 0


A = 0 1 2
0 2 1


L’equazione caratteristica di A è allora:
1− λ
0
0
0
0
1− λ
2
2
1− λ
= (1 – λ)[(1 – λ)2 – 4] = 0
con radici λ = – 1, 1, 3. Come si è detto, il massimo (minimo) valore raggiunto dalla forma quadratica
q(x) = xt A x su Xn–1è la radice reale più grande (più piccola) dell’equazione caratteristica |A – λI| = 0. Il
massimo e minimo valore di q su S2 sono +3 e – 1 rispettivamente. Dal momento che q ha valori sia
positivi che negativi, è non definita. Quindi, per la [0901051914] si ha che f non ha né un minimo né un
massimo in a.
Scarica