I MOLTIPLICATORI DI LAGRANGE NOZIONI GENERALI ▸ Le funzioni Rn ➙ Rm tra spazi euclidei sono un sottogruppo delle funzioni tra spazi vettoriali qualsiasi di dimensione qualsiasi. Quando n = m = 1 una tale funzione è detta funzione a valori reali di una variabile reale. Quando n = 1 e m > 1 è detta funzione a valori vettoriali di una variabile reale Quando n > 1 e m = 1 è detta funzione a valori reali di variabile vettoriale, o semplicemente campo scalare Quando n > 1 e m > 1 è detta funzione a valori vettoriali di una variabile vettoriale, o semplicemente campo vettoriale Queste ultime funzioni possono essere scomposte nelle cosiddette funzioni componenti: f1 : Rn ➙ R ………….. fm : Rn ➙ R tali che si abbia: f(x1, …, xn) = (f1(x1, …, xn), …, fm(x1, …, xn)) Per evitare ingombranti denominazioni, nel prosieguo parleremo rispettivamente di funzioni R ➙ R, funzioni R ➙ Rm, funzioni Rn ➙ R e funzioni Rn ➙ Rm anche se tecnicamente esse potrebbero essere definite solo su un sottoinsieme dello spazio euclideo indicato come dominio. ▸ Un sottospazio S dello spazio vettoriale V è un sottoinsieme che è esso stesso uno spazio vettoriale con le stesse operazioni definite in V. Per essere un sottospazio, deve essere chiuso rispetto a tali operazioni, cioè dati i vettori s1, s2 e lo scalare k, la somma s1 + s2 e il prodotto k ⋅ s1 devono appartenere anch’essi ad S. In questo modo vengono ereditate tutte le altre proprietà di spazio vettoriale. ▸ Data una funzione di classe C1 g : Rn ➙ Rm (m < n) e un punto p in cui g(p) = 0 e il rango della matrice ∂g1 ∂x 1 L ∂g m ∂x1 ∂g1 ∂xn L L ∂g m L ∂xn L è pari ad m, allora esiste un intorno U di p con una permutazione delle coordinate, esiste un aperto V ⊂ Rn–m costituito dalla proiezione (p i1 . …, pin) ↦ (pi1, …, pin–m) delle coordinate permutate di U∩ ∩g–1(0), esiste una funzione h : V ➙ Rm tali che ogni punto di U∩ ∩g–1(0) abbia coordinate (pi1, …, pin–m, h(pi1, …, pin–m)) Ma, riguardo l’insieme U∩ ∩g–1(0), questa è anche la definizione di varietà (n – m)-dimensionale, cosicché U∩ ∩g–1(0) è una varietà (n – m)-dimensionale. ∂f ∂f ,..., ∂ x ∂ xn 1 ▸ Data una funzione f : Rn ➙ R il gradiente nel punto a è dato da ∇f (a) = Abbiamo la seguente relazione tra vettore gradiente e derivata direzionale: Dvf(a) = ∇f(a) ⋅ v SUPERFICI K-DIMENSIONALI Le funzioni gi che costituiscono il vincolo possono essere di numero qualsiasi, purché inferiore alla dimensione dello spazio su cui è definita la funzione f da massimizzare. Così, nel caso che la funzione f sia definita su R3 possiamo avere una sola funzione vincolo o due funzioni g1, g2, che costituiscono le funzioni componenti di un’unica funzione G : R3 ➙ R2 Nel caso di una sola funzione continuamente differenziabile g, l’insieme di livello corrispondente ai punti nei quali si ha g = 0 e rango della jacobiana eguale ad uno costituisce una familiare superficie definita in forma parametrica. La definizione classica di rappresentazione parametrica regolare di classe Ck di una superficie in R3 è quella di una funzione Ck φ : U ⊂ R2 ➙ R3: x1 = φ1(u,v) x2 = φ2(u,v) x3 = φ3(u,v) definita su un aperto U di R2, con la jacobiana di rango 2. Richiedere che la jacobiana della superficie abbia rango 2 equivale a richiedere che i due vettori ∂φ/∂ ∂u e ∂φ/∂ ∂v siano linearmente indipendenti Questi due vettori individuano un piano. E’ facile dimostrare che tale piano contiene tutti i vettori tangenti alle curve differenziabili giacenti sulla superficie e passanti per il punto considerato. Si dice che la superficie è semplice se l’applicazione φ è iniettiva Per dimostrare che la jacobiana di φ è di rango 2 si ricorre al teorema della funzione implicita. Il teorema della funzione implicita stabilisce che, laddove la jacobiana della funzione continuamente differenziabile g abbia rango uno in un punto p, allora esiste un intorno U di p in R3 che racchiude una porzione g–1(0)∩ ∩U dell’insieme di livello costituito da tutti i punti p tali che g(p) = 0 e una funzione h : R2 ➙ R che manda due delle coordinate dell’insieme di livello nella terza coordinata in modo che sia g(xi1,xi2,h(xi1,xi2)) = 0 Il che vuol dire che nell’intorno U la superficie di livello può essere espressa mediante due parametri xi1 e xi2: xi1 = xi1 xi2 = xi2 xi3 = h(xi1,xi2) Si può facilmente calcolare che la jacobiana della parametrizzazione ottenuta con il teorema della funzione implicita è: ∂ϕ1 ∂x 1 ∂ϕ 2 ∂x 1 ∂ϕ 3 ∂x1 ∂ϕ1 ∂x 2 1 ∂ϕ 2 0 = ∂x 2 ∂h ∂ϕ 3 ∂x 1 ∂x 2 0 1 ∂h ∂x 2 Questa matrice ha chiaramente rango 2, perché le due prime righe sono linearmente indipendenti La condizione che la jacobiana della rappresentazione parametrica regolare abbia rango 2 assicura che ogni punto della immagine abbia un piano tangente, formato dalle derivate di tutte le curve passanti per il punto considerato. Assicura anche che si tratti di una superficie “liscia”, senza spigoli o cuspidi, perché si può dimostrare che laddove l’immagine di una funzione differenziabile φ : R2 ➙ R3 ha uno spigolo o una cuspide, allora le derivate parziali ∂φ/∂ ∂u e ∂φ/∂ ∂v devono essere tutte zero. Ne consegue che se la matrice jacobiana ha invece rango 2 allora si tratta di una superficie senza spigoli o cuspidi. La particolare rappresentazione parametrica regolare assicurata dal teorema della funzione implicita è nota come rappresentazione di Monge: la sua peculiarità sta nel fatto che i due parametri coincidono con due delle variabili in R3. x1 = u x2 = v x3 = φ(u,v) Il tipo più semplice di rappresentazione di Monge si ha quando la terza coordinata è quella del punto dell’insieme di livello di coordinate (x1, x2, x3). La rappresentazione di Monge ha come caratteristiche aggiuntive quella di essere iniettiva e bicontinua. Se le funzioni vincolo sono due, g1, g2, che costituiscono le funzioni componenti di un’unica funzione G : R3 ➙ R2 allora l’insieme di livello G-1(0) sarà non una superficie ma una linea. Anche in questo caso il teorema della funzione implicita, nell’intorno di ciascun punto p nel quale la jacobiana delle derivate ∂gi/∂ ∂xi ha rango 2 dimostra l’esistenza di una parametrizzazione del tipo: xi1 = xi1 xi2 = h1(xi1) xi3 = h2(xi1) Ecco due esempi di insiemi di livello che, non avendo la jacobiana delle derivate di rango 2, non rappresentano una linea, bensì un punto o una croce. ▸ S = {(x,y) | x2 + y2 = 0} è soddisfatto solo nell’origine, e consiste quindi di un solo punto; ∇g(0) = (2x , 2y) = (0 , 0) e si vede come S non è l’immagine di una curva in un intorno del punto (0,0) ▸ S = {(x,y) | x2 – y2 = 0} è costituito dalle due bisettrici degli assi coordinati, ∇g(0) = (2x , – 2y) = (0,0) e si vede come S non è una immagine di una curva, avendo forma di croce. Una rappresentazione parametrica regolare iniettiva e bicontinua (omeomorfa) rappresenta l’inversa di una carta locale con cui la geometria differenziale moderna definisce le varietà o manifolds. Se ogni punto della superficie ha una siffatta carta locale, allora in luogo di superficie, si usa il termine più astratto di varietà k-dimensionale o k-varietà, che può essere applicato a curve, superfici e ad altri insiemi di punti parametrizzati con più di due parametri. Nella teoria delle varietà o manifolds una parametrizzazione Rn ➙ RN corrisponde al concetto di immersione non iniettiva (funzione con la jacobiana di rango pari a quello del dominio) Il caso di parametrizzazione di Monge collegata dal teorema della funzione implicita ad un insieme di livello, corrisponde invece al concetto di immersione regolare (funzione iniettiva, con jacobiana di rango pari a quello del dominio e omeomorfa sulla propria immagine dotata della topologia indotta dal codominio). VARIETÀ K-DIMENSIONALI CORRISPONDENTI A K FUNZIONI VINCOLO Quando le funzioni vincolo gi sono in numero k con k > 2, non più su R3 ma su RN con N qualsiasi, l’insieme di livello G = 0 (G è la funzione le cui funzioni componenti sono le gi) è un oggetto geometrico più astratto di una superficie, che prende il nome di varietà k-dimensionale. Daremo qui di seguito la definizione di varietà k-dimensionale o k-varietà che generalizza il concetto di superficie o varietà 2-dimensionale. S ⊂ Rn è un k-dimensional patch se esiste una permutazione xi1, …, xin delle coordinate dei punti di S e una funzione differenziabile h : U ⊂ Rk ➙ Rn–k tale che nel nuovo sistema di coordinate le coordinate dei punti di S siano date da (xi1, …, xik, h (xi1, …, xik)) Un insieme M ⊂ Rn è chiamato una varietà k-dimensionale in Rn se ogni punto di M si trova in un aperto V ⊂ Rn tale che V ∩ M è un k-dimensional patch. Si può dimostrare che una varietà k-dimensionale ha un piano tangente k-dimensionale in ognuno dei suoi punti Si può dimostrare che l’insieme di livello di cui sopra, se la jacobiana di G ha rango k, è una varietà kdimensionale, e come tale ha un piano tangente k-dimensionale in ognuno dei suoi punti. MASSIMI, MINIMI, PUNTI STAZIONARI ▹ Se p è un punto di massimo per f in un aperto, allora il gradiente ∇f è ortogonale al vettore velocità di qualsiasi curva che passi per p Questo teorema è applicabile sia al boundary (cioè ai punti dell’insieme S in ogni intorno dei quali cade sia un punto interno all’insieme che un punto esterno all’insieme) che all’interior di S (cioè ai punti dell’insieme s per i quali esiste un intorno nel quale cadono solo punti di S) e per l’interior dà come risultato che p deve essere un punto critico. ▸ Quando tutte le componenti del gradiente ∇f di una funzione differenziabile f : Rn ➙ R sono nulle in un punto p, cioè se ∇f = 0, allora tale punto dicesi punto stazionario o punto critico della funzione I punti stazionari di una funzione si classificano generalmente in tre categorie: punti di massimo, punti di minimo e punti di sella. Si dice che una funzione Rn ➙ R ha un massimo assoluto in un punto a di un sottoinsieme S di Rn se f(x) ≤ f(a) per ogni x in S. Il valore f(a) è detto massimo assoluto di f in S. Si dice che una funzione ha un massimo relativo in a se la disuguaglianza f(x) ≤ f(a) è soddisfatta per tutti gli x di un intorno di a contenuto in S. In modo analogo si definiscono il minimo assoluto in un punto di S e il minimo relativo in un punto di S. Si dice estremo di f un numero che sia o un massimo relativo o un minimo relativo di f. Un punto è detto punto di sella se ogni intorno di a contiene punti x tali che f(x) <f(a) e altri punti tali che f(x) > f(a) ▸ Se f ha un estremo in un punto interno p del sottoinsieme S ed è ivi differenziabile, allora tutte le derivate parziali del primo ordine sono nulle (il vettore gradiente è eguale a zero). Questa è però solo una condizione necessaria ma non sufficiente (in altre parole, non è vero l’inverso: se p è un punto critico non necessariamente la funzione ha un massimo o minimo locale in quel punto). ▹ Se f : Rn ➙ R possiede un massimo/minimo su una superficie n-dimensionale, non necessariamente il gradiente è eguale a zero Se invece f : Rn ➙ R possiede un massimo o minimo su una superficie n-dimensionale, non necessariamente il suo gradiente in tal punto è eguale a zero (cioè è un punto critico della funzione). Pertanto, nel caso di una funzione definita su un sottoinsieme di Rn compreso entro una superficie (n – 1)-dimensionale chiusa, per trovare i punti di massimo o minimo locali occorre usare procedimenti diversi a seconda che tali punti si trovino sulla superficie o all’interno di essa: nel secondo caso si procede eguagliando a zero le derivate prime e, una volta trovati i punti, si procede a determinare se siano di massimo, minimo o di sella tramite l’analisi della matrice hessiana delle derivate seconde; nel primo caso si procede col metodo dei moltiplicatori di Lagrange. ▹ [0901061522] Dato un insieme compatto (chiuso e limitato) una funzione ha su di esso un massimo e un minimo, che possono essere nell’interior o nel boundary. Tra i casi più interessanti vi sono quelli di regioni entro (iper)superfici chiuse. Una funzione f : D ⊂ Rn ➙ R su un subset D compatto (= chiuso e limitato), se continua ha un massimo e un minimo su D. Frequentemente si considerano i punti entro una superficie (n – 1)-dimensionale: regioni racchiuse da una curva chiusa in R2; regioni racchiuse da una superficie chiusa in R3; e così via. La funzione può avere un massimo/minimo sia all’interno di D sia sulla (n – 1)-superficie. Se il punto di massimo/minimo si trova all’interno di D deve essere un punto critico e viene individuato ponendo le derivate parziali eguali a zero. Ma se è un punto di confine (in ogni intorno vi sono sia punti che appartengono a D sia punti che non appartengono a D) allora non è necessariamente un punto critico e per individuarlo si deve usare il procedimento dei moltiplicatori di Lagrange. Se una funzione f : Rn ➙ R ha un massimo o minimo locale su un aperto di Rn allora il punto è un punto critico. ▹ Un teorema analogo a quello [0901061522] degli estremi su un intervallo chiuso e limitato di Rn si ha per funzioni Rn ➙ R continue su un intervallo chiuso. In tal caso infatti la chiusura più la continuità implicano la limitatezza e quindi la esistenza di un estremo superiore e inferiore dei valori della funzione. IL METODO DEI MOLTIPLICATORI DI LAGRANGE ▹ Il metodo dei moltiplicatori di Lagrange per trovare i possibili punti di massimo/minimo di una funzione Rn ➙ R sull’insieme di livello di una funzione Rn ➙ Rm Data una funzione di classe C1 g : Rn ➙ Rm consideriamone l’insieme di livello g–1(0) dei punti le cui coordinate soddisfano le equazioni: g1(x1, …, xn) = 0 ………………… gm(x1, …, xn) = 0 Se la funzione differenziabile f : Rn ➙ R ha un massimo o minimo in un punto p di tale insieme di livello, allora esistono m numeri reali λ1, …, λm (chiamati moltiplicatori di Lagrange) tali che si ha: ∇f(a) = λ1∇G1(a) + … + λm∇Gm(a) Per determinare il valore di x1, …, xn e di λ1, …, λm si utilizza il sistema di n + m equazioni: ∇f(x) = λ1∇G1(a) + … + λm∇Gm(a) g1(x) = 0 ………………… gm(x) = 0 ∂f ∂g ∂g ∂g ∂g ∂f = λ1 1 ,..., 1 + ... + λm m ,..., m Dato che è: ,..., ∂x1 ∂xn ∂x1 ∂xn ∂x1 ∂xn le equazioni sono: ∂g ∂g ∂f = λ1 1 + ... + λm m ∂x1 ∂x1 ∂x1 .............................................. ∂g ∂g ∂f = λ1 1 + ... + λm m ∂xn ∂xn ∂xn g1 ( x) = 0 ................. g m ( x) = 0 Il metodo è valido se il numero dei vincoli, m, è più piccolo del numero delle variabili, n, e se i determinanti jacobiani delle funzioni vincolo rispetto a m delle n variabili x1,…,xn non sono tutti nulli nei punti di estremo in questione. Quest’ultimo requisito equivale a chiedere che il rango della jacobiana sia m nel punto considerato, ovvero anche a chiedere che i gradienti delle m funzioni vincolo siano linearmente indipendenti. DERIVATA DIREZIONALE ITERATA DI ORDINE K CHE APPROSSIMA UNA FUNZIONE R CON h VETTORE DI R n ➙ Rm NEL PUNTO a + h n . ▸ La derivata direzionale di una derivata direzionale di ordine n di una funzione f : Rn ➙ R rispetto al vettore (h1, …, hn) è data da: DhD1j1…Dnjnf = ∑1≤r≤n hrD1j1…Drjr+1…Dnjnf ▸ La derivata direzionale iterata nella direzione del vettore (h1, …, hn) è data da: Dhkf = (h1D1 + … + hnDn)kf cioè: k j ... j n j1 + ... + j n = k 1 ∑ j1 h1 ... h njn D1j1 ... D njn f dove è: k k! = j ... j j !... jn ! 1 1 n Questa formula è la formula multinomiale, che dà i coefficienti della potenza (x1 + … + xn)k, mentre la k k k! k! formula del binomio, = o, espresso con la simbologia di Edwards 1 2 = 1 2 , che si j j j !j ! n n!(k − n)! k identifica col triangolo di Tartaglia, fornisce i coefficienti della potenza (x1 + x2) . Il coefficiente binomiale (kn) rappresenta le combinazioni distinte, senza ripetizioni, senza considerare l’ordine, di n elementi scelti da un insieme di k elementi. Il coefficiente multinomiale (kj1,…,jn) indica in quanti modi distinti (senza considerare l’ordine) possono essere scelti n gruppi di oggetti, rispettivamente di j1,…,jn elementi su un totale di k oggetti. POLINOMIO DI TAYLOR DI ORDINE K DI UNA FUNZIONE R n ➙ R DI CLASSE CK L’espansione di Taylor della funzione f : Rn ➙ R di classe Ck è: f ( a + h) = Dhr f (a) Dhk +1 f (ξ ) k +1 + h r! (k + 1)! r =0 k ∑ con: k Dhr f (a) = f (a) + D1 f (a)h1 + ... + r! r =0 ∑ k j1 h1 ...hnjn D1j1 ...Dnjn f j ... j n j1 +...+ jn =k 1 ∑ dove é Dh0f(a) = f(a). Se scriviamo x = a + h otteniamo: f(x) = Pk(x – a) + Rk(x – a) dove Pk(x – a) è un polinomio di grado kth nei componenti x1 – a1, …, xn – an e Rk ( x − a ) = Dxk−+a1 f (a + τ ⋅ h) (k + 1)! 3 ESEMPIO DI POLINOMIO DI TAYLOR DI ORDINE 3 CHE APPROSSIMA IL VALORE DI UNA FUNZIONE R ➙R Data f : R3 ➙ R, scriviamo: f(x) = f(a) + Dh1f(a) + (1/2!) Dh2f(a) + (1/3!) Dh3f(a) = f(a) + [h1D1f + h1D3f + h3D3f] + (1/2!) Dhf[h1D1f + h1D3f + h3D3f] + (1/3!) Dhf{ Dhf[h1D1f + h1D3f + h3D3f] } Senza occuparci ulteriormente della formula sviluppiamo Dhf[h1D1f + h1D3f + h3D3f]: Dhf[h1D1f + h1D3f + h3D3f] = = D1D1h1h1 + D1D2h1h2 + D1D3h1h3 + D1D2h1h2 + D2D2h2h2 + D2D3h2h3 + D1D3h1h3 + D2D3h2h3 + D13h3 = = D12 h12 + 2D1D2h1h2 + 2D1D3h1h3 + D22h22 + 2D2D3h2h3 + 2D32h32 Sviluppiamo ora Dhf{ Dhf[h1D1f + h1D3f + h3D3f] }: Dhf{ Dhf[h1D1f + h1D3f + h3D3f] } = = Dhf{ D12 h12 + 2D1D2h1h2 + 2D1D3h1h3 + D22h22 + 2D2D3h2h3 + 2D32h32 } = D13h13 + 2D12D2h12h2 + 2D12D3h12h3 + D1D22h1h22 + 2D1D2D3h1h2h3 + D1D32h1h32 + D12D2h12h2 + 2D1D22h1h22 + 2D1D2D3h1h2h3 + D23h23 + 2D22D3h22h3 + D2D32h2h32 + D12D3h12h3 + 2D1D2D3h1h2h3 + 2D1D32h1h32 + D22D3h22h3 + 2D2D32h2h32 + D33h33 = = D13h13 + 3D12D2h12h2 + 3D12D3h12h3 + 3D1D22h1h22 + 6D1D2D3h1h2h3 + 3D1D32h1h32 + D23h23 + 3D22D3h22h3 + 3D2D32h2h32 + D33h33 Utilizzando la regola del coefficiente multinomiale i coefficienti sono rispettivamente: 3 3 3 D1 h1 + 3 , 0 , 0 3 2 2 D1D3 h1h3 1 , 0 , 2 3 3 3 3 2 2 2 2 2 2 D1 D2h1 h2 + D1 D3h1 h3 + D1D2 h1h2 + D1D2D3h1h2h3 2 , 1 , 0 2 , 0 , 1 1 , 2 , 0 1,1,1 3 3 3 3 3 3 2 2 2 2 3 3 D2 h2 + D2 D3h2 h3 + D2D3 h2h3 + D3 h3 + 0 , 0 , 3 0 , 2 , 1 0 , 1 , 2 0 , 0 , 3 + e cioè: 3! 3 3 D1 h1 3! 3! 3 3 D2 h2 3! + + 3! 2!1! D12D2h12h2 + 3! D22D3h22h3 2!1! + 3! D12D3h12h3 2!1! 3! D2D32h2h32 1!2! + + 3! D1D22h1h22 1!2! + 3! D1D2D3h1h2h3 1!1!1! + 3! D1D32h1h32 1!2! + 3! 3 3 D3 h3 3! Come si vede, tali coefficienti coincidono con quelli trovati col calcolo diretto. Si è visto sopra che a questi coefficienti occorre ulteriormente moltiplicare 1/k! dove k è il grado della derivata. IL METODO DELL’HESSIANA ▸ Dato un punto critico a di una funzione f : Rn ➙ R di classe almeno C3, allora possiamo scrivere (espansione di Taylor): f(a + h) – f(a) = q(h) + R2(h) dove: q(h) = ½Dh2f(a) = ½(h1D1 + … + hnDn)2f(a) = ½∑ ∑≤i,j≤n DiDjf(a)xixj = xt A x dove le entrate aij della matrice A sono date da aij = ½DiDjf(a) e la matrice A è simmetrica, dato che è DiDjf(a) = DjDif(a). Quanto al resto si ha: lim h→0 R 2 (h ) h 2 =0 Se non tutte le derivate seconde svaniscono allora q(h) è un polinomio di secondo grado nelle incognite h1, …, hn di forma: q(h) = ∑1≤i≤j≤n aijhihj ed è chiamato forma quadratica di una funzione in un punto critico a. Possiamo scrivere: 2 h h q se h ≠ 0 h q (h ) = 0 se h = 0 Dal momento che h/|h| è un punto sulla sfera unitaria Sn–1, ne segue che la forma quadratica è completamente determinata dai suoi valori su Sn–1. Una forma quadratica è chiamata positiva definita (risp. negativa definita) se e solo se è positiva (risp. negativa) in ogni punto di Sn–1 (e dunque ovunque eccetto che nel punto zero), e è chiamata non definita se assume sia valori positivi che valori negativi su Sn–1 (e dunque in ogni intorno dello zero). Si noti che y2, visto come una forma quadratica in x ed y in cui i coefficienti di x2 e xy sono zero, non è né positiva definita né negativa definita né non definita (è non negativa dappertutto ma è zero sull’asse x) ▸ [0901051914] Data una funzione f : Rn ➙ R di classe C3 nell’intorno di un punto critico a, allora in tale punto essa ha: ▸ un minimo locale se la sua forma quadratica q(h) è positiva definita ▸ un massimo locale se la sua forma quadratica è negativa definita ▸ né un minimo né un massimo se q(h) è non definita Se q(h) = 0 il teorema non si applica Questo teorema si basa sul fatto che, poiché le derivate prime sono zero, la formula di Taylor di secondo grado assume la forma: f ( a + h) − f ( a ) = 1 2 ⋅ h ⋅ H ( a ) h t + h E 2 ( a, h ) 2! dove E(a,h) ➙ 0 se h ➙ 0 E’ abbastanza intuitivo che, essendo il resto ∥h∥∥2 E2(a,h) un infinitesimo di grado superiore al secondo rispetto ad ∥h∥∥, per valori piccoli di h esso diventa trascurabile rispetto al valore della forma quadratica, e quindi il valore della differenza f(a + h) – f(a) è completamente determinato dal valore di tale forma quadratica q(h). ▹ [0901061403] Determinazione della natura della forma quadratica q di una funzione f : Rn ➙ R mediante l’analisi degli autovalori della forma lineare associata Una forma quadratica è chiamata positiva definita (risp. negativa definita) se e solo se è positiva (risp. negativa) in ogni punto di Sn–1 (e dunque ovunque eccetto che nel punto zero), e è chiamata non definita se assume sia valori positivi che valori negativi su Sn–1 (e dunque in ogni intorno dello zero). Se una forma quadratica ha il minimo/massimo su Sn–1 allora la matrice ha ivi un autovettore v e un autovalore λ, e si ha q(v) = λ Gli autovalori della forma lineare associata alla forma quadratica sono tutti e soli le soluzioni dell’equazione: |A – λI = 0 The maximum (minimum) value attained by the quadratic form a(x) = xt ⋅ A ⋅ x on Sn–1 is the largest (smallest) real root of the equation |A – λI = 0 ▹ [0811231703] Determinazione della natura della forma quadratica q di una funzione f : Rn ➙ R mediante i determinanti dell’hessiana [0811231703] Un modo alternativo di determinare la natura della forma quadratica q di una funzione f : Rn ➙ R è, anziché tramite l’analisi degli autovalori, mediante i determinanti dell’hessiana. Consideriamo una forma quadratica q(x) = xt A x su Rn per la quale | A | ≠ 0. Scriviamo A come (aij) e denotiamo con ∆k il determinante della sottomatrice kxk superiore sinistra della matrice A, cioè: a11 L a1k ∆k = L L L a k1 L a kk in modo che si ha: ∆1 = a11 ∆2 = a11 a12 a 21 a 22 LLLLLLL ∆n = A Allora q è: ▸ positiva definita se e solo se ∆k > 0 per 1 ≤ k ≤ n ▸ negativa definita se e solo se (– 1)k∆k > 0 per 1 ≤ k ≤ n ▸ non definita se nessuna delle due precedenti condizioni è soddisfatta ▹ [0901052016] Combinazione della [0901051914] e della [0811231703] e determinazione della natura dei punti stazionari di una funzione f : Rn ➙ R in un punto p (si combinano il teorema [0901051914] sulla forma quadratica in dipendenza dell’hessiana e il teorema [0811231703] sulla natura del punto critico in dipendenza dalla forma quadratica) Combinando i teoremi [0901051914] e [0811231703] otteniamo il modo di determinare la natura del punto considerato dalla osservazione dell’hessiana. Occorre innanzitutto che la matrice hessiana (delle derivate seconde) sia nonzero. Data una funzione f : Rn ➙ R di classe C3 nell’intorno di un punto critico a allora si ha: ▸ ∀k ∆k > 0 ⇒ q positiva definita ⇒ minimo locale ▸ ∀k (– 1)k∆k > 0 ⇒ q negativa definita ⇒ massimo locale ▸ nessuna delle condizioni precedenti ⇒ q non definita ⇒ né un massimo né un minimo locale ▹ Il metodo classico di determinazione della natura dei punti critici di una funzione R2 ➙ R è una applicazione del teorema [0901052016] Data una funzione f : R2 ➙ R di ordine C2 in un intorno del punto critico p. Sia dato: ∆ = D12f(a,b)D22f(a,b) – (D1D2f(a,b))2 Allora: ▸ f ha un minimo locale in p se ∆ > 0 e D12f(p) > 0 ▸ f ha un massimo locale in p se ∆ > 0 e D12f(p) < 0 ▸ f non ha né un minimo né un massimo locale in p (ha un punto di sella) se ∆ < 0 ▹ Se l’hessiano non è zero e la forma quadratica assume sia valori positivi che negativi allora esistono due distinti sottospazi di Rn ortogonali l’uno all’altro tali che su uno la forma quadratica ha un minimo, e sull’altro la forma quadratica ha un massimo. Questa è una generalizzazione delle caratteristiche di un punto di sella in R3. ▹ Caso in cui l’hessiano è zero Se l’hessiano è zero allora tale matrice non fornisce alcuna informazione circa il punto critico. Questa è ad esempio la situazione se la forma quadratica q di f nel punto a è positiva semidefinita ma non positiva definita o negativa semidefinita ma non negativa definita. Una forma quadratica è detta positiva semidefinita se q(x) ≥ 0 per ogni x e negativa semidefinita se q(x) ≤ 0 per ogni x. Il termine “non definita” significa che q non è né positiva semidefinita né negativa semidefinita (si potrebbe usare il termine “non definita”). The quadratic form is called positive-semidefinite if q(x) ≥ 0 for all x, and negative-semidefinite if q(x) ≤ 0 for all x. Notice that the terminology “q is nondefinite” which we have been using, actually means that q is neither positive semidefinite nor negative semidefinite (so we might more descriptively have said “non semidefinite”). IL METODO DELLA FUNZIONE AUSILIARIA ▹ Date f : Rn ➙ R e g : Rn ➙ Rm (m < n) consideriamo il set M = g–1(0) dei punti che hanno gradiente non nullo. Definiamo punto critico a ∈ M quello in cui ∇f è ortogonale allo spazio tangente di M in a. Poiché i vettori gradienti ∇gi generano il complemento ortogonale a Ta allora si avrà: ∇f(a) = ∑1≤i≤mλi ∇gi(a). Sia a un punto critico per f su M, e denotiamo con q : Rn ➙ R la forma quadratica di f in a e con H la “funzione ausiliaria”: H = f – ∑1≤i≤m λigi Si noti che la funzione H è tale che nel punto critico su M si ha: ∇H(a) = ∇f – ∑1≤i≤m λi∇gi = 0 cosicché il punto a è un normale punto critico per la funzione H. Se f e g sono di classe C3 in un intorno di a, allora f ha: ▸ un minimo locale su M in a se q è positiva definita sullo spazio tangente Ta a M in a ▸ un massimo locale su M in a se q è negativa definita sullo spazio tangente Ta a M in a ▸ né un massimo locale né un minimo locale se q è non definita su Ta La proposizione “q è positiva definita su M” significa che q(x) > 0 per tutti I vettori non zero di Ta La forma quadratica per H è eguale a ½∑ ∑1≤i,j≤n DiDjH(a)hihj DIMOSTRAZIONE DEL TEOREMA: Consideriamo anzitutto un esempio pratico da tenere presente durante la lettura della dimostrazione FIGURA 0811192032 Sn–1 Ta m a g–1(0) Scriviamo la espansione di Taylor: H(a + h) = H(a) + 0 + q(h) + R2(h) dove lo zero si giustifica col fatto che, trattandosi di un punto critico, tutte le derivate parziali sono zero. Spostando a secondo membro otteniamo: H(a + h) – H(a) = q(h) + R2(h) Abbiamo anche H(x) = f(x) se x ∈ M, perché g(x) = 0 per ogni x ∈ M Occorre mostrare che dato un δ > 0 sufficientemente piccolo si ha: [0811192043] ∃δ > 0 (q (h ) + R2 (h ) > 0 ) Possiamo aggiungere una |h|2 al denominatore, perché, essendo una quantità positiva, non altera la condizione: h <δ ⇒ q (h ) + R 2 (h ) h Poiché è lim R 2 (h ) h→0 R 2 (h ) h 2 2 h 2 =0 >0 esiste sicuramente un valore δ al disotto del quale (valore non assoluto) è negativa il segno di Poiché è q (h ) h q (h ) h 2 h = q , h 2 + R 2 (h ) h 2 R2 (h ) h 2 dipende solo da < m 2 e quindi anche se q (h ) h 2 che è il valore della forma quadratica sulla sfera unitaria Sn–1, sia m il valore minimo che f ha su Sn–1∩ Ta; per la condizione in ipotesi si ha m > 0; per la continuità di q è possibile trovare un δ tale che a + h ∈ M & |h| < δ ⇒ q(h/|h|) > m/2 Con il che si è dimostrata la condizione [0811192043] ESEMPI (MOLTIPLICATORI DI LAGRANGE) ▹ [0901061409] Esempio di ricerca di massimo vincolato: due sfere che si intersecano lungo un cerchio obliquo rispetto agli assi con la funzione f data dall’altezza z di ciascun punto di R3. FIGURA 0811301529 z v1 v3 v2 p S2 b (1,1,1) S1 y C a x I centri delle sfere S1 ed S2 sono rispettivamente i punti a e b; la sfera S1 ha raggio unitario, mentre la sfera S2 ha raggio = 0,8. L’equazione di S2 è (1 – x)2 + (1 – y)2 + (1 – z)2 = (0,8)2 e il segmento ab misura √12 + 12 + 12 = √3 = 1,732… Abbiamo le seguenti funzioni: f : R3 ➙ R : (x, y, z) ↦ z g1 : R3 ➙ R : (x, y, z) ↦ x2 + y2 + z2 g2 : R3 ➙ R : (x, y, z) ↦ (1 – x)2 + (1 – y)2 + (1 – z)2 I vincoli sono: g1(x, y, z) = 1 g2(x, y, z) = 0,8 e la funzione da massimizzare è la f La funzione f ha evidentemente massimo vincolato nel punto p, dove i gradienti delle funzioni g1 e g2 sono rispettivamente v1 e v2. Poiché si dimostra che nel punto di massimo vincolato il gradiente ∇f = v3 è ortogonale a qualsiasi linea che percorra il circolo C, e quindi normale a C, esso è una combinazione lineare dei vettori v1 e v2. ▹ [0901061432] Esempio di non-applicabilità del metodo dei moltiplicatori di Lagrange per la determinazione dei minimi/massimi di una funzione f : R3 ➙ R sullo zero set di una funzione g : R3 ➙ R2 I due vincoli, espressi in termini delle due funzioni componenti g1 e g2 sono: z=0 z2 – (y – 1)3 = 0 e cioè: z=0 z2 – (y3 – 3 y2 + 3 y – 1) = 0 e cioè: z=0 z2 – y3 + 3 y2 – 3 y + 1 = 0 Vediamo che z = 0 e y = 1 sono una soluzione della seconda equazione: – 13 + 3 ⋅ 12 – 3 ⋅ 1 + 1 = –1 + 3 – 3 + 1 = 0 Il vincolo è quindi costituito in R3 dalla retta z = 0, y = 1 Abbiamo poi: ∂g ∂g ∂g ∂z ∂z ∂z ∇g1 = 1 , 1 , 1 = , , = (0,0,1) ∂x ∂y ∂z ∂x ∂y ∂z ∂g ∂g ∂g ∇g 2 = 2 , 2 , 2 ∂x ∂y ∂z ( ) ( ) ( ) = ∂ z 2 − y 3 + 3 y 2 − 3 y + 1 ∂ z 2 − y 3 + 3 y 2 − 3 y + 1 ∂ z 2 − y 3 + 3 y 2 − 3 y + 1 = , , ∂x ∂y ∂z = (0,−3 y 2 + 6 y − 3,0) Per quanto riguarda ∇g2 si vede che nel punto (0,1,0) è: ∇g2 = (0, – 3 y2 + 6y – 3, 0) = (0, – 3 ⋅ 12 + 6 ⋅ 1 – 3, 0) = (0,0,0) Per quanto riguarda la f abbiamo: ∂f ∂f ∂f ∇f = , , = (2 x,2 y,0) ∂x ∂y ∂z e cioè, poiché x = 0 ed y = 1, abbiamo: ∇f = (0,2,0) Si vede subito che non esistono costanti λ1, λ2 tali che si abbia: (0,1,0) = λ1 ⋅ (0,0,1) + λ2 ⋅ (0,0,0) e quindi il punto di minima distanza tra la retta e l’asse z, pur esistendo (è il punto (0,1,0)) non può essere calcolato col metodo dei moltiplicatori di Lagrange. ESEMPI DI UTILIZZO DELL’HESSIANA ▹ [0901061417] Esempio di ricerca degli autovalori della funzione lineare associato alla forma quadratica per stabilire la natura di quest’ultima e conseguentemente la natura di massimo/minimo del punto. Suppose a is a critical point of the function f : R3 ➙ R and that the quadradic form of f at a is q(x,y,z) = x2 + y2 + z2 + 4yz ovvero: q(x1,x2,x3) = x12 + x22 + x32 + 4x2x3 cosicché la matrice di q è: 1 0 0 A = 0 1 2 0 2 1 L’equazione caratteristica di A è allora: 1− λ 0 0 0 0 1− λ 2 2 1− λ = (1 – λ)[(1 – λ)2 – 4] = 0 con radici λ = – 1, 1, 3. Come si è detto, il massimo (minimo) valore raggiunto dalla forma quadratica q(x) = xt A x su Xn–1è la radice reale più grande (più piccola) dell’equazione caratteristica |A – λI| = 0. Il massimo e minimo valore di q su S2 sono +3 e – 1 rispettivamente. Dal momento che q ha valori sia positivi che negativi, è non definita. Quindi, per la [0901051914] si ha che f non ha né un minimo né un massimo in a.