Geometria UNO Prodotti hermitiani Corso di Laurea in Matematica Anno Accademico 2013/2014 Alberto Albano 2 aprile 2014 Queste note sono un riassunto delle lezioni di . . . . I fatti principali sono contenuti nei paragrafi 2 e 3. Il paragrafo 1 è inserito come lettura e come contesto. In tutto quello che segue, se non altrimenti indicato, gli spazi vettoriali considerati sono di dimensione finita. I campi degli scalari saranno sempre il campo reale R o il campo complesso C. Sarà importante distinguere le proprietà degli spazi vettoriali reali da quelle degli spazi vettoriali complessi. Indice 1 Spazi vettoriali duali 1.1 Duale di uno spazio vettoriale e base duale . . . . . . 1.2 Applicazione aggiunta . . . . . . . . . . . . . . . . . 1.3 Isomorfismi V ∼ =V∗ . . . . . . . . . . . . . . . . . . 1.4 Spazio biduale e isomorfismo canonico V ∼ = V ∗∗ . . . 1.5 Ortogonale di un sottospazio . . . . . . . . . . . . . 1.6 Rango di un’applicazione e dell’applicazione aggiunta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 3 4 6 7 7 2 Prodotti scalari ed Hermitiani 2.1 Prodotti scalari . . . . . . . . . . . . . . 2.2 Isomorfismo canonico V ∼ =V∗ . . . . . . 2.3 L’aggiunta (euclidea) di un endomorfismo 2.4 Prodotti Hermitiani . . . . . . . . . . . . 2.5 Ortogonalizzazione di Gram-Schmidt. . . . 2.6 Matrici Hermitiane, unitarie, normali. . . . 2.7 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 8 10 11 12 13 14 17 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Il teorema spettrale 17 3.1 Decomposizione di Schur . . . . . . . . . . . . . . . . . . . . . . . 17 3.2 Autovalori di una matrice Hermitiana. . . . . . . . . . . . . . . . . 19 3.3 Il teorema spettrale reale. . . . . . . . . . . . . . . . . . . . . . . . 20 1 1 SPAZI VETTORIALI DUALI 1 1.1 2 Spazi vettoriali duali Duale di uno spazio vettoriale e base duale Sia V uno spazio vettoriale (anche di dimensione infinita) sul campo K. Il duale di V , indicato con V ∗ è V ∗ = {f : V → K | f lineare }, l’insieme di tutte le applicazioni lineari da V in K. Queste applicazioni sono anche chiamate funzionali lineari. È immediato dimostrare che V ∗ è uno spazio vettoriale su K con le operazioni di somma e prodotto per scalari definite da: (f + g)(v) = f (v) + g(v), (α · f )(v) = α · f (v), ∀f, g ∈ V ∗ , ∀ v ∈ V ∀f ∈ V ∗ , ∀ α ∈ K, ∀ v ∈ V Sia ora V di dimensione finita. Per ogni base di V si può determinare una base di V ∗ , detta la base duale. Sia dunque dim V = n e B = {v1 , v2 , . . . , vn } una base di V . Definiamo, per i = 1, . . . , n, il funzionale lineare fi : V → K come fi (vj ) = δij dove δij è il delta di Kronecker che vale 1 per i = j e 0 per i 6= j. Le funzioni fi sono ben definite perché sono assegnate sui vettori di una base. Si ha Proposizione 1.1. B∗ = {f1 , . . . , fn } è una base di V ∗ . Dimostrazione. Dobbiamo dimostrare che f1 , . . . , fn sono generatori e che sono linearmente indipendenti. Sia f ∈ V ∗ . Per i = 1, . . . , n, poniamo λi = f (vi ). Verifichiamo che: f (v) = λ1 f1 (v) + · · · + λn fn (v), ∀v ∈ V. Per i vettori v1 , . . . , vn della base si ha: λ1 f1 (vi ) + · · · + λn fn (vi ) = λi = f (vi ), i = 1, 2, . . . , n e quindi le applicazioni lineari f e λ1 f1 + . . . λn fn coincidono sui vettori di una base e quindi sono la stessa applicazione lineare in V ∗ . Dunque ogni f ∈ V ∗ è combinazione lineare degli fi che quindi sono generatori. Sia ora α1 f1 + · · · + αn fn = 0 ∈ V ∗ . Allora per ogni v ∈ V si ha α1 f1 (v) + · · · + αn fn (v) = 0. Poiché in particolare α1 f1 (vi ) + · · · + αn fn (vi ) = αi , i = 1, 2, . . . , n otteniamo α1 = · · · = αn = 0 e quindi f1 , . . . , fn sono linearmente indipendenti. 1 SPAZI VETTORIALI DUALI 3 Poiché abbiamo trovato una base di V ∗ con n elementi (n = dim V ) abbiamo che dim V ∗ = n. Dunque V e V ∗ hanno la stessa dimensione e sono quindi isomorfi. Un isomorfismo è dato, per esempio, facendo corrispondere gli elementi di una base di V con gli elementi della base duale di V ∗ . Osserviamo che se V ha dimensione infinita, la proposizione precedente non vale. Una base di V è costituita da infiniti elementi, e si possono definire i funzionali fi come prima. Essi risultano ancora linearmente indipendenti (stessa dimostrazione) ma la dimostrazione che sono generatori non vale più perché dovremmo fare una somma infinita. Dunque otteniamo solo che dim V ≤ dim V ∗ e si può dimostrare che la diseguaglianza è sempre stretta. Si ottiene perciò che se V ha dimensione infinita, V e V ∗ non sono mai isomorfi. 1.2 Applicazione aggiunta Siano V e W due spazi vettoriali, e sia g : V → W un’applicazione lineare. g induce un’applicazione lineare da W ∗ a V ∗ , detta applicazione aggiunta (o trasposta) e indicata con g t oppure g ∗ , nel modo seguente: per f ∈ W ∗ , poniamo g t (f ) = f ◦ g : V → K. Dobbiamo verificare alcune cose: prima di tutto, g t (f ) appartiene veramente a V ∗ in quanto è composizione di applicazioni lineari e quindi è lineare. Per dimostrare che g t è lineare, dobbiamo verificare che: g t (f1 + f2 ) = g t (f1 ) + g t (f2 ), g t (α · f ) = α · g t (f ), ∀f1 , f2 ∈ W ∗ ∀f ∈ W ∗ , ∀α ∈ K Poiché per ogni v ∈ V , si ha: [g t (f1 + f2 )](v) = [(f1 + f2 ) ◦ g](v) = (f1 + f2 )(g(v)) = f1 (g(v)) + f2 (g(v)) = g t (f1 )(v) + g t (f2 )(v) = [g t (f1 ) + g t (f2 )](v) la prima proprietà è dimostrata. La seconda si prova analogamente. Poiché g t è lineare, se fissiamo delle basi in W ∗ e V ∗ sarà rappresentata da una matrice. Vale il seguente Teorema 1.2. Sia g : V → W un’applicazione lineare, B = {v1 , v2 , . . . , vn } una base di V , C = {w1 , w2 , . . . , wm } una base di W e sia A la matrice che rappresenta g rispetto a queste basi. Allora la matrice che rappresenta g t rispetto alle basi duali C ∗ e B∗ è At , la matrice trasposta di A. Dimostrazione. Denotiamo con B ∗ = {f1 , . . . , fn } e C ∗ = {h1 , . . . , hm } le basi duali di V ∗ e W ∗ rispettivamente. Indichiamo anche con aij gli elementi della matrice A. La matrice di g t si ottiene calcolando le coordinate nella base B ∗ delle immagini dei vettori della base C ∗ . Si ha: g t (hj ) = hj ◦ g = λ1j f1 + . . . λnj fn ∈ V ∗ 1 SPAZI VETTORIALI DUALI 4 dove, come prima, si ha λij = hj (g(vi )). Gli elementi λij sono gli elementi sulla j-esima colonna della matrice di g t . Per definizione della matrice A si ha: g(vi ) = a1i w1 + · · · + ami wm = m X aki wk k=1 e dunque à hj (g(vi )) = hj m X ! aki wk = k=1 m X aki hj (wk ) = aji k=1 Abbiamo quindi λij = aji e cioè la matrice di g t è la trasposta della matrice A che rappresenta g. Notiamo ancora una proprietà della trasposta. Se f : V → W e g : W → U sono due applicazioni lineari possiamo considerare le due funzioni lineari f t ◦ g t e (g ◦ f )t , entrambe da U ∗ a V ∗ . Si ha: Proposizione 1.3. (g ◦ f )t = f t ◦ g t Dimostrazione. Sia h ∈ U ∗ , cioè h è una funzione lineare h : U → K. Allora (g ◦ f )t (h) = h ◦ (g ◦ f ) = (h ◦ g) ◦ f = f t (h ◦ g) = f t (g t (h)) = (f t ◦ g t )(h) Da questa uguaglianza si ottiene la ben nota proprietà delle matrici riguardo alla trasposta di un prodotto. Se A è la matrice di g e B la matrice di f (rispetto a basi opportune. Quali?) si ha (AB)t = B t At 1.3 Isomorfismi V ∼ = V∗ Sia V uno spazio vettoriale e siano B = {e1 , . . . , en } e C = {²1 , . . . , ²n } due basi. Nello spazio V ∗ sono determinate le due basi duali che indichiamo con B∗ = {e∗1 , . . . , e∗n } e C ∗ = {²∗1 , . . . , ²∗n }, e sono definiti due isomorfismi, ϕ : V → V ∗ e ψ : V → V ∗ dati dall’identificare una base con la sua base duale, e cioè definiti dalle formule ϕ(ei ) = e∗i e ψ(²i ) = ²∗i . Ci chiediamo sotto quali condizioni si abbia ϕ = ψ, cioè che relazione deve intercorrere fra le due basi affinché gli isomorfismi indotti siano lo stesso. Sia A la matrice di passaggio fra le basi B e C, e cioè la matrice i cui elementi sono determinati dalle equazioni: ²j = n X i=1 aij ei 1 SPAZI VETTORIALI DUALI 5 e analogamente per la matrice B di passaggio fra le basi duali ²∗j = n X bij e∗i i=1 Lemma 1.4. Con le notazioni precedenti si ha B · At = I Dimostrazione. A è la matrice dell’identità idV : V → V , espressa usando la base C in partenza e B in arrivo. Indichiamo questo fatto con la notazione A idV : VC − → VB Analogamente, B idV ∗ : VC∗∗ − → VB∗∗ L’aggiunta dell’identità idV : V → V è l’identità idV ∗ : V ∗ → V ∗ , e la sua matrice è la matrice trasposta, e si ha: At id∗V = idV ∗ : VB∗∗ −−→ VC∗∗ Componendo queste due ultime applicazioni, e cioè due volte l’identità di V ∗ , At B → VB∗∗ VB∗∗ −−→ VC∗∗ − si ha ancora l’identità di V ∗ , però questa volta espressa usando la stessa base in partenza e in arrivo e quindi la matrice sarà la matrice identica. Poiché la matrice di una composizione è il prodotto delle matrici si ha: B · At = I come richiesto. Dimostriamo ora la Proposizione 1.5. Con le notazioni precedenti, ϕ = ψ se e solo se A è una matrice ortogonale, e cioè A · At = I. Dimostrazione. Per il Lemma appena dimostrato basta dimostrare che ϕ = ψ ⇐⇒ A = B Le due funzioni sono lineari e perciò sono uguali se e solo se coincidono sugli elementi di una base e cioè se e solo se ϕ(²j ) = ψ(²j ) per j = 1, . . . , n. Calcolando si ha: à n ! n n X X X ϕ(²j ) = ϕ aij ei = aij ϕ(ei ) = aij e∗i i=1 i=1 e ψ(²j ) = ²∗j = n X i=1 bij e∗i i=1 e quindi ϕ = ψ se e solo se le matrici A e B sono uguali. 1 SPAZI VETTORIALI DUALI 6 La dimostrazione può essere ricordata meglio ricorrendo al diagramma seguente: VC idV A / VB ϕ ψ ² VC∗∗ idV ∗ B ² / VB∗∗ Le matrici di ϕ e ψ nelle basi indicate sono entrambe la matrice unità. Inoltre il percorso “lato superiore – lato destro” dà la funzione ϕ con matrice A, mentre il percorso “lato sinistro - lato inferiore” dà la funzione ψ con matrice B. Dunque ϕ = ψ se e solo se A = B (d’altra parte, il calcolo esplicito nella dimostrazione precedente è esattamente il calcolo di queste funzioni composte). 1.4 Spazio biduale e isomorfismo canonico V ∼ = V ∗∗ Come abbiamo visto, non c’è un isomorfismo canonico fra V e V ∗ . Invece esiste un isomorfismo canonico fra uno spazio vettoriale V e il suo doppio duale V ∗∗ = (V ∗ )∗ . L’isomorfismo si ottiene considerando la funzione h , i: V∗×V →K (f, v) → hf, vi = f (v) Questa funzione è bilineare (verifica per esercizio) e allora si ha una funzione ϕ : V → V ∗∗ v → ϕv dove la funzione ϕv : V ∗ → K è definita dalla formula ϕv (f ) = f (v). La linearità nella prima variabile della funzione bilineare h , i implica che per ogni v ∈ V la funzione ϕv è lineare e quindi ϕv ∈ V ∗∗ , mentre la linearità nella seconda variabile implica che la funzione ϕ è lineare. La funzione ϕ è iniettiva: sia infatti v ∈ V tale che ϕ(v) = 0, cioè ϕv è la funzione nulla. Allora per ogni f ∈ V ∗ si ha f (v) = ϕv (f ) = 0 e l’unico vettore per cui sono nulle tutte le funzioni lineari è il vettore nullo. Dunque ker ϕ = {0} e cioè ϕ è iniettiva. Poiché uno spazio vettoriale e il suo duale hanno la stessa dimensione, dim V = dim V ∗ = dim V ∗∗ e quindi ϕ, essendo iniettiva fra spazi vettoriali della stessa dimensione, è anche suriettiva e dunque un isomorfismo. Tramite questo isomorfismo possiamo identificare uno spazio vettoriale con il suo doppio duale. Se consideriamo un’applicazione lineare f : V → W , abbiamo l’aggiunta f t : W ∗ → V ∗ e l’aggiunta dell’aggiunta (f t )t : V ∗∗ → W ∗∗ . Proposizione 1.6. Mediante le identificazioni precedenti, si ha f = (f t )t . Dimostrazione. Dobbiamo dimostrare che il diagramma V f /W ϕ ϕ ² V ∗∗ ² (f t )t / W ∗∗ 1 SPAZI VETTORIALI DUALI 7 è commutativo, cioè che per ogni v ∈ V si ha ϕf (v) = (f t )t (ϕv ). L’uguaglianza scritta è fra elementi di W ∗∗ , e cioè fra funzioni definite su W ∗ e a valori in K. Dunque dobbiamo verificare che, per ogni g ∈ W ∗ si ha ¡ ¢ ϕf (v) (g) = (f t )t (ϕv ) (g) Per definizione, ϕf (v) (g) = g(f (v)). Per il secondo membro ricordiamo che l’applicazione aggiunta si calcola componendo a destra e quindi ¢ ¡ t t ¢ ¡ (f ) (ϕv ) (g) = ϕv ◦ f t (g) = ϕv (f t (g)) = ϕv (g ◦ f ) = g(f (v)) 1.5 Ortogonale di un sottospazio Anche se non c’è un isomorfismo canonico fra uno spazio vettoriale V e il suo duale V ∗ c’è un modo canonico di associare ad un sottospazio W ⊆ V un sottospazio di V ∗ , chiamato l’ortogonale di W , e denotato con W ⊥ . Vedremo in seguito che nel caso degli spazi vettoriali euclidei o hermitiani c’è un modo di definire l’ortogonale di un sottospazio W ⊆ V come un sottospazio W ⊥ ⊆ V dentro V e non dentro V ∗ Definizione 1.7. Sia W ⊆ V un sottospazio. Definiamo W ⊥ = {f ∈ V ∗ | f (w) = 0, ∀w ∈ W } È facile determinare la dimensione di W ⊥ , in effetti è facile trovarne una base a partire da una base di W e di V . Proposizione 1.8. Sia {e1 , . . . , ek , ek+1 , . . . , en } una base di V tale che i primi k vettori siano una base del sottospazio W . Allora {e∗k+1 , . . . , e∗n } è una base di W ⊥ . In particolare, dim W ⊥ = dim V − dim W . Dimostrazione. Poiché per definizione di base duale e∗j (ei ) = δij , è immediato che e∗j ∈ W ⊥ per j ≥ k + 1. Inoltre questi vettori sono linearmente indipendenti in quanto parte di una base (la base duale). Dobbiamo solo più dimostrare che sono generatori di W ⊥ . Sia f ∈ W ⊥ . Possiamo scrivere f = λ1 e∗1 + · · · + λn e∗n dove λi = f (ei ). Dunque λ1 = · · · = λk = 0 e quindi f è combinazione lineare di e∗k+1 , . . . , e∗n come affermato. 1.6 Rango di un’applicazione e dell’applicazione aggiunta Per un’applicazione lineare f : V → W , poniamo rank f = dim Im f , il rango di f . C’è una semplice relazione fra il rango di f e il rango della sua aggiunta f t . Per determinarla cominciamo a provare il Teorema 1.9. Sia f : V → W un’applicazione lineare. Si ha: ⊥ ker f t = (Im f ) , ⊥ Im f t = (ker f ) 2 PRODOTTI SCALARI ED HERMITIANI 8 Dimostrazione. Dimostriamo solo la prima uguaglianza, la seconda si può provare usando il doppio duale oppure con una dimostrazione diretta, ed è lasciata per esercizio. Sia h ∈ ker f t , cioè f t (h) = 0 ∈ V ∗ . Poiché l’elemento nullo di V ∗ è la funzione nulla si ha: h ∈ ker f t ⇐⇒ ∀v ∈ V f t (h)(v) = 0 ⇐⇒ ∀v ∈ V h(f (v)) = 0 ⇐⇒ ∀w ∈ Im f h(w) = 0 ⇐⇒ h ∈ (Im f ) ⊥ Corollario 1.10. rank f = rank f t Dimostrazione. Ricordiamo che f : V → W e f t : W ∗ → V ∗ . Si ha: rank f = dim Im f = dim W − dim(Im f )⊥ = dim W ∗ − dim ker f t = dim Im f t = rank f t Se A è una matrice, possiamo pensare A come la matrice di un’applicazione lineare, e l’immagine di questa applicazione è generata dalle colonne di A. Poniamo quindi rank A = massimo numero di colonne linearmente indipendenti. Poiché la matrice trasposta di A è la matrice dell’applicazione aggiunta, si ha rank A = rank At e cioè il numero massimo di colonne linearmente indipendenti di una matrice è uguale al numero massimo di righe linearmente indipendenti. Osserviamo che questo risultato si può ottenere anche usando la caratterezzazione del rango di una matrice mediante i determinanti dei minori e il fatto che il determinante di una matrice è uguale al determinante della sua trasposta. La dimostrazione data qui evita ogni riferimento ai determinanti. 2 Prodotti scalari ed Hermitiani 2.1 Prodotti scalari In questo paragrafo V è uno spazio vettoriale reale. Rivediamo solo la definizione di prodotto scalare. Per maggiori dettagli sulle proprietà dei prodotti scalari e per la dimostrazione della diseguaglianza di Cauchy-Schwarz si può vedere il libro Abbena-Fino-Gianella (o un qualunque libro di Algebra Lineare). Definizione 2.1. Un prodotto scalare su uno spazio vettoriale reale V è un’applicazione · : V × V → R tale che 1. è lineare nella prima variabile, cioè (αv + βw) · u = α(v · u) + β(w · u), 2. è simmetrica, cioè v · w = w · v, ∀ α, β ∈ R, ∀ u, v, w ∈ V ∀ v, w ∈ V 3. è definita positiva, cioè v · v ≥ 0 ∀ v ∈ V e v · v = 0 se e solo se v è il vettore nullo. 2 PRODOTTI SCALARI ED HERMITIANI 9 Osserviamo subito che dalle 1. e 2. della definizione si ha che un prodotto scalare è bilineare, cioè è lineare anche nella seconda variabile. Una funzione (bilineare) che soddisfa la condizione v · v ≥ 0, ∀v ∈ V viene detta semidefinita positiva. La condizione ulteriore v·v =0 se e solo se v è il vettore nullo dice che la funzione è definita. Esempi di prodotto scalare sono: 1. il prodotto scalare standard su Rn , dato da: x · y = x1 y1 + . . . xn yn dove x = (x1 , . . . , xn ) e y = (y1 , . . . , yn ). Osserviamo che se scriviamo i vettori di Rn come vettori colonna, si può scrivere x · y = t XY dove il prodotto è l’ordinario prodotto righe per colonne di matrici. 2. il prodotto scalare standard su Rm,n , dato da: A · B = tr(t AB) Sviluppando i calcoli, si vede che il prodotto scalare di due matrici è la somma dei prodotti degli elementi corrispondenti, e quindi è l’analogo di quello definito su Rn . 3. il prodotto scalare L2 sullo spazio dei polinomi: sia V = R[x] lo spazio vettoriale dei polinomi a coefficienti reali in una variabile. Definiamo Z 1 f ·g = f (x)g(x) dx 0 È immediato verificare che è bilineare, simmetrico e semidefinito positivo. Se inoltre Z 1 f ·f = f 2 (x) dx = 0 0 allora, poiché f (x) è una funzione continua, si ha che f (x) è identicamente nulla sull’intervallo [0, 1] e poiché è un polinomio, deve essere il polinomio nullo. Notiamo che V non ha dimensione finita. 4. il prodotto scalare L2 su uno spazio di funzioni continue: sia C([a, b]) = {f : [a, b] → R | f è continua} lo spazio vettoriale delle funzioni continue definite su un intervallo chiuso e limitato [a, b]. Definiamo, come prima, Z b f ·g = f (x)g(x) dx a 2 PRODOTTI SCALARI ED HERMITIANI 10 La stessa dimostrazione di prima dice che questo è un prodotto scalare. Viene quindi indotto un prodotto scalare anche sui sottospazi di C([a, b]). Sottospazi importanti sono gli spazi C k ([a, b]) = {f ∈ C([a, b]) | f è derivabile con continuità k volte su (a, b)} Con questa notazione, C 0 ([a, b]) = C([a, b]) e ha senso anche C ∞ ([a, b]): sono le funzioni con derivate continue di tutti gli ordini (per esempio polinomi, sin x, . . . ). Anche in questo caso gli spazi vettoriali considerati no nhanno dimensione finita. Mediante il prodotto scalare si può definire la norma di un vettore ponendo √ kvk = v · v La ben nota diseguaglianza di Cauchy-Schwartz dà |v · w| ≤ kvk kwk e quindi si può definire l’angolo fra due vettori mediante la condizione cos vw c = v·w kvk kwk Si ha quindi la nozione di perpendicolarità: v ⊥ w se e solo se hv, wi = 0 e ha quindi senso parlare di base ortonormale: è una base B = {e1 , . . . , en } tale che i vettori siano ortogonali a due a due e abbiano tutti norma 1. In altre parole, B è una base ortonormale se e solo se ei · ej = δij , ∀ i, j = 1, 2, . . . , n dove δij è il delta di Kroocker che vale 1 per i = j e 0 per i 6= j. 2.2 Isomorfismo canonico V ∼ = V∗ Definizione 2.2. Uno spazio vettoriale reale V su cui è stato definito un prodotto scalare si dice spazio vettoriale euclideo. Spesso uno spazio vettoriale euclideo viene indicato con la notazione (V, ·) per mettere in evidenza il prodotto scalare. Per uno spazio vettoriale euclideo (V, ·) di dimensione finita, c’è un isomorfismo canonico fra V e V ∗ , usando una costruzione simile all’isomorfismo canonico fra uno spazio e il suo doppio duale (vedi § 1.4). Il prodotto scalare ·: V ×V →R (v, w) → v · w è bilineare e allora si ha una funzione ϕ: V →V∗ v → ϕv dove la funzione ϕv : V → R è definita dalla formula ϕv (x) = x · v. 2 PRODOTTI SCALARI ED HERMITIANI 11 Infatti la linearità del prodotto scalare rispetto alla prima variabile implica che ϕv è lineare (e quindi appartiene a V ∗ ): ϕv (αx1 + βx2 ) = (αx1 + βx2 ) · v = α(x1 · v) + β(x2 · v) = αϕv (x1 ) + βϕv (x2 ) e la linearità del prodotto scalare rispetto alla seconda variabile implica che la funzione ϕ è lineare: ϕαv1 +βv2 (x) = x · (αv1 + βv2 ) = α(x · v1 ) + β(x · v2 ) = αϕv1 (x) + βϕv2 (x) Dimostriamo che ϕ è iniettiva: se v ∈ ker ϕ allora ϕv è la funzione nulla. Ma allora ϕv (v) = v·v = 0 e poiché il prodotto scalare è non degenere, questo implica v = 0. Dunque ϕ è iniettiva e poiché dim V = dim V ∗ , ϕ è un isomorfismo. Con questa identificazione delle funzioni lineari con il prodotto scalare per un vettore fissato, anche la definizione di ortogonale di un sottospazio identifica un sottospazio di V ∗ con un sottospazio di V . Definizione 2.3. Sia W ⊆ V un sottospazio. Definiamo W ⊥ = {v ∈ V | v · w = 0, ∀ w ∈ W } Questa definizione sembra più geometrica: il sottospazio ortogonale a W è formato dai vettori ortogonali a tutti i vettori di W . Ma è in effetti identica alla precedente (Definizione 1.7), in quanto v · w = ϕv (w) e quindi stiamo prendendo le funzioni lineari che si annulla su W . 2.3 L’aggiunta (euclidea) di un endomorfismo Sia V uno spazio vettoriale euclideo fissato e sia f : V → V un endomorfismo. Nel paragrafo 1.2 abbiamo definito l’applicazione aggiunta f t : V ∗ → V ∗ . Nel caso euclideo, l’isomorfismo canonico V ∗ ∼ = V permette di definire l’aggiunta come applicazione da V in V . Usiamo una notazione diversa per mettere in evidenza la situazione particolare. Definizione 2.4. Sia f : V → V un’applicazione lineare. L’aggiunta euclidea (o semplicemente aggiunta se è chiaro dal contesto) è l’applicazione lineare f ∗ : V → V definita dalla condizione f (x) · y = x · f ∗ (y) ∀x, y ∈ V Proposizione 2.5. f ∗ è ben definita ed è lineare. Dimostrazione. Se y ∈ V è fissato, allora Fy (x) = f (x) · y è un’applicazione lineare e quindi Fy ∈ V ∗ . Usando l’isomorfismo canonico, esiste un unico elemento y 0 ∈ V tale che Fy (x) = x · y 0 per ogni x ∈ V . Poniamo f ∗ (y) = y 0 2 PRODOTTI SCALARI ED HERMITIANI 12 e questo dimostra che l’aggiunta f ∗ è ben definita e per costruzione soddisfa la condizione f (x) · y = x · f ∗ (y) ∀x, y ∈ V Dimostriamo che f ∗ è lineare. Per determinare f ∗ (y1 + y2 ) bisogna considerare la funzione F (x) = f (x) · (y1 + y2 ) = f (x) · y1 + f (x) · y2 = x · f ∗ (y1 ) + x · f ∗ (y2 ) = x · (f ∗ (y1 ) + f ∗ (y2 )) Dunque f ∗ (y1 + y2 ) = f ∗ (y1 ) + f ∗ (y2 ). Sia ora c ∈ R uno scalare. determinare f ∗ (cy) bisogna considerare la funzione Per F (x) = f (x) · cy = c(f (x) · y) = c(x · f ∗ (y)) = x · cf ∗ (y) Dunque f ∗ (cy) = cf ∗ (y). Sia f : V → V un endomorfismo e B una base di V . Poiché f ∗ è determinata da f , fra le matrici che rappresentano f e f ∗ ci deve essere una relazione. Se B è una base qualunque questa relazione è piuttosto complicata, ma se B è una base ortonormale allora la relazione è molto semplice. Vedremo questa relazione in seguito, quando consideremo il caso dell’aggiunta Hermitiana. 2.4 Prodotti Hermitiani D’ora in poi, V è uno spazio vettoriale complesso. Un prodotto Hermitiano è l’analogo per gli spazi vettoriali complessi del concetto di prodotto scalare per gli spazi vettoriali reali (vedi il paragrafo 2.1) e permette di definire i concetti geometrici di lunghezza e perpendicolarità in uno spazio vettoriale complesso. Definizione 2.6. Un prodotto Hermitiano su uno spazio vettoriale complesso V è un’applicazione · : V × V → C tale che 1. è lineare nella prima variabile, cioè (αv + βw) · u = α(v · u) + β(w · u), ∀ α, β ∈ C, ∀v, u, w ∈ V 2. è coniugato-simmetrica, cioè v · w = w · v, per ogni v, w, ∈ V 3. è definita positiva, cioè v · v ≥ 0 per ogni v ∈ V e v · v = 0 se e solo se v è il vettore nullo. Per esempio, il prodotto Hermitiano standard su Cn è dato da x · y = x1 y 1 + . . . xn y n dove x = (x1 , . . . , xn ) e y = (y1 , . . . , yn ). Osserviamo che dalle 1. e 2. della definizione si ha che un prodotto Hermitiano non è bilineare. Piuttosto è lineare nella prima variabile e antilineare nella seconda, e cioè v · (αw + βu) = α(v · w) + β(v · u) 2 PRODOTTI SCALARI ED HERMITIANI 13 Questa caratteristica si esprime a volte dicendo che un prodotto Hermitiano è sesquilineare, cioè lineare “una volta e mezzo” (dal latino sesquı̆ = mezza volta in più). Osserviamo anche che dalla 2. si ha v · v = v · v e cioè v · v ∈ R per ogni vettore v. La condizione 3. è quindi che questo numero reale sia sempre non negativo. Possiamo definire la lunghezza (o norma) di un vettore ponendo √ kvk = v · v La diseguaglianza di Schwartz vale ancora e dà |v · w| ≤ kvk · kwk e si può definire la nozione di perpendicolarità: v ⊥ w se e solo se v · w = 0. Osserviamo però che in generale non ha senso parlare di angolo fra i vettori v e w in quanto v · w è un numero complesso e non possiamo usarlo per definire il coseno di un angolo. Come nel caso reale, anche nel caso complesso si ha la nozione di base ortonormale e cioè di base in cui i vettori sono ortogonali a due a due e tutti di norma 1. 2.5 Ortogonalizzazione di Gram-Schmidt. Sia V uno spazio vettoriale reale munito di un prodotto scalare e sia {v1 , . . . , vn } una base di V . Il metodo di ortogonalizzazione di Gram-Schmidt produce una base ortonormale {e1 , . . . , en } tale che, per ogni k compreso fra 1 e n, si ha che {e1 , . . . , ek } e {v1 , . . . , vk } generano lo stesso sottospazio. Il metodo di GramSchmidt funziona anche per spazi vettoriali complessi muniti di un prodotto Hermitiano. Vediamo la dimostrazione in questo caso, copiando quella che vale nel caso reale. Teorema 2.7. Sia V uno spazio vettoriale complesso munito di un prodotto Hermitiano e sia {v1 , . . . , vn } una base di V . Allora esiste una base ortonormale {e1 , . . . , en } tale che, per ogni k compreso fra 1 e n, si ha che {e1 , . . . , ek } e {v1 , . . . , vk } generano lo stesso sottospazio. Dimostrazione. La dimostrazione è per induzione su k, e consiste nel metodo di “proiezione ortogonale”. Per k = 1, basta porre v1 e1 = kv1 k Supponiamo ora di avere {e1 , . . . , ek−1 } vettori ortonormali che generano lo stesso sottospazio di v1 , . . . , vk−1 . Scriviamo e0k = α1 e1 + α2 e2 + · · · + αk−1 ek−1 + vk Imponendo le condizioni e0k · e1 = · · · = e0k · ek−1 = 0 si trova la soluzione α1 = −vk · e1 , ... αk−1 = −vk · ek−1 2 PRODOTTI SCALARI ED HERMITIANI 14 Il vettore risultante e0k è ortogonale a tutti i precedenti, ed è linearmente indipendente da questi perché ha una componente vk non nulla. È chiaro che he1 , . . . , ek−1 , e0k i = he1 , . . . , ek−1 , vk i = hv1 , . . . , vk−1 , vk i Per concludere la dimostrazione basta porre ek = 2.6 e0k ke0k k Matrici Hermitiane, unitarie, normali. Nel caso reale, matrici simmetriche e ortogonali sono spesso importanti. I concetti analoghi nel caso complesso sono, rispettivamente, quello di matrice Hermitiana e unitaria. È nuovo invece il concetto di matrice (o operatore) normale, che non ha analogo nel caso reale. Le definizioni si possono dare per matrici oppure per applicazioni lineari. Fissiamo uno spazio vettoriale complesso V munito di prodotto Hermitiano. Definizione 2.8. Sia f : V → V un’applicazione lineare. L’aggiunta Hermitiana (o semplicemente aggiunta se è chiaro dal contesto) è l’applicazione lineare f ∗ : V → V definita dalla condizione f (x) · y = x · f ∗ (y) ∀x, y ∈ V Come nel caso reale, dobbiamo dimostrare che f ∗ è ben definita e lineare. La dimostrazione è complicata dal fatto che un prodotto Hermitiano non dà un isomorfismo fra V e V ∗ . Dobbiamo allora procedere in modo leggermente diverso. Teorema 2.9. Per ogni funzionale lineare g : V → C esiste un unico elemento y ∈ V tale che g(x) = x · y ∀x ∈ V Dimostrazione. Ad ogni elemento v ∈ V associamo la funzione Fv : V → C data da Fv (x) = x · v Per la linearità del prodotto Hermitiano nella prima variabile Fv è lineare, cioè un elemento di V ∗ . Valgono le uguaglianze: Fv1 + Fv2 = Fv1 +v2 , Fcv = c̄Fv e inoltre F0 è il funzionale nullo. Osserviamo che vale anche il viceversa: se Fv è il funzionale nullo, allora v = 0. Infatti, se Fv (x) = 0 per ogni x ∈ V allora v · v = Fv (v) = 0 e poiché il prodotto Hermitiano è definito positivo, questo implica che v = 0. L’insieme W di tutti i funzionali del tipo Fv è quindi un sottospazio di V ∗ . (Attenzione: la funzione F : V → V ∗ definita da F (v) = Fv è lineare? vedi 2 PRODOTTI SCALARI ED HERMITIANI 15 Esercizio 1) Sia ora {v1 , . . . , vn } una base di V . Allora i funzionali Fv1 , . . . , Fvn sono linearmente indipendenti. Infatti, se α1 Fv1 + · · · + αn Fvn = 0 poiché α1 Fv1 + · · · + αn Fvn = Fᾱ1 v1 +···+ᾱn vn allora Fᾱ1 v1 +···+ᾱn vn = 0 e quindi ᾱ1 v1 + · · · + ᾱn vn = 0 e poiché i vettori vi formano una base, deve essere α1 = · · · = αn = 0. Dunque la dimensione di W è almeno n ma poiché dim V ∗ = n deve essere dim W = dim V ∗ = n. Allora W = V ∗ , cioè tutti i funzionali in V ∗ sono del tipo Fv , che è la tesi. Possiamo adesso procedere come nel caso reale: se f : V → V è un’applicazione lineare e y ∈ V è fissato, allora Fy (x) = f (x) · y è un’applicazione lineare e per il teorema precedente esiste un unico elemento y 0 ∈ V tale che Fy (x) = x · y 0 per ogni x ∈ V . Poniamo f ∗ (y) = y 0 e questo dimostra che l’aggiunta f ∗ è ben definita e per costruzione soddisfa la condizione f (x) · y = x · f ∗ (y) ∀x, y ∈ V Dimostriamo che f ∗ è lineare. Per determinare f ∗ (y1 + y2 ) bisogna considerare la funzione F (x) = f (x) · (y1 + y2 ) = f (x) · y1 + f (x) · y2 = x · f ∗ (y1 ) + x · f ∗ (y2 ) = x · (f ∗ (y1 ) + f ∗ (y2 )) Dunque f ∗ (y1 + y2 ) = f ∗ (y1 ) + f ∗ (y2 ). Sia ora c ∈ C uno scalare. determinare f ∗ (cy) bisogna considerare la funzione Per F (x) = f (x) · cy = c̄(f (x) · y) = c̄(x · f ∗ (y)) = x · cf ∗ (y) Dunque f ∗ (cy) = cf ∗ (y). Lemma 2.10. Siano f , g due applicazioni lineari. Allora (f g)∗ = g ∗ f ∗ . Dimostrazione. Per ogni x, y ∈ V vale (f g)(x) · y = x · (f g)∗ (y) per definizione di aggiunta, ma anche (f g)(x) · y = f (g(x)) · y = g(x) · f ∗ (y) = x · g ∗ (f ∗ (y)) e per l’unicità dell’aggiunta si ha la tesi. Sia f : V → V un endomorfismo e B una base di V . Spieghiamo ora la relazione che cè fra le matrici che rappresentano f e f ∗ . nel caso in cui B è una base ortonormale. 2 PRODOTTI SCALARI ED HERMITIANI 16 Proposizione 2.11. Sia B = {e1 , . . . , en } una base ortonormale di V e sia f : V → V un endomorfismo. Siano A la matrice di f e A∗ la matrice di f ∗ nella base B. Allora A∗ = Āt cioè la matrice di f ∗ è la trasposta coniugata della matrice di f . Dimostrazione. Scriviamo A = (aij ) e A∗ = (bij ) nella base ortonormale fissata. Per definizione di aggiunta si ha: f (ej ) · ei = ej · f ∗ (ei ) = f ∗ (ei ) · ej Poiché f ∗ (ei ) = b1i e1 + · · · + bni en f (ej ) = a1j e1 + · · · + anj en , calcolando si ha f (ej ) · ei = n X akj (ek · ei ) = aij k=1 e analogamente f ∗ (ei ) · ej = n X bki (ek · ej ) = bji k=1 e quindi aij = b̄ji Dunque in una base ortonormale si ha A∗ = Āt . Osservazione. La dimostrazione della proposizione precedente mostra allora che, nel caso reale, se A è la matrice di f e A∗ la matrice dell’aggiunta euclidea f ∗ rispetto ad una base ortonormale si ha A∗ = At Questa proposizione giustifica la seguente definizione: Definizione 2.12. Sia A una matrice complessa. La matrice aggiunta di A è A∗ = Āt Osserviamo che questa definizione va bene anche per una matrice reale, cioè per una matrice A reale, l’aggiunta euclidea e l’aggiunta Hermitiana sono la stessa matrice. Possiamo ora definire gli operatori Hermitiani, unitari e normali. Definizione 2.13. Un’applicazione lineare f : V → V si dice Hermitiana se coincide con la sua aggiunta, cioè se f = f ∗ . Definizione 2.14. Una matrice A si dice Hermitiana se A = Āt . Osserviamo che per quello detto in precedenza un’applicazione Hermitiana ha una matrice Hermitiana rispetto a ogni base ortonormale. Il corrispondente concetto reale è quello di endomorfismo autoaggiunto (o simmetrico). La matrice di un endomorfismo autoaggiunto in una base ortonormale è una matrice simmetrica reale. 3 IL TEOREMA SPETTRALE 17 Definizione 2.15. Un’applicazione lineare f : V → V si dice unitaria se conserva il prodotto Hermitiano, cioè se f (x) · f (y) = x · y per ogni x, y ∈ V . Definizione 2.16. Una matrice A si dice unitaria se n X aki ākj = δij k=1 cioè se le colonne di A sono una base ortonormale per Cn rispetto al prodotto Hermitiano standard. Sia {e1 , . . . , en } una base ortonormale di V e sia f : V → V unitaria. Allora {f (e1 ), . . . , f (en )} formano ancora una base ortonormale, perché f conserva il prodotto Hermitiano. Calcolando i prodotti f (ei ) · f (ej ) = δij si ha che un’applicazione unitaria ha matrice unitaria rispetto ad ogni base ortonormale. Osserviamo anche che un’applicazione unitaria è tale che x · y = f (x) · f (y) = f ∗ f (x) · y e quindi f ∗ f = I, e cioè f è unitaria se e solo se f ∗ = f −1 . In termini di matrici si ha che A è unitaria se e solo se A−1 = Āt . Anche in questo caso un’applicazione unitaria ha una matrice unitaria rispetto a ogni base ortonormale. Il corrispondente concetto reale è quello di endomorfismo ortogonale. La matrice di un endomorfismo ortogonale in una base ortonormale è una matrice ortogonale. Definizione 2.17. Un’applicazione lineare f : V → V si dice normale se commuta con la sua aggiunta, cioè se f ∗ ◦ f = f ◦ f ∗ . Definizione 2.18. Una matrice A si dice normale se commuta con la sua traasposta coniugata, cioè se AĀt = Āt A. Quindi un’applicazione normale ha matrice normale rispetto ad ogni base ortonormale. Le applicazioni Hermitiane e unitarie sono normali, e in particolare le matrici reali simmetriche e le matrici ortogonali reali sono normali (se pensate come matrici complesse). 2.7 Esercizi 1. Nel paragrafo 2.1 abbiamo visto che un prodotto scalare su uno spazio vettoriale reale V induce un isomorfismo fra V e il suo duale V ∗ . Se ora W è uno spazio vettoriale complesso, è vero che un prodotto Hermitiano su W induce un isomorfismo fra W e il suo duale W ∗ ? 3 3.1 Il teorema spettrale Decomposizione di Schur L’importanza delle matrici normali è sottolineata dal seguente teorema, noto come decomposizione di Schur. 3 IL TEOREMA SPETTRALE 18 Teorema 3.1. Sia A una matrice quadrata complessa. Allora si può scrivere A = UTU∗ dove U è una matrice unitaria e T una matrice triangolare (superiore). Inoltre A è normale se e solo se T è diagonale. Dimostrazione. La dimostrazione è per induzione sull’ordine n di A. Se n = 1 non c’è niente da dimostrare (se A = (a), basta prendere U = (1) e T = (a)). Sia ora A una matrice n × n. Possiamo pensare A come la matrice di un’applicazione lineare f : Cn → Cn , scritta rispetto alla base standard. Sia v un autovettore di A, di autovalore λ (qui usiamo in modo essenziale il fatto che A sia una matrice complessa). Possiamo supporre che kvk = 1. Completiamo allora {v} ad una base ortonormale di Cn : basta prima completare ad una base, e poi usare Gram-Schmidt per avere una base ortonormale il cui primo vettore sia v e sia W la matrice unitaria che ha per colonne le coordinate dei vettori della base ortonormale appena costruita. Allora, poiché W −1 = W ∗ , si ha λ ∗ ∗ ∗ 0 W ∗ AW = . .. A 1 0 dove A1 è una matrice (n − 1) × (n − 1). Per ipotesi induttiva, esiste una matrice unitaria V tale che V ∗ A1 V sia triangolare. Poniamo allora ¶ µ 1 0 U1 = 0 V e sia U = W U1 . U1 è unitaria, e quindi anche U è unitaria. U è la matrice cercata, infatti U ∗ AU = U1∗ (W ∗ AW )U1 λ ∗ ∗ ∗ µ ¶ 0 µ 1 0 1 = 0 V ∗ ... 0 A1 0 λ ∗ ∗ ∗ 0 = . ∗ .. V A1 V 0 0 V ¶ =T è triangolare superiore e quindi T = U AU ∗ come richiesto. Dimostriamo ora che A è normale se e solo se T è normale. Infatti A = U T U ∗ e A∗ = U T ∗ U ∗ e poiché A∗ A = U T ∗ T U ∗ , AA∗ = U T T ∗ U ∗ è chiaro che T normale implica A normale. Viceversa, poiché U è unitaria, si ha U ∗ = U −1 e quindi possiamo scrivere T = U ∗ AU , T ∗ = U ∗ A∗ U , e come prima abbiamo che A normale implica T normale. 3 IL TEOREMA SPETTRALE Per concludere la dimostrazione dobbiamo provare lare normale è diagonale. Abbiamo t̄11 t11 t12 . . . t1n t̄12 0 t22 . . . t2n , T = T∗ = . 0 ... .. 0 0 . . . tnn t̄1n 19 che una matrice triango0 t̄22 ... ... t̄2n ... 0 0 t̄nn Calcolando l’elemento di posizione (1, 1) nel prodotto si ha (T T ∗ )11 = |t11 |2 + |t12 |2 + · · · + |t1n |2 (T ∗ T )11 = |t11 |2 e quindi uguagliando si ha |t12 |2 + · · · + |t1n |2 = 0 e poiché gli addendi sono tutti reali non negativi, si deve avere t12 = t13 = · · · = t1n = 0 Calcolando successivamente gli elementi di posizione (2, 2), . . . (n − 1, n − 1) si ottiene alla fine che T è diagonale. Otteniamo perciò l’importante conclusione nota solitamente come Teorema spettrale: Teorema 3.2 (Teorema spettrale). Tutte le matrici normali, e quindi in particolare le matrici Hermitiane e le matrici unitarie, sono diagonalizzabili tramite una matrice unitaria, e cioè hanno basi di autovettori ortonormali. 3.2 Autovalori di una matrice Hermitiana. Discutiamo adesso le conseguenze sulle matrici reali della decomposizione di Schur. Per prima cosa dimostriamo che: Teorema 3.3. Gli autovalori di una matrice Hermitiana sono tutti reali. Dimostrazione. Sia A una matrice Hermitiana, cioè A = A∗ , e sia v un autovettore di autovalore λ, cioè Av = λv. Allora Av · v = v · A∗ v = v · Av. Si ha Av · v = (λv) · v) = λ(v · v) e v · Av = v · (λv) = λ̄(v · v) e poiché v 6= 0 anche v · v 6= 0 e quindi λ = λ̄, cioè λ ∈ R, Sia A una matrice simmetrica reale. Abbiamo già osservato che A, pensata come matrice complessa, è Hermitiana. Otteniamo perciò Teorema 3.4. Una matrice simmetrica reale ha tutti gli autovalori reali. 3 IL TEOREMA SPETTRALE 3.3 20 Il teorema spettrale reale. La dimostrazione del teorema di decomposizione di Schur può essere applicata al caso delle matrici simmetriche reali: l’unico punto in cui abbiamo avuto bisogno dei numeri complessi è per garantire l’esistenza di un autovalore. Inoltre, anche la base di autovettori sarà data da autovettori reali: infatti, gli autovettori si ottengono risolvendo sistemi omogenei di equazioni lineari, i cui coefficienti sono dati dagli elementi della matrice e dagli autovalori, e quindi se gli autovalori sono reali anche gli autovettori sono reali. Concludiamo perciò: Teorema 3.5 (Teorema spettrale). Una matrice simmetrica reale è diagonalizzabile mediante matrici ortogonali, e cioè esiste una base ortonormale di autovettori. Osserviamo che il teorema spettrale non vale per le matrici ortogonali reali, in quanto non hanno sempre gli autovalori reali. Un semplice esempio è la rotazione di 90◦ nel piano euclideo. La matrice è µ ¶ 0 −1 A= 1 0 che ha autovalori i e −i. Essendo unitaria è diagonalizzabile sui complessi ma poiché gli autovalori non sono reali non c’è una base di autovettori reali.