Complementi di Algebra Lineare Paolo Zappa appunti a uso degli studenti 1 1.1 Numeri e spazi vettoriali complessi Breve introduzione storica Si è soliti introdurre i numeri complessi, partendo dal problema della risoluzione dell’equazione x2 = −1; (1) questo non è il motivo storico della nascita dei numeri complessi, e, a ben pensare, la risoluzione dell’equazione (1) non è mai stato un problema aperto, nel senso che, fin dalla nascita dei numeri negativi, era noto che l’equazione (1) non aveva soluzioni. Il vero problema che ha dato l’avvio allo studio dei numeri comlessi è invece collegato al problema della risoluzione dell’equazione di terzo grado. Cardano e Tartaglia avevano scoperto una formula per determinare una soluzione dell’equazione x3 + px + q = 0, alla quale si può ricondurre ogni equazione di terzo grado mediante un cambiamento lineare di variabile. La formula è la seguente s s r r 3 2 3 −q 3 −q q q2 p p3 x= + + + − + . 2 4 27 2 4 27 Era noto che un polinomio di terzo grado dovesse avere almeno una radice, 2 3 ma la formula data non funzionava se il discriminante, q4 + p27 , era minore di √ 0. Bombelli mise in luce, che, introducendo un simbolo formale per la −1, la radice di un particolare polinomio con discriminante negativo, determinata con verifica diretta, era compatibile con la formula di Cardano. Peraltro Bombelli non conosceva un algoritmo per l’estrazione della radice cubica di un numero complesso, quindi allo stato dell’arte, l’osservazione di Bombelli non rappresentò un effettivo miglioramento nella risoluzione delle equazioni di terzo grado, ma mise in luce che l’introduzione della unità immaginaria forniva nuovi strumenti per la ricerca di soluzioni a problemi algebrici. 1 1.2 Le coordinate polari Nel piano fissiamo un punto O una semiretta r uscente da O, e un verso per la misura degli angoli orientati che hanno r come primo lato. A ogni punto P del piano diverso da O possiamo associare due numeri: il primo ρ rappresenta la distanza di P da O, il secondo θ la misura in radianti dell’angolo orientato che la semiretta uscente da O e passante per P forma con r. La coppia (ρ, θ) dà una rappresentazione del punto P in coordinate polari. Una precisazione è necessaria sulla misura dell’angolo orientato. Senza entrare in sottili disquisizioni su cosa sia la misura di un angolo; segnaliamo che le coppie (ρ, θ) e (ρ, θ1 ) corrispondono allo stesso punto se θ − θ1 = 2kπ, con k ∈ Z. Diversi approcci si trovano in letteratura, per trattare le difficoltà provenienti dalla mancanza di corrispondenza biunivoca fra i punti del piano e l’insieme delle coppie di numeri reali (ρ, θ). Segnalo i due principali. Il primo, quello della geometria differenziale, prevede che vi siano infiniti sistemi di coordinate locali di tipo polare e quindi che un punto possa essere rappresentato da infinite coppie di numeri. Il secondo di tipo più algebrico, prevede che la misura dell’angolo orientato sia un insieme infinito di valori, per cui le coordinate polari di un punto sono una coppia di cui il primo elemento è un numero reale positivo e il secondo un insieme di numeri reali che differiscono fra loro per multipli interi di 2π. Seguendo questo secondo approccio scriveremo p P ≡ (ρ, Θ). dove Θ = {θ + 2kπ}k∈Z . 1 ρ si chiama il modulo di P ; Θ si chiama l’argomento2 di P . Quando scriviamo Θ1 + Θ2 intendiamo l’insieme ottenuto sommando ogni numero del primo insieme con ogni numero del secondo e cioè l’insieme Θ1 + Θ2 := {θ1 + θ2 + 2kπ}k∈Z , in questo modo otteniamo che la misura dell’angolo somma algebrica di due angoli orientati è la somma delle misure. Inoltre quando applichiamo a Θ una funzione trigronometrica intendiamo che la applichiamo a uno qualunque dei suoi valori, senza pericolo di confusione perché ogni funzione trigonometrica ha 2π come periodo. Osserviamo infine che non vengono assegnate le coordinate polari del punto O. Per determinare le relazioni che esistono fra coordinate polari e coordinate cartesiane, sul piano mettiamo un sistema di riferimento cartesiano ortogonale dove l’asse positivo delle ascisse x coincide con r e l’asse positivo delle ordinate y, ortogonale all’asse delle ascisse in O, sia scelto, fra i due possibili, in modo tale che l’angolo orientato xy ˆ misuri {+ π2 + 2kπ}k∈Z . Se P ha coordinate cartesiane P ≡ (x, y) 1 nella 2 nella terminologia antica raggio vettore. terminologia antica anomalia 2 e coordinate polari p P ≡ (ρ, Θ). allora, da un verso e dall’altro3 x = ρ cos(Θ) y = ρ sin(Θ) p 2 2 ρ = x + yx cos(Θ) = √ 2 2 x +y sin(Θ) = √ y . x2 +y 2 1.3 Definizione dei numeri complessi L’introduzione delle coordinate cartesiane nel piano permette di definire una corrispondenza biunivoca fra i punti del piano e R2 e questa corrispondenza permette di trasportare sul piano l’operazione di somma propria dello spazio vettoriale R2 . Per cui, se P1 ≡ (x1 , y1 ) e P2 ≡ (x2 , y2 ), poniamo4 P1 + P2 :≡ (x1 + x2 , y1 + y2 ) Quali operazioni suggeriscono le coordinate polari? Per quanto riguarda i moduli possiamo osservare che, essendo numeri reali positivi, ho una struttura di gruppo se considero la moltiplicazione; mentre, per quanto riguarda gli argomenti, ho una struttura di gruppo se considero la somma. Combiniamo le due operazioni precedenti, il prodotto dei moduli e la somma degli argomenti, in una nuova operazione per i punti del piano bucato, che p p denotiamo provvisoriamente con ∗: posto che sia P1 ≡ (ρ1 , Θ1 ) e P2 ≡ (ρ2 , Θ2 ), definiamo p P1 ∗ P2 :≡ (ρ1 ρ2 , Θ1 + Θ2 ). Questa stessa operazione, in coordinate cartesiane assume l’espressione q q P1 ∗ P2 ≡( x21 + y12 x22 + y22 (cos Θ1 cos Θ2 − sin Θ1 sin Θ2 ), q q x21 + y12 x22 + y22 (cos Θ1 sin Θ2 + cos Θ2 sin Θ1 ) = (x1 x2 − y1 y2 , x1 y2 + x2 y1 ) Trasferiamo le operazioni cosı̀ introdotte in R2 , (x1 , y1 ) + (x2 , y2 ) := (x1 + x2 , y1 + y2 ) (x1 , y1 ) ∗ (x2 , y2 ) := (x1 x2 − y1 y2 , x1 y2 + x2 y1 ). 2 (R , +, ∗) è campo, cioè 3 evitiamo di dare un’espressione espilicita di Θ, perché bisognerebbe prima convenire sulle definizioni delle funzioni arcoseno e arcocoseno. 4 la somma dei punti nel piano on origine fissata (cioè i vettori), può essere introdotta in modo puramente geometrico con la regola del parallelogramma. 3 • è un gruppo commutativo rispetto la somma (+) con elemento neutro (0, 0) • gli elementi diversi da (0, 0) formano un gruppo rispetto al prodotto (∗), con elemento neutro (1, 0) • vale la proprietà distributiva ((x1 , y1 ) + (x2 , y2 )) ∗ (x3 , y3 ) = (x1 , y1 ) ∗ (x3 , y3 ) + (x2 , y2 ) ∗ (x3 , y3 ) Le verifiche delle proprietà sono tutte elementari; segnaliamo solo la prova dell’esistenza dell’inversa rispetto al prodotto5 : sia (a, b) 6= (0, 0), dobbiamo cercare (x, y) tale che (a, b) ∗ (x, y) = (1, 0) cioè ax − by bx + ay = = 1 0 poichè il sistema ha una e una sola soluzione, essendo a2 + b2 6= 0, l’inverso di (a, b) esiste. Chiameremo (R2 , +, ∗) il campo dei numeri complessi e verrà semplicemente indicato con C; come d’uso, eviteremo di scrivere il simbolo dell’operazione prodotto, e converremo anche che in un’espressione algebrica, in mancanza di parentesi, l’operazione prodotto abbia priorità sull’operazione di somma. La funzione f: R → C x 7→ (x, 0) è iniettiva e tale che f (x + y) = f (x) + f (y) f (xy) = f (x)f (y) pertanto, se identifichiamo x ∈ R con (x, 0) ∈ C, possiamo considerare il campo C come un’estensione del campo R. C eredita da R2 anche la struttura di spazio vettoriale su R , quindi ho due operazioni di prodotto di un numero complesso per un numero reale, quella che c’è in ogni spazio vettoriale di moltiplicazione di un vettore per uno scalare, e quella che deriva dal considerare ogni numero reale un particolare numero complesso. Per fortuna le due operazioni coincidono, per cui non vi è ambiguità nel prodotto di un numero reale per un numero complesso. La base standard di C come spazio vettoriale su R è formata dai numeri6 (1, 0) e (0, 1), il numero (1,0) possiamo chiamarlo 1, corrispondendo al numero reale 1 e all’unità del prodotto; chiamiamo unità immaginaria il numero (0, 1) e indichiamola sinteticamente con ”i”. 5 che 6 gli peraltro è ovvia se si pensa al prodotto in termini di coordinate polari elementi di C vengono chiamati numeri e non vettori 4 Formando 1 e i una base di C come R-spazio vettoriale, possiamo rappresentare il numero (x, y) ∈ C nel seguente modo (x, y) = x1 + yi = x + iy. Abbiamo che i2 = −1; pertanto i è soluzione dell’equazione x2 = −1, ma anche −i è soluzione, quindi la scrittura √ i = −1, che si trova in molto libri, è fonte di confusione, essendo equivoco il significato √ del simbolo . Indicheremo il generico numero complesso con la lettera z e volendo mettere in luce la decomposizione di cui sopra scriveremo z = x + iy. (2) x si chiama la parte reale di z (si indica Re(z)) e y la parte immaginaria (si indica Im(z)). La scrittura data dalla (2) è particolarmente comoda perché il prodotto fra due numeri complessi può essere eseguito con le usuali regole del calcolo algebrico, sostituendo −1 ogni volta che troviamo i2 . 1.4 Alcune funzioni elementari su C La seguente funzione si chiama coniugio ed è particolarmente importante C z x + iy → C 7 → z̄ 7→ x − iy La sua importanza deriva dal fatto che il coniugio è un isomorfismo di campi, cioè è biunivoca e gode delle seguenti proprietà z1 + z2 = z̄1 + z̄2 z1 z2 = z̄1 z̄2 La parte reale e la parte immaginaria di un numero complesso possono essere definite tramite il coniugio da C z → R⊂C z+z̄ 7→ 2 Im : C z → R⊂C z−z̄ 7→ 2i Re : Per il coniugio valgono le seguenti proprietà di facile verifica • z̄¯ = z 5 • z + z̄ = 2Re(z) • z − z̄ = 2iRe(z) • z −1 = (z̄)−1 , per z 6= 0 • z̄ = z ⇔ z ∈ R • z̄ = −z ⇔ z ∈ iR, in tal caso diremo che z è un immaginario puro. Definiamo la funzione modulo di un numero complesso z = z+iy nel seguente modo p |z| = x2 + y 2 , p √ risulta |z| = Re(z)2 + Im(z)2 = z z̄. Trattandosi di numeri √ reali positivi o nulli, non c’è equivoco col simbolo di radice, intendendosi con x il numero reale non negativo il cui quadrato è x. Inoltre se z è un numero reale il suo modulo coincide col valore assoluto, per cui non c’è confusione nel simbolo usato. Per la funzione modulo valgono le seguenti proprietà • |z| ≥ 0 e |z| = 0 ⇔ z = 0 • |z̄| = |z| • |Re(z)| ≤ |z|, |Im(z)| ≤ |z|, |z| ≤ |Im(z)| + |Re(z)| • |z1 z2 | = |z1 ||z2 | • |z −1 | = |z|−1 , per z 6= 0 • |z1 + z2 | ≤ |z1 | + |z2 | • |z1 + z2 | ≥ ||z1 | − |z2 ||. Segnaliamo la dimostrazione delle ultime due relazioni, essendo le altre immediate: |z1 + z2 |2 = (z1 + z2 )(z1 + z2 ) = |z1 |2 + z1 z̄2 + z̄1 z2 + |z2 |2 = |z1 |2 + z1 z̄2 + z1 z̄2 + |z2 |2 = |z1 |2 + 2Re(z1 z̄2 ) + |z2 |2 ≤ |z1 |2 + 2|(z1 z̄2 )| + |z2 |2 = |z1 |2 + 2|z1 ||z̄2 | + |z2 |2 = |z1 |2 + 2|z1 ||z2 | + |z2 |2 = (|z1 | + |z2 |)2 , similmente |z1 − z2 |2 = |z1 |2 − 2Re(z1 z̄2 ) + |z2 |2 ≥ |z1 |2 − 2|(z1 z̄2 )| + |z2 |2 = (|z1 | − |z2 |)2 . 6 1.5 La rappresentazione trigoniometrica di un numero complesso Scriviamo un numero complesso z = x + iy diverso da 0 nella forma z = |z|( Poiché Re(z) |z| 2 + Im(z) |z| 2 Re(z) Im(z) +i ). |z| |z| = 1, possiamo anche scrivere z = |z|(cos Θ + i sin Θ). (3) (dove Θ = {θ + 2kπ}k∈Z rappresenta la misura7 dell’angolo orientato che la semiretta uscente da 0 e passante per 1 forma con la semiretta uscente da 0 e Im(z) passante per z; esso è tale che cos Θ = Re(z) |z| e sin Θ = |z| . Siano z1 = ρ1 (cos θ1 + i sin θ1 ) z2 = ρ2 (cos θ2 + i sin θ2 ), due numeri complessi, con θ1 , θ2 ∈ R e ρ1 , ρ2 ∈ R+ ; se z1 = z2 , allora, essendo | cos θ + i sin θ| = 1, abbiamo ρ1 = |ρ1 || cos θ1 + i sin θ1 | = |ρ1 (cos θ1 + i sin θ1 )| = |ρ2 (cos θ2 + i sin θ2 )| = |ρ2 || cos θ2 + i sin θ2 | = ρ2 , quindi cos θ1 = cos θ2 e sin θ1 = sin θ2 . Poiché l’implicazione nell’altro verso è ovvia, possiamo concludere che ρ1 = ρ2 z1 = z2 ⇐⇒ (4) ∃k ∈ Z : θ1 = θ2 + 2kπ Pertanto, se rapprensentiamo la misura di un angolo orientato con un insieme di numeri reali Θ = {θ + 2kπ}k∈Z , un numero complesso non nullo è univocamente determinato dalla sua rappresentazione (3). Per ogni θ ∈ Θ z = |z|(cos θ + i sin θ) si chiama una rappresentazione trigonometrica di z. Tornando alla (3) Θ si chiama l’argomento di z e ogni θ ∈ Θ si chiama una determinazione di dell’argomento di z. Siano z1 = |z1 |(cos Θ1 + i sin Θ1 ) 7 è doveroso segnalare che la definizione di misura di un angolo, specie se orientato, è questione assai delicata e autorevoli matematici ritengono che questa non possa essere data in mamiera corretta se non in un corso di analisi complessa o in un corso di teoria della misura; purtroppo ragioni didattiche impongono anticipare le definizioni delle funzioni trigonometriche, ed anche la rappresentazione trigonometrica di un numero complesso. 7 z2 = |z2 |(cos Θ2 + i sin Θ2 ), si ha z1 z2 = |z1 ||z2 |(cos(Θ1 + Θ2 ) + i sin(Θ1 + Θ2 )), (5) che è ovvia se si considera la ”genesi” che abbiamo presentato del prodotto di numeri complessi, e che comunque si prova facilmente usando le formule del coseno e del seno dell’angolo somma. Come caso particolare dalla (5) otteniamo la formula di De Moivre z n = |z|n (cos(nΘ) + i sin(nΘ)), (6) La formula De Moivre permette di risolvere in C l’equazione zn = w (7) Sia w = |w|(cos Φ + i sin Φ), con Φ = {φ + 2kπ}k∈Z , e sia z = |z|(cos Θ + i sin Θ), con Θ = {θ + 2kπ}k∈Z tale che sia soluzione di (7). Abbiamo |w| = |z|n , 1 Φ = nΘ. Da cui segue subito che |z| = |w| n , ma possiamo scrivere Θ = Φ n, 2π differiscono fra loro per multipli di perché i valori degli elementi di Φ n n e quindi non rappresenta la misura di un angolo. In effetti da (7) segue 1 |z| = |w| n ∀φ ∈ Φ, ∀θ ∈ Θ, ∃k ∈ Z : φ = nθ + 2kπ ovvero 1 |z| = |w| n ∀φ ∈ Φ, ∀θ ∈ Θ, ∃k ∈ Z : θ = φ n + 2kπ n Pertanto ∀k ∈ Z , in numeri 1 φ 2kπ φ 2kπ |w| n cos + + i sin + n n n n sono soluzioni della(7) ma non ho infinite soluzione diverse, potendo i numeri φ 2kπ n + n rappresentare diverse determinazioni dello stesso angolo. Sia φ ∈ Φ, poniamo θ0 = nφ θ1 = nφ + 2π n θ2 = nφ + 2 2π n .. .. . . θn−1 = φ n + (n − 1) 2π n a cui corrispondono gli angoli le cui misure sono 8 Θ0 Θ1 Θ2 .. . = { nφ + 2kπ}k∈Z = { nφ + 2π n + 2kπ}k∈Z = { nφ + 2 2π n + 2kπ}k∈Z .. . Θn−1 = { nφ + (n − 1) 2π n + 2kπ}k∈Z ; φ il numero nφ + n 2π n = n + 2π appartiene a Θ0 e non da luogo a una diversa soluzione dell’equazione (7). Pertanto, se w 6= 0, l’equazione (7) ha n distinte soluzioni ed esse sono date da 8 1 z0 z1 z2 .. . = |w| n (cos(θ0 ) + i sin(θ0 )) 1 = |w| n (cos(θ1 ) + i sin(θ1 )) 1 = |w| n (cos(θ2 ) + i sin(θ2 )) .. . zn−1 = |w| n (cos(θn−1 ) + i sin(θn−1 )) 1 Infine se w = 0 la (7) ha la sola soluzione nulla. Esempio Per trovare le soluzioni dell’equazione z 3 = 2, dobbiamo rappresentare in modo trigonometrico il numero complesso 2: 2 = 2(cos(0) + i sin(0)) pertanto le tre radici cubiche di 2 sono z0 z1 z2 1 1 = 2 3 (cos(0) + i sin(0)) = 23 √ 1 1 2π 2π = 2 3 (cos( 3 ) + i sin( 3 )) = 2 3 (− 21 + i √23 ) 1 1 3 1 4π 3 = 2 3 (cos( 4π 3 ) + i sin( 3 )) = 2 (− 2 − i 2 ) Esempio Per trovare le soluzioni dell’equazione z 4 = −1, dobbiamo rappresentare in modo trigonometrico il numero complesso -4: −4 = 4(cos(π) + i sin(π)) pertanto le quattro radici quarte di -4 sono z0 = z1 = z2 = z3 = 1 1 2 2 (cos( π4 ) + i sin( π4 )) 1 2 2 (cos( π4 1 2 2 (cos( π4 1 2 2 (cos( π4 + + + 1 1 = 2 2 ( 222 + i 222 ) π 2) + i sin( π4 + π2 )) π) + i sin( π4 + π)) 3π π 3π 2 ) + i sin( 4 + 2 )) = = = 1 2 1 =1+i 1 2 (− 222 + i 222 1 1 1 2 2 (− 222 − i 222 1 1 1 2 2 ( 222 − i 222 ) ) = −1 + i ) = −1 − i =1−i Esempio Per trovare le soluzioni dell’equazione z 2 = −i, dobbiamo rappresentare in modo trigonometrico il numero complesso i: −i = (cos( 8 nella 3π 3π ) + i sin( )) 2 2 formula che segue al posto di θ0 , θ1 . . . potremmo scrivere anche Θ0 , Θ1 . . . 9 pertanto le quattro radici quarte di -4 sono z0 z1 = = 1 √ 1 3π (cos( 3π 4 ) + i sin( 4 )) = (− 222 + i 222 ) = 3π (cos( 3π 4 + π) + i sin( 4 + π)) =( −i = 1 22 2 1 22 2 ) 2 (−1 + i) √2 2 2 (1 − i) La formula di De Moivre (6) ci ha permesso di trovare le soluzioni di alcune semplici equazioni polinomiali, ma non esiste una formula che dia le soluzioni della generica equazione polinomiale se il grado è maggiore di 4. Ciononostante, il seguente teorema, cosı̀ importante da essere chiamato teorema fondamentale dell’algebra, assicura che almeno una soluzione esiste. Teorema (fondamentale dell’algebra) Ogni polinomio in una variabile, a coefficienti complessi, non costante, ha almeno una radice in C Le dimostrazioni puramente algebriche di questa teorema sono molto complesse; altre più abbordabili fanno uso di strumenti di analisi matematica. Un polinomio in una variabile si dice monico se il coefficiente del termine di grado massimo è 1. Se un polinomio p(z) ha una radice z0 , allora è divisibile per (z − z0 ) e, ripetendo la divisione n volte, otteniamo il seguente Corollario Ogni polinomio, in C, non costante, di grado n, si fattorizza nel prodotto di una costante e di n fattori di primo grado monici Ogni polinomio a coefficienti reali è anche un polinomio a coefficienti complessi, e come tale ammette radici complesse. Proposizione 1.1 Sia p(x) un polinomio a coefficienti reali. Se w è una radice di p(x) anche w̄ lo è. Dim. Sia p(x) = an xn + an−1 xn−1 + . . . + a1 x + a0 . Se w è radice abbiamo an wn + an−1 wn−1 + . . . + a1 w + a0 = 0, coniugando ambo i membri, abbiamo an wn + an−1 wn−1 + . . . + a1 w + a0 = 0̄ = 0, da cui, considerate le proprietà della funzione coniugio e tenendo presente che i coefficienti sono reali, an w̄n + an−1 w̄n−1 + . . . + a1 w̄ + a0 = 0, cioè p(w̄) = 0. 1.6 Spazi vettoriali reali e spazi vettoriali complessi Abbiamo già osservato che C è uno spazio vettoriale sul campo R di dimensione 2, essendo {1, i} una base. C è anche uno spazio vettoriale sul campo C, e in 10 questo caso la sua dimensione è 1, essendo ogni numero complesso non nullo una sua base. Uno spazio vettoriale V su C è anche uno spazio vettoriale su R , in quanto essendo definito il prodotto di un vettore per un numero complesso è definito anche il prodotto di un vettore per un numero reale poiché questo è un particolare numero complesso. Indichiamolo con VR , se vogliamo considerare su V la sola struttura di spazio vettoriale reale. Proposizione 1.2 Sia V uno spazio vettoriale su C. Se dim(V ) = n, allora dim(VR ) = 2n. Dim. Sia V = {v1 , . . . , vn } una base su C di V . Allora VR = {v1 , . . . , vn , iv1 , . . . , ivn } è una base di V su R. Infatti, essendo V una base su C, abbiamo che ogni vettore w si scrive w = z1 v1 + . . . + zn vn = (x1 + iy1 )v1 + . . . (xn + iyn )vn = x1 v1 + . . . + xn vn + y1 iv1 + . . . + yn ivn . e quindi VR è un sistema di generatori su R di V . D’altra parte, se a1 v1 + . . . + an vn + b1 iv1 + . . . + bn ivn = 0 è una combinazione lineare nulla degli elementi di VR , allora (a1 + ib1 )v1 + . . . + (an + ibn )vn = 0, è una combinazione lineare a coefficienti complessi nulla dei vettori della base V; pertanto (a1 + ib1 ) = . . . = (an + ibn ) = 0 da cui a1 = . . . = an = b1 = . . . = bn = 0. Sia ora V uno spazio vettoriale reale di dimensione n, possiamo dare a V × V una struttura di spazio vettoriale complesso9 . Questo spazio si chiama il complessificato di V e lo indichiamo con VC . Le operazioni di somma e prodotto per uno scalare in VC sono definnite da (v1 , v2 ) + (w1 , w2 ) := (v1 + w1 , v2 + w2 ) (x + iy)(v1 , v2 ) := (xv1 − yv2 , yv1 + xv2 ) Le verifiche delle proprietà sono di routine. Per quanto già visto all’inizio del paragrafo, VC ha anche una struttura di spazio vettoriale reale, che coincide con quella di V × V . Possiamo definire un’applicazione iniettiva da V in VC , 9V × V ha in maniera naturale unsa struttura di spazio vettoriale reale di dimensione 2n. 11 che è lineare come applicazione fra spazi vettoriali reali (verifiche banali), nel seguente modo J : V −→ VC v 7−→ (v, 0) Abbiamo (v1 , v2 ) = (v1 , 0) + i(v2 , 0), per cui, se identifichiamo v con (v, 0), (operazione legittimata dal fatto che J è lineare e iniettiva) possiamo scrivere (v1 , v2 ) = v1 + iv2 . Proposizione 1.3 Se dim(V ) = n, allora dim VC = n. Dim. Basta provare che, sotto l’identificazione J, una base di V è anche una base di VC . Sia dunque V = {v1 , . . . , vn } una base di V ; sia (v, w) ∈ C; abbiamo v = a1 v1 + . . . + an vn w = b1 v1 + . . . + bn vn da cui (v, w) = v + iw = a1 v1 + . . . + an vn + i(b1 v1 + . . . + bn vn ) = (a1 + ib1 )v1 + . . . + (an + ibn )vn , pertanto V = {v1 , . . . , vn } è un sistema di generatori di VC . Sia ora (a1 + ib1 )v1 + . . . + (an + ibn )vn = 0 una combinazione lineare nulla dei vettori di V, abbiamo (a1 v1 + . . . + an vn , b1 v1 + . . . + bn vn ) = a1 v1 + . . . + an vn + i(b1 v1 + . . . + bn vn ) = (a1 + ib1 )v1 + . . . + (an + ibn )vn = 0 da cui a1 v1 + . . . + an vn = b1 v1 + . . . + bn vn = 0 e, essendo {v1 , . . . , vn } linearmente indipendenti in V , concludiamo che a1 = . . . = an = b1 = . . . = bn = 0 e che {v1 , . . . , vn } sono linearmente indipendenti in VC . 12 1.7 Applicazioni lineari e matrici 1.7.1 Sia F : V → W un’applicazione lineare fra spazi vettoriali complessi di dimensione n e m. Siano V = {v1 , . . . , vn }, W = {w1 , . . . , wm }, basi di V e W rispettivamente. Come è noto a F possiamo associare una matrice m × n, MW,V (F ), sinteticamente definibile dalla relazione F (V) = WMW,V (F ). Essendo MW,V (F ) = (αij ) una matrice a elementi complessi. Essa può essere scritta come A + iB, dove gli elementi di A = (aij ) e B = (bij ) sono, rispettivamente, le parti reali e le parti immaginarie degli elementi di MW,V (F ), cioè αij = aij + ibij . Nel paragrafo precedente abbiamo visto che V e W , sono anche spazi vettoriali reali di dimensione 2n e 2m; per distinguerli li abbiamo chiamati VR e WR . Siano VR e WR le basi di VR e WR precedentemente definite. Vogliamo calcolare MWR ,VR (F ). Le colonne di MWR ,VR (F ), sono rappresentate dalle componenti dei vettori F (v1 ), . . . , F (vn ), F (iv1 ), . . . , iF (vn ), rispetto a WR = {w1 , . . . , wm , iw1 , . . . , iwm }. Abbiamo F (vj ) = m X αij wi = i=1 m X aij wi + i i=1 m X bij wi = i=1 m X aij wi + i=1 m X bij iwi i=1 e F (ivj ) = iF (vj ) = i m X i=1 αij wi = m X iaij wi − i=1 m X bij wi = i=1 m X i=1 aij iwi − m X bij wi , i=1 da cui la matrice cercata, è rappresentata a blocchi da A −B MWR ,VR (F ) = . B A 1.7.2 Sia ora F : V → W un’applicazione lineare fra spazi vettoriali reali di dimensione n e m e siano V = {v1 , . . . , vn }, W = {w1 , . . . , wm }, basi di V e W , rispettivamente. Possiamo estendere F a un’applicazione FC : VC → WC , per linearità, utilizzando il fatto che le basi V e W di di V e W sono anche basi di VC e WC , e dunque la FC è definita sui vettori di una base di V . FC si chiama la complessificata dell’applicazione F . Essendo FC (vj ) = F (vj ), abbiamo che MW,V (FC ) = MW,V (F ). Osservazione Capiterà, qualche volta, di considerare le radici complesse ( e non reali) del polinomio caratteristico di un operatore T su uno spazio vettoriale reale; questi numeri sono autovalori dell’operatore complessificato TC ; i rispettivi autovettori saranno combinazioni lineari a coefficienti complessi dei vettori della base di V e come tali elementi di VC . 13 2 Complementi di teoria degli operatori Richiamiamo le proprietà sulla diagonalizzazione degli operatori. Sia V uno spazio vettoriale su K di dimensione finita, V = {v1 , . . . , vn } una base di V e T : V → V un operatore lineare. Indichiamo con MVV (T ), la matrice associata a T rispetto alla base V. Ricordo che le sue colonne rappresentano, nell’ordine, le componenti dei trasformati dei vettori della base V rispetto alla stessa base V. Tale proprietà può essere scritta, in notazione matriciale T (V) = VMVV (T ). x1 Se v = x1 v1 + . . . + xn vn = Vx, con x = ... abbiamo xn T (v) = T (Vx) = T (V)x = VMVV (T )x, da cui se poniamo T (v) =: Vy, ne segue che la T è rappresentata, in coordinate, da y = MVV (T )x. L’operatore T si dice diagonalizzabile se esiste una base W per cui MWW (T ) è diagonale, questo accade se e soltanto se esiste una base di autovettori10 . Essendo −1 MVV (T ) = MWV (Id)MWW (T )MWV (Id), dove MWV (Id) è la matrice cambiamento di base, abbiamo che T è diagonalizzabile se e solo se T è simile a una matrice diagonale. La procedura per determinare se T è diagonalizzabile prevede di calcolare, in primo luogo gli autovalori di T (che coincidono, qualunque sia la base V, con gli autovalori di MVV (T )), tramite la ricerca delle radici del polinomio caratteristico PT (λ) = det(MVV (T ) − λI). λ è un autovalore se e solo se è radice del polinomio caratteristico. Per ogni autovalore λ, si definisce l’autospazio Vλ , come l’insieme degli autovettori associati a λ con l’aggiunto del vettore nullo; si definisce poi la molteplicità geometrica di λ come la dimensione di Vλ . Il criterio di diagonalizzabilità stabilisce che T è diagonalizzabile se e solo se la somma delle molteplicità geometriche degli autovalori di T è uguale alla dimensione di V . Infine è da segnalare che la molteplicità geometrica di un autovalore λ̃ è sempre minore o uguale della molteplicità algebrica di λ̃, cioè dell’esponente con cui si trova il fattore λ − λ̃ nella decomposizione in fattori irriducibili del polinomio caratteristico PT (λ). Possiamo dire che la teoria della diagonalizzazione permette di classificare le matrici quadrate diagonalizzabili rispetto la relazione di similitudine. Abbiamo che 10 ricordo che un vettore x non nullo si dice un autovettore relativo all’autovalore λ ∈ K, se T (x) = λx. 14 due matrici diagonalizzabili sono simili se e solo se hanno gli stessi autovalori con la stessa molteplicità algebrica (ovvero se e solo se hanno lo stesso polinomio caratteristico). Similmente, in termini di operatori, possiamo dire che due operatori diagonalizzabili hanno le stesse ”proprietà algebriche”11 se e solo se hanno gli stessi autovalori con la stessa molteplicità algebrica (ovvero, di nuovo, se e solo se hanno lo stesso polinomio caratteristico12 ). Scopo di questo capitolo è illustrare come si possano classificare gli operatori (o le matrici) che non sono diagonalizzabili. 2.1 Triangolarizzazione degli operatori Il fatto fondamentale che distingue la teoria degli operatori in campo comlesso da quella in campo reale è che in C un operatore ha sempre almeno un autovalore, perché il polinomio caratteristico ha almeno una radice. Definizione 2.1 Una matrice quadrata A = (aij ) si dice triagolare superiore se aij = 0 per i > j. Proposizione 2.1 Ogni operatore T su uno spazio vettoriale complesso V è triangolarizzabile, cioè esiste una base V per cui la matrice associata MVV (T ) è triangolare superiore. Dim. La dimostrazione è per induzione sulla dimensione di V . Per gli spazi di dimensione 1 la proposizione è banale. Assumiamo che ogni operatore su uno spazio vettoriale complesso di dimensione n − 1 sia traingolarizzabile (ovvero che ogni matrice (n − 1) × (n − 1) è simile a una matrice triangolare superiore) e dimostriamo che da ciò segue che ogni operatore su uno spazio vettoriale di dimensione n è triangolarizzabile. Sia λ1 un autovalore di T (esiste perchè siamo su uno spazio vettoriale complesso) e sia v1 un suo autovettore. Completiamo v1 fino a una base di V . Sia questa V = {v1 , v2 , . . . , vn }. La matrice associata a T rispetto alla base V ha la forma λ1 a12 . . . a1n 0 a22 . . . a2n λ1 B = MVV (T ) = . ... ... ... ... 0 A 0 an2 . . . ann A è una matrice quadrata di ordine n − 1, quindi per ipotesi induttiva è simile a una matrice diagonale. Cioè esiste D ∈ GLn−1 (C) tale che D−1 AD è triangolare superiore. Posto 1 0 D̃ = , 0 D 11 in termini formalmente più corretti, ciò significa che esiste un automorfismo (applicazione lineare invertiblie) φ : V → V tale che φ ◦ T = T 0 ◦ φ; la φ permette di ”trasportare ogni proprietà algebrica di T a T 0 . 12 il polinomio caratterisco di una matrice A è P (λ) := det(A − λI). A 15 abbiamo che D̃ ∈ GLn (C) e D̃ −1 MVV (T )D̃ = λ1 0 BD D−1 AD è triangolare superiore. Poniamo adesso Ṽ = V D̃, abbiamo che Ṽ è una base, perché D̃ è invertibile; inoltre D̃ è la matrice cambiamento di base, MV Ṽ (Id), per cui MṼ Ṽ (T ) = MV−1Ṽ (Id)MVV (T )MV Ṽ (Id) = D̃−1 MV Ṽ (T )D̃ è triangolare superiore. Definizione 2.2 Sia T un operatore su uno spazio vettoriale reale o complesso, definiamo spettro di T l’insieme delle radici complesse del polinomio caratteristico. Per un operatore T su uno spazio vettoriale reale V , lo spettro13 coincide con l’insieme degli degli autovalori dell’estensione TC di T al complessificato VC . Si osservi che la proposizione (2.1) non è vera in campo reale, in quanto ogni operatore triangolarizzabile ha almeno un autovettore, mentre esistono operatori privi di autovettori, quali, ad esempio, le rotazioni di angolo diverso da 0 e π. Comunque vale il seguente Proposizione 2.2 Un operatore T su uno spazio vettoriale reale V , con lo spettro tutto reale è triangolarizzabile. la cui dimostrazione è simile alla precedente, essendo intervenuta, nella prova, l’ipotesi che il campo sia complesso, solo per provare l’esistenza di un autovettore. Bisogna osservare anche che, se MVV (T ) ha spettro tutto reale, pure la sottomatrice A ha spettro tutto reale. 2.2 I teorema di riduzione Definizione 2.3 Sia T un operatore sullo spazio vettoriale V . Un sottospazio W di V si dice T -invariante (o invariante per T o anche T-stabile) se T (W ) ⊆ W. Se T è diagonalizzabile e V = {v1 , . . . , vn } è una base che diagonalizza T allora span(v1 ), . . . , span(vn ) sono spazi T -invarianti e V = span{v1 } ⊕ . . . ⊕ span{vn }, anzi è facile vedere che T è diagonalizzabile se e solo se V è somma diretta14 di n sottospazi T -invarianti di dimensione 1. È pertanto naturale ricercare per 13 molti autori intendono con spettro di un operatore reale l’insieme delle radici reali del polinomio caratteristico 14 si ricorda la definizione di somma diretta di sottospazi: la somma dei sottospazi W1 , . . . , Wr di dice diretta (e si scrive W1 ⊕ . . . ⊕ Wr ) se ogni vettore v ∈ W1 + . . . + Wr è somma in un sol modo di r vettori, v1 , . . . , vr , con v1 ∈ W1 , . . . , vr ∈ Wr . 16 gli operatori non diagonalizzabili la più ”fine” decomposizione in somma diretta di sottospazi T -invarianti, oppure la decomposizione in somma diretta con il maggior numero di sottospazi T -invarianti. Con questo obiettivo in mente, introciamo la seguente Definizione 2.4 Sia λ un autovalore di T , v ∈ V si dice una radice per T di ordine m relativa all’autovalore λ, se m è il più piccolo numero naturale tale che (T − λId)m (v) = 0. Proposizione 2.3 L’insieme delle radici per T relative all’autovalore λ è un sottospazio vettoriale che indichiamo con R(T, λ). Dim. Sia v ∈ R(T, λ); esiste m ∈ N tale che (T − λId)m (v) = 0; ne segue che (T − λId)m (kv) = k(T − λId)m (v) = 0, dunque kv ∈ R(T, λ). Siano v1 , v2 ∈ R(T, λ); esistono m1 , m2 ∈ N tali che (T − λId)m1 (v1 ) = 0 e (T − λId)m2 (v2 ) = 0; ne segue (T −λId)max(m1 ,m2 ) (v1 +v2 ) = (T −λId)max(m1 ,m2 ) (v1 )+(T −λId)max(m1 ,m2 ) (v2 ) = 0 Proposizione 2.4 R(T, λ) è T -invariante. Dim. Sia v ∈ R(T, λ). Esiste m ∈ N tale che (T − λId)m (v) = 0. Anche (T − λId)m+1 (v) = 0. Quindi 0 = (T − λId)m+1 (v) = (T − λId)m ((T − λId)(v)) = (T − λId)m (T (v) − λv) = (T − λId)m (T (v)) − λ(T − λId)m (v) = (T − λId)m (T (v)). Quindi anche T (v) è una radice relativa a λ. Poiché ogni sottospazio è Id-invariante, abbiamo Corollario R(T, λ) è (T − µId)-invariante, qualunque sia µ, in particolare è (T − λId)-invariante. Definizione 2.5 Un operatore T su V si dice nilpotente se esiste m ∈ N tale che T m = 0 ( cioè T m (v) = 0 per ogni v ∈ V ); si dice nilpotente di ordine m se m è il più piccolo indice tale che T m = 0. Proposizione 2.5 Un operatore T nilpotente sullo spazio V di dimensione n, ha solo l’autovalore 0 con molteplicità algebrica n. 17 Dim. Se λ è autovalore di T con autovettore v, allora T m (v) = λm v e dunque λm è autovalore di T m . Se T m è l’operatore nullo, allora esso ha solo l’autovalore 0, quindi λm = 0, cioè λ = 0. Su V è uno spazio vettoriale complesso la molteplicità algebrica è n, perché la somma delle molteplicità algebriche è uguale alla dimensione dello spazio; se V è uno spazio vettoriale reale, allora la molteplictà algebrica di 0 è n, perché tale è la molteplicità di 0 per TC e gli autovalori di TC sono tutti reali. La seguente proposizione vale solo per spazi di dimensione finita, come sono quelli da noi considerati Proposizione 2.6 Sia λ un autovalore dell’operatore T sullo spazio di dimensione finita V . (T − λId)|R(T,λ) : R(T, λ) → R(T, λ) è nilpotente. Dim. Dalla definizione di R(T, λ) segue che R(T, λ) = ∞ [ ker(T − λId)m m=1 Abbiamo che ker(T − λId)m+1 ⊇ ker(T − λId)m . Poiché R(T, λ) ha dimensione finita, esiste m tale che R(T, λ) = m̄ [ ker(T − λId)m = ker(T − λId)m̄ . m=1 Quindi (T − λId) ristretto a R(T, λ) è nilpotente. Osserviamo che l’ordine di nilpotenza di (T − λId)|R(T,λ) è uguale al più piccolo m tale che ker(T − λId)m+1 = ker(T − λId)m . Ciò deriva dal fatto che, se ker(T − λId)m+1 = ker(T − λId)m allora per ogni k ∈ N ker(T − λId)m+k = ker(T − λId)m ; infatti sia v ∈ ker(T − λId)m+k , abbiamo 0 = (T − λId)m+k (v) = (T − λId)m+1 ((T − λId)k−1 (v)) = (T − λId)m ((T − λId)k−1 (v)) = (T − λId)m+k−1 (v) Iterando il procedimento k volte, otteniamo (T −λId)m (v) = 0, cioè v ∈ ker(T − λId)m . 18 Proposizione 2.7 Siano λ, µ autovalori distinti dell’operatore T . La restrizione di (T − µId) a R(T, λ), che denotiamo (T − λId)|R(T,λ) , è inettiva. Dim. Abbiamo già provato nel corollario precedente che R(T, λ) è un sottospazio invariante sia per (T − λId) che per (T − µId). Proviamo ora che se v ∈ R(T, λ) e (T − µId)(v) = 0, allora v = 0. Abbiamo che T (v) = µv, e dunque (T − λId)v = T (v) − λv = µv − λv = (µ − λ)v, Se fosse v 6= 0 allora λ − µ sarebbe un autovalore per (T − λId)|R(T,λ) , il quale essendo nilpotente ha solo l’autovalore nullo. Pertanto v = 0. Dalla proposizione precedente segue subito che se λ 6= µ, allora R(T, λ) ∩ R(T, µ) = 0. Infatti se (T − µId) è iniettiva su R(T, λ), anche ogni sua potenza è iniettiva; se esistesse un vettore non nullo v ∈ R(T, λ) ∩ R(T, µ), allora (T − µId)m (v) = 0 per un qualche intero m, contro il fatto che (T − µId)m è iniettivo su R(T, λ). Ma vale una proposizione più forte. Proposizione 2.8 Siano λ1 , . . . , λr autovalori distinti di T . La somma R(T, λ1 ) ⊕ . . . ⊕ R(T, λr ) è diretta, cioè ogni vettore v ∈ R(T, λ1 ) + . . . + R(T, λr ) si scrive in un sol modo come somma di r radici relative agli r autovalori. Dim. La dimostrazione è per induzione sul numero degli autovalori. Se r = 1 il fatto è banale. Assumiamo l’enunciato per r = k − 1 e dimostriamolo per r = k. Sia v = v1 + . . . + vk = w1 + . . . + wk (8) con v1 , w1 ∈ R(T, λ1 ),. . . ,vk , wk ∈ R(T, λk ). Esiste m tale che15 (T − λk Id)m (vk ) = (T − λk Id)m (wk ) = 0 allora (T − λk Id)m (v) = (T − λk Id)m (v1 ) + . . . + (T − λk Id)m (vk−1 ) = (T − λk Id)m (w1 ) + . . . + (T − λk Id)m (wk−1 ). Per l’ipotesi induttiva abbiamo che (T − λk Id)m (v1 ) = (T − λk Id)m (w1 ) .. . (T − λk Id)m (vk−1 ) = (T − λk Id)m (wk−1 ). Poiché (T − λk Id)m è iniettiva sui sottospazi delle radici relativi a λ1 ,. . . , λk−1 , abbiamo che v1 = w1 ,. . . , vk−1 = wk−1 . Dalla (8) segue ora che anche vk = wk . 15 m è uguale al massimo degli ordini delle radici di vk e wk . 19 Per arrivare a dimostrare il I teorema di riduzione abbiamo ancora bisogno della seguente Proposizione 2.9 Sia V uno spazio vettoriale complesso e T un operatore su V . La dimensione di R(T, λ) è uguale alla molteplicità algebrica di λ. Dim. Sia W = {v1 , . . . , vk } una base di R(T, λ) e completiamola a una base V = {v1 , . . . , vk , . . . , vn } di V Poiché R(T, λ) è T -invariante, abbiamo che a11 . . . a1k a1 k+1 ... a1n ... ... ... ... ... ... ak1 . . . akk A B ak k+1 ... akn = , MVV (T ) = 0 C 0 . . . 0 ak+1 k+1 . . . ak+1 n ... ... ... ... ... ... 0 ... 0 an k+1 ... ann con A = MWW (T |R(T,λ) ). Poiché λ è l’unico autovalore di (T |R(T,λ) ), PA (t) = (−1)k (t − λ)k abbiamo che PT (t) = det(MVV (T ) − tIn ) = det(A − tIn ) det(C − tIn ) = (−1)k (t − λ)k PC (t). Supponiamo, per assurdo, che la molteplicità algebrica di λ sia maggiore di dim R(T, λ), allora λ è autovalore di C. Ricordandoci che in campo complesso ogni matrice può essere triangolarizzata, sia D ∈ GLn−k (C) tale che D−1 CD sia triangolare e partendo il processo di triangolarizzazione proprio dall’autovettore relativo all’autovalore λ di C, possiamo fare in modo che al posto 11 di D−1 CD = si trovi l’autovalore λ, cioè ! λ ... −1 . D CD = . 0 .. Sia ora D̃ = Ik 0 0 D , abbiamo che D̃ ∈ GLn (C) e D̃−1 MVV (T )D̃ = A BD 0 D−1 CD A = 0 BD ! λ ... . .. . 0 (9) Sia Ṽ = V D̃ = {ṽ1 , . . . , ṽn }; Ṽ è una base e, poiché D̃ è la matrice cambiamento di base da V a Ṽ, abbiamo che la (9) è la matrice associata a T rispetto a Ṽ , cioè MṼ Ṽ (T ). 20 Osserviamo che ṽ1 = v1 , . . . , ṽk = vk . Poiché v1 , . . . , vk sono radici relative a λ, esiste m ∈ N tale che (T − λId)m (vi ) = 0 per i = 1, . . . , k. Siano c1 , . . . , ck i primi k termini della prima colonna di BD, abbiamo (T − λId)m+1 (ṽk+1 ) = (T − λId)m ((T − λId)(ṽk+1 )) = (T − λId)m (T (ṽk+1 ) − λṽk+1 ) = (T − λId)m (c1 ṽ1 + . . . + ck ṽk + λṽk+1 − λṽk+1 ) = (T − λId)m (c1 v1 + . . . + ck vk ) = c1 (T − λId)m (v1 ) + . . . + ck (T − λId)m (vk ) = 0. Quindi ṽk+1 è una radice relativa a λ, dunque è combinazione lineare di v1 , . . . , vk , cioè di ṽ1 , . . . , ṽk , il che è assurdo essendo Ṽ una base. L’assurdo è nato dall’aver supposto che la molteplicità algebrica di λ fosse maggiore della dimensione di R(T, λ). Abbiamo come diretta e immediata conseguenza il Teorema (I Teorema di riduzione) Sia T : V → V un operatore sullo spazio vettoriale complesso di dimensione finita V . Siano λ1 , . . . , λk i suoi autovalori. Allora V = R(T, λ1 ) ⊕ . . . ⊕ R(T, λk ) Dim. La somma delle molteplicità algebriche degli autovalori di un operatore su uno spazio vettoriale complesso è uguale alla dimensione dello spazio, per cui dim(R(T, λ1 ) ⊕ . . . ⊕ R(T, λk )) = dim R(T, λ1 ) + . . . + dim R(T, λk ) = n. 2.3 Il II teorema di riduzione Il primo teorema di riduzione mostra una prima decomposizione di V in somma diretta di sottospazi T -invarianti. Dobbiamo chiederci se un sottospazio delle radici possa essere, a sua volta, somma diretta di sottospazi T -invarianti. Un sottospazio W di R(T, λ) è T -invariante se e solo se è (T −λId)-invariante. Possiamo quindi limitarci a cercare sottospazi si R(T, λ), (T − λId)-invarianti. Il vantaggio sta nel fatto che (T − λId)|R(T,λ) è un operatore nilpotente. Introduciamo la seguente Definizione 2.6 Sia G un operatore sullo spazio vettoriale V di dimensione n, G si dice ciclico se esiste una base, V = {v1 , . . . , vn }, detta base ciclica, tale che G(v1 ) = 0 G(v2 ) = v1 .. . G(vn ) = vn−1 21 È immediato verificare che ogni operatore ciclico è nilpotente. La matrice associata all’operatore ciclico G rispetto una base ciclica ha la forma 0 1 0 ... 0 0 0 1 ... 0 .. . .. Jn := ... ... . . 0 0 0 ... 1 0 0 0 ... 0 0 è il solo autovalore di un operatore ciclico G, con molteplicità algebrica n e molteplicità geometrica 1. Pertanto l’autospazio relativo all’autovalore 0 è span(v1 ). Per gli operatori nilpotenti vale il II teorema di riduzione, di cui omettiamo la dimostrazione. Teorema (II Teorema di riduzione) Sia G un operatore nilpotente sullo spazio vettoriale V . Esistono sottospazi G-invarianti W1 , . . . , Wk tali che V = W1 ⊕ . . . ⊕ Wk e la restrizione, G|Wi , di G a ogni sottospazio Wi , è un operatore ciclico. Applicando il II teorema di riduzione all’operatore (T − λId)|R(T,λ) : R(T, λ) → R(T, λ) e, ricordando che un sottospazio (T − λId)-invariante è anche T -invariante, abbiamo che R(T, λ) = W1 ⊕ . . . ⊕ Wk , (10) dove i sottospazi Wi sono T -invarianti e gli operatori (T − λId)|Wi sono ciclici. Chiamiamo sottospazio di Jordan relativo all’autovalore λ dell’operatore T, un sottospazio W ⊆ V per cui (T − λId)|W è ciclico, e base di Jordan una base di W ciclica per (T − λId)|W . Sia V = {v1 , . . . , vr } una base di Jordan di W . Poiché la matrice associata a (T − λId)|W è 0 1 0 0 ... 0 0 0 1 0 ... 0 0 0 0 1 ... 0 Jr = . . . (11) .. , .. .. .. .. . . 0 0 0 0 ... 1 0 0 0 0 ... 0 22 la matrice associata a T |W rispetto a λ 1 0 λ .. .. . . Jr (λ) = . . .. .. 0 0 0 0 V è 0 1 .. . ... ... .. . 0 0 .. .. . ... ... 0 0 0 0 .. . .. . 1 λ . λ 0 . (12) La matrice Jr (λ) si chiama blocco di Jordan di ordine r relativo a λ o λ-blocco di Jordan di ordine r. Sia Vi = {vi1 , . . . , vir(i) } una base di Jordan di Wi ; dalla (10) segue che ∪ki=1 Vi è una base di R(T, λ) e rispetto a questa base l’operatore T |R(T,λ) è rappresentato da una matrice avente sulla diagonale k blocchi di Jordan. Essa ha la forma r(1) z λ r(2) }| 1 0 .. . λ 0 0 0 0 .. .. . . ... ... { z 0 0 0 .. . 0 .. . λ 0 1 λ 0 λ r(k) }| 1 0 .. . λ 0 0 0 0 .. .. . . ... ... { 0 0 0 .. . λ 0 0 .. . 1 λ z 0 .. . .. . .. . 0 λ }| 1 0 .. . λ 0 0 0 0 .. .. . . ... ... { 0 0 0 .. . 0 .. . λ 0 1 λ ; dove i singoli blocchi di Jordan hanno ordine uguale alla dimensione dei Wi ; nel caso che un blocco abbia dimesione 1 allora è formato dal solo autovalore. Come si vede, si tratta di una matrice con tutti zeri eccetto che sulla diagonale dove troviamo l’autovalore λ e sulla prima parallela destra della diagonale dove troviamo una sequenza di 1 e 0, che servono a individuare i blocchi di Jordan. 23 2.4 Forma canonica di Jordan Combiniamo il I e il II teorema di riduzione. Per ognuno dei sottospazi delle radici esiste una decomposizione in sottospazi di Jordan, quindi V è somma diretta di sottospazi di Jordan, che ricordo sono T -invarianti. Prendendo una base di Jordan per per ciascuno dei sottospazi di Jordan e facendone l’unione, ottengo una base W di V, rispetto la quale la matrice associata a T ha lungo la diagonale blocchi di Jordan relativi ai vari autovalori di T . Supponiamo che sia si il numero dei (λi )-blocchi di Jordan che trovo sulla diagonale; la matrice associata a T rispetto W può essere schematizzata nella seguente nella matrice a bloccchi, dove i blocchi non rappresentati sono tutti nulli e dove l’indice che numera i blocchi di Jordan è indicato fra parentesi per non confonderlo con l’indice che mostra (quando è scritto) l’ordine del blocco di Jordan. J(1) (λ1 ) .. . J(s1 ) (λ1 ) .. . . (13) MWW (T ) = . .. J(1) (λk ) .. . J(sk ) (λk ) Definizione 2.7 Una matrice che è nulla, salvo avere lungo la diagonale blocchi di Jordan si dice una forma canonica di Jordan. Da quanto sopra detto abbiamo Proposizione 2.10 Per ogni operatore T su uno spazio vettoriale complesso di dimensione finita esiste una base rispetto la quale la matrice associata è una forma canonica di Jordan Poiché ogni matrice complessa definisce un operatore su Cn , vi è un equivalente della proposizione precedente in terminni di matrici. Proposizione 2.11 Ogni matrice quadrata complessa è simile in C a una forma canonica di Jordan. Si osservi che i sottospazi delle radici sono univocamente determinati dall’operatore T ; non cosı̀ i sottospazi di Jordan. Se consideriamo ad esempio l’operatore nullo su V , questo ha un solo autovalore, lo zero, a cui corrisponde come sottospazio delle radici lo stesso spazio V . Ogni sottospazio di dimensione 1 è un sottospazio di Jordan, ed esistono infinite decomposizioni di V in somma diretta di sottospazi di Jordan. 24 Sono invece univocamente determinati da T sia il loro numero sia le loro dimensioni16 e la prova di questa affermazione seguirà dall’algoritmo che serve a calcolare la forma canonica di Jordan dell’operatore T . Cominciamo col calcolare il rango delle potenze di (Jr (λ) − λIr ). Da (11) e (12) abbiamo che Jr (λ) − λIr = Jr e quindi rk(Jr (λ) − λIr ) = r − 1. 0 0 .. . J2r = 0 0 0 0 0 .. . 1 0 .. . 0 0 0 0 0 0 0 ... 0 1 ... 0 .. .. . . 0 ... 1 0 ... 0 0 ... 0 dunque rk(Jr (λ) − λIr )2 = r − 2. Ogni volta che si alza di uno l’esponente di Jr , la diagonale di uni si sposta di un posto verso destra e verso l’alto cosicché il rango scende di uno. Pertanto r − h se h ≤ r h rk(Jr (λ) − λIr ) = (14) 0 se h ≥ r che ha senso anche per h = 0, se conveniamo che, per ogni matrice quadrata non nulla A, A0 = I. Se µ 6= λ, qualunque sia k, rk(Jr (µ) − λIr )k = r. Valutiamo ora come varia il rango di (T − λId)h al crescere di h. Sia W una base rspetto la quale la matrice associata a T sia in forma canonica di Jordan; con le notazioni della (13) abbiamo rk(T − λId)h = rk((MWW (T ) − λIn )h = si k X X rk(J(j) (λi ) − λIr(i,j) )h , i=1 j=1 dove r(i, j) è l’ordine di J(j) (λi ). Se λi 6= λ, il rango di (J(j) (λi ) − λI)h non varia al crescere di h, mentre, per la (14), se λi = λ, al crescere di 1 dell’esponente h, il rango di (J(j) (λi ) − λI)h diminuisce di 1, purché (J(j) (λi ) − λI)h non sia già diventata la matrice nulla, nel qual caso il rango non può ulteriormente diminuire al crescere di h. Pertanto rk(T − λId)h−1 − rk(T − λId)h 16 questo giustifica la parola canonica che si dà alla forma di Jordan 25 (15) rappresenta il numero dei λ-blocchi di Jordan con ordine maggiore o uguale a h. Ne segue la seguente Proposizione 2.12 Sia ρ(T, λ, h) il numero del λ-blocchi di Jordan di ordine h, che si trovano in una forma canonica di Jordan associata all’operatore T . Vale ρ(T, λ, h) = rk(T − λId)h−1 − 2rk(T − λId)h + rk(T − λId)h+1 (16) Dim. Dalla (15) segue subito ρ(T, λ, h) = (rk(T − λId)h−1 − rk(T − λId)h ) − (rk(T − λId)h − rk(T − λId)h+1 ) da cui la tesi. La formula (16) permette di calcolare ρ(T, λ, h) direttamente da T , senza dover determinare una base rispetto la quale la matrice associata a T sia una forma canonica di Jordan, quindi i numeri ρ(T, λ, h) non dipendono dalla base usata per rappresentare T in forma canonica di Jordan. Da ciò ne deriva Teorema(della riduzione a forma canonica di Jordan) Sia T un operatore sullo spazio vettoriale complesso di dimensione finita V . Esiste una base W rispetto la quale la matrice associata a T è una forma canonica di Jordan, la quale è univocamente determinata da T , salvo l’ordine con cui compaiono i blocchi di Jordan sulla diagonale di MWW (T ). Gli invarianti ρ(T, λ, h) servono anche a classificare le matrici quadrate complesse rispetto la relazione di similitudine. Sia A ∈ Mnn (C) e sia TA : Cn → Cn l’operatore che associa Ax a x. Indichiamo con ρ(A, λ, h) := ρ(TA , λ, h) Abbiamo che Proposizione 2.13 Due matrici A, B ∈ Mnn (C) sono simili se e solo se 1. hanno gli stessi autovalori 2. ρ(A, λ, h) = ρ(B, λ, h), per ogni autovalore λ e per ogni naturale h minore o uguale della moltepliciyà algebrica di λ. Dim. Due matrici simili rappresentano lo stesso operatore rispetto basi diverse quindi hanno gli stessi autovalori e gli stessi ρ(−, λ, h); viceversa se, A e B hanno gli stessi autovalori e ρ(A, λ, h) = ρ(B, λ, h), per ogni λ e per ogni h, allora sono simili alla stessa forma canonica di Jordan, quindi simili fra loro. 26 Similmente, gli invarianti ρ(T, λ, h) sono sufficienti a classificare anche gli operatori nel senso che che due operatori T e T 0 hanno le stesse ”proprietà algebriche”17 se e solo se hanno gli stessi autovalori e uguali gli invarianti ρ(T, λ, h), ρ(T 0 , λ, h). Un ulteriore osservazione è che la decomposizione di V in somma diretta di sottospazi T -invarianti, data dalla riduzione a forma canonica di Jordan, non è ulteriormente migliorabile nel senso che non esiste un’altra decomposizoione di V in un maggior numero di sottospazi T -invarianti, perché altrimenti la restrizione di T a ciascuno di questi sottospazi sarebbe, a sua volta, riducibile a forma canonica di Jordan e complessivamente ritroverei due decomposizioni di T a forma canonica di Jordan con diversi valori per ρ(T, λ, h), contro l’unicità. Che dire infine della classificazione delle matrici quadrate reali a meno di similitudine? La teoria della riduzione a forma canonica di Jordan risolve anche questo problema. Vale infatti Proposizione 2.14 Due matrici quadrate reali A, B ∈ M nn (R) sono simili se e solo se sono simili come matrici complesse. Cioè ∃M ∈ GLn (R), A = M −1 BM ⇐⇒ ∃C ∈ GLn (C), A = C −1 BC. Dim. L’implicazione =⇒ è banale. Viceversa. Sia C ∈ Mnn (C) tale A = C −1 BC. Segue CA = BC da cui, coniugando e tenendo presente che che A e B sono reali C̄A = B C̄, e quindi Re(C)A = BC + B C̄ CA + C̄A = = BRe(C) 2 2 CA + C̄A BC + B C̄ = = BIm(C). 2i 2i Non possiamo concludere che A e B sono simili come matrici reali perché, pur essendo Re(C) e Im(C) matrici reali, non sappiamo se sono invertibili. Poiché anche ogni combinazione lineare aReC + bImC è tale che Im(C)A = (aReC + bImC)A = B(aReC + bImC), dobbiamo chiederci se esistono a, b ∈ R tali che (aReC + bImC) è invertibile. Scegliamo a = 1 e osserviamo che det(ReC + bImC) 17 vedi nota (11) 27 è un polinomio in b, a coefficienti reali, non identicamente nullo, in quanto calcolato sul numero complesso i assume il valore det C 6= 0. Esiste dunque almeno un numero reale b̃ (ne esistono infiniti) tale che det(ReC + b̃ImC) 6= 0. Sia M = (ReC + b̃ImC), ho M ∈ GLn (R) e A = M −1 BM . Interpretando il risultato precedente in termini di operatori, abbiamo che lo spettro e gli invarianti ρ(TC , λ, h) sono sufficienti a classificare anche gli operatori su uno spazio vettoriale reale, nel senso che due operatori T e T 0 sullo spazio vettoriale reale V hanno le stesse ”proprietà algebriche”18 se e solo se hanno lo stesso spettro e i loro complessificati hanno gli invarianti ρ(TC , λ, h) e ρ(TC0 , λ, h) uguali. 2.5 Un esempio di calcolo della forma canonica di Jordan Sia T l’operatore che T : C4 x dove −→ 7−→ C4 Ax 0 0 1 0 0 −λ 1 0 0 1 −λ 0 1 0 1 1 1 0 A= 0 0 PT (λ) = det 1−λ 0 0 0 0 1 0 0 1 0 = (1 − λ)3 (1 + λ). 1 1−λ Ho due autovalori λ1 = 1 di molteplicità algebrica 3 e λ2 = −1 di molteplicità algebrica 1. Da ciò segue che necessariamente ρ(T, λ2 , 1) = 1 e non serve calcolare altro per l’autovalore λ2 . Calcoliamo ora ρ(T, λ1 , 1), ρ(T, λ1 , 2) e ρ(T, λ1 , 3). Determiniamo 0 0 0 1 0 −1 1 0 rk(T − λ1 I4 ) = rk 0 1 −1 1 = 2 0 0 0 0 0 0 0 0 0 2 −2 0 rk(T − λ1 I4 )2 = rk 0 −2 −2 0 = 1 0 0 0 0 18 vedi nota (11) 28 rk(T − λ1 I4 )3 = 1. Per l’ultimo rango non è necessario fare calcoli, perché 3 è la molteplicità algebrica di λ1 e dunque rk(T − λ1 I4 )3 = dim(C4 ) − 3 = 1. E’ anche inutile calcolare rk(T − λ1 I4 )4 , perche all’aumentare l’esponente oltre la molteplicità algebrica il rango non scende più. Dalla (16) abbiamo ρ(T, λ1 , 1) = 4 − 2 · 2 + 1 = 1 ρ(T, λ1 , 2) = 2 − 2 · 1 + 1 = 1 ρ(T, λ1 , 3) = 1 − 2 · 1 + 1 = 0 Esiste una base W per cui la matrice associata a T rispetto a W è 1 1 0 0 0 1 0 0 MWW (T ) = 0 0 1 0 . 0 0 0 −1 3 Forme bilineari e forme sesquilineari 3.1 Definizioni Sia V uno spazio vettoriale su K . Definizione 3.1 Un’applicazione B : V × V → K si dice bilineare se 1. B(v + w, z) = B(v, z) + B(w, z) 2. B(kv, w) = kB(v, w) 3. B(v, w + z) = B(v, w) + B(v, z) 4. B(v, kw) = kB(v, w) La forma si dice inoltre simmetrica se B(v, w) = B(w, v) e antisimmetrica ( o alternante) se B(v, w) = −B(w, v). Sia V uno spazio vettoriale su C . Definizione 3.2 Un’applicazione H : V × V → C si dice sesquilineare se 1. H(v + w, z) = H(v, z) + H(w, z) 2. H(kv, w) = kH(v, w) 3. H(v, w + z) = H(v, w) + H(v, z) 4. H(v, kw) = k̄H(v, w) La forma si dice inoltre hermitiana se H(v, w) = H(w, v) e antihermitiana se H(v, w) = −H(w, v) 29 Le proprietà 1 e 2 segnalano che B (H) è lineare nella prima variabile, le proprietà 3 e 4 segnalano che B è lineare (H antilineare) nella seconda variabile. Proposizione 3.1 Ogni forma bilineare (sesquilineare) è somma di una forma simmetrica e una antisimmetrica (hermitiana e antihermitiana). Dim. B(v, w) + B(w, v) B(v, w) − B(w, v) + 2 2 Il primo addendo è una forma bilineare simmetrica, S(B), il secondo è una forma bilineare antisimmtrica, A(B). B(v, w) = H(v, w) = H(v, w) + H(w, v) H(v, w) − H(w, v) + 2 2 Il primo addendo è una forma hermitiana il secondo è una forma antihermitiana. A ogni forma bilineare B(v, w) si può associare una forma quadratica Q : V → K, definnita da Q(v) = B(v, v). Per ogni forma quadratica vale Q(kv) = k 2 Q(v) Q(v + w) = Q(v) + Q(w) + B(v, w) + B(w, v). Se la forma è simmetrica allora B(v, w) = Q(v + w) − Q(v) − Q(w) . 2 (17) Molte forme bilineare definiscono la stessa forma quadratica ma fra di loro ve ne è una sola simmetrica; infatti B e S(B) generano la stessa forma quadratica, il che garantisce che nell’insieme delle forme bilineari che generano la stessa forma quadratica ve ne è una simmetrica, e d’altra parte per la (17) questa è univocamente determinata da Q. In modo analogo a quanto visto sopra, a una forma sesquilineare H(v, w) si associa la forma H-quadratica QH : V → C, definita da QH (v) = H(v, v). Per ogni forma H-quadratica vale 2 QH (kv) = |k| QH (v) QH (v + w) = QH (v) + QH (w) + H(v, w) + H(w, v), 30 da cui se la forma H è hermitiana si ha H(v, w) = ReH(v, w) + iImH(v, w) = QH (v + w) − QH (v) − QH (w) QH (v + iw) − QH (v) − QH (w) +i . 2 2 Anche per le forme hermitiane, che vi è, quindi, corrispondenza biunivoca con le forme H-quadratiche associate. Infine osserviamo che la forma H-quadratica associata a una forma hermitiana è reale, nel senso che assume solo valori reali, infatti h(v, v) = h(v, v) ∈ R. Analogamente la forma H-quadratica associata a una forma antihermitiana è immagiinaria pura. Esempio 3.1 Sia A ∈ Mnn (K) l’applicazione B : Kn × Kn (x, y) → K 7 → xt Ay è una forma bilineare in Kn . La forma B è simmetrica se e solo se A è simmetrica. Definizione 3.3 Una matrice A ∈ Mnn (C) si dice hermitiana se A = Āt . Esempio 3.2 Sia A ∈ Mnn (C), l’applicazione H : C n × Cn (x, y) → C 7→ xt Aȳ è una forma sesquilineare in Cn . La forma H è hermitiana se e solo se A è hermitiana. 3.2 Matrici associate a forme bilineari e sesquilineari Sia B : V × V → K una forma bilineare e sia H : V × V → C una forma sesquilineare; si intende che nel primo caso V è uno spazio vettoriale su K , nel secondo uno spazio vettoriale su C . Sia V = {v1 , . . . , vn } una base di V . Definiamo MV (H) := (H(vi , vj ))1 ≤ i ≤ n . MV (B) := (B(vi , vj ))1 ≤ i ≤ n 1 ≤ j ≤ n 1 ≤ j ≤ n Siamo in grado, adesso,Pdi rappresentarePin coordinate la forma bilineare n n (sesquilineare). Siano v = i=1 xi vi e w = j=1 yj vj , n n X X B(v, w) = B xi vi , yj vj = i=1 31 j=1 n X xi yj B(vi , vj ) = i,j=1 n X xi yj MV (B)ij = xt MV (B)y. i,j=1 t dove x = (x1 , . . . , xn ) e y = (y1 , . . . , yn )t . Similmente n n X X H(v, w) = H xi vi , yj vj = i=1 n X xi ȳj H(vi , vj ) = i,j=1 n X j=1 xi ȳj MV (H)ij = xt MV (H)ȳ. i,j=1 La matrice associata a una forma bilineare (sesquilineare) dipende dalla base. Vediamo le relazioni che sussistono fra due matrici associate alla stessa forma rispetto due basi diverse. Sia V 0 = {v10 , . . . ,P vn0 } un’altra base P di V . Nella nuova n n base i vettori v, w si rappresentano v = i=1 x0i vi0 e w = j=1 yj0 vj0 . Dalle formule di cambiamento di coordinate abbiamo x = MVV 0 (id)x0 y = MVV 0 (id)y0 Da cui B(v, w) = xt MV (B)y = (MVV 0 (id)x0 )t MV (B)MVV 0 (id)y0 = t 0 x0t MVV 0 (id)MV (B)MVV 0 (id)y d’altra parte B(v, w) = x0t MV 0 (B)y0 pertanto t 0 x0t MV 0 (B)y0 = x0t MVV 0 (id)MV (B)MVV 0 (id)y che, valendo per ogni x0 e y0 , implica t MV 0 (B) = MVV 0 (id)MV (B)MVV 0 (id). Analogamente, nel caso sesquilineare, otteniamo t MV 0 (H) = MVV 0 (id)MV (H)MVV 0 (id). Definizione 3.4 Due matrici A, B ∈ Mnn (K) si dicono congruenti se esiste una matrice M ∈ GLn (K) tale che A = M t BM. Definizione 3.5 Due matrici A, B ∈ Mnn (C) si dicono H-congruenti se esiste una matrice M ∈ GLn (C) tale che A = M t B M̄ . 32 Le relazioni di congruenza e H-congruenza sono di equivalenza. Verifica per esercizio. Abbiamo dunque provato che Proposizione 3.2 Le matrici associate alla stessa forma bilineare (sesquilineare) rispetto a due basi diverse sono congruenti (H-congruenti). La definizione 3.5 è spesso presentata con la condizione A = M̄ t BM , che è del tutto equivalente, perché se M soddisfa condizione della 3.5, allora M̄ soddisfa la variante su esposta. Proposizione 3.3 Il rango della matrice associata a una forma bilineare (sesquilineare) non dipende dalla base scelta. Dim. Moltiplicando una matrice per una matrice invertibile non si altera il rango e del resto il rango non viene alterato dalle operazioni di trasposizione e di coniugio di una matrice. Proposizione 3.4 Il determinante di una matrice associata a una forma hermitiana è reale. Dim. La matrice associata a una forma hermitiana è una matrice hermitiana, cioè A = Āt . Da cui det(A) = det(Āt ) = det(At ) = det(A). Definizione 3.6 Se il rango di una forma bilineare (o sesquilineare) è minore della dimesione di V allora la forma si dice degenere. Proposizione 3.5 Una forma bilineare B è non degenere se e solo se ∀v 6= 0 ∃w B(v, w) 6= 0 ∀w 6= 0 ∃v B(v, w) 6= 0 (18) o Stessa cosa per una forma sesquilineare. Dim. La forma B in coordinate, rispetto a una base V, si rappresenta xt Ay, dove x e y sono vettori colonna che rappresentano le coordinate di v e w ed A = MV (B). B è non degenere se e solo se det(A) 6= 0. • B non degenere ⇒ (18) x 6= 0 implica rk(xt ) = 1 e poiché il prodotto per una matrice invertibile non altera il rango rk(xt A) = 1; quindi (xt A) non è il vettore riga nullo e avrà una sua componente diversa da zero. Sia per semplicità la prima allora il vettore y che ha la prima componente uguale a 1 e tutte le altre nulle è tale che xtAy 6= 0 33 • (18) ⇒ B non degenere Se per ogni x 6= 0, esiste y tale che xt Ay 6= 0 allora, per ogni x 6= 0, rk(xt A) = 1 ed trasponendo per ogni x 6= 0, rk(At x) = 1 . Il che significa che il sistema At x = 0 ha solo la soluzione banale e questo è possibile se e solo se det(A) 6= 0. 3.3 Forme bilineari simmetriche e forme hermitiane Le definizione che seguono vengono enunciate per una forma bilineare simmetrica, ma valgono, sostituendo H a B, anche per una forma hermitiana. La scelta di una forma bilineare simmetrica B (hermitiana H) permette di introdurre la nozione di perpendicolarità nello spazio vettoriale V . Definizione 3.7 Siano v, w ∈ V . v si dice ortogonale a w (si scrive v ⊥ w), se B(v, w) = 0. Definizione 3.8 Sia S ⊂ V un sottoinsieme. Si definisce S ⊥ := {v ∈ V |B(v, w) = 0, ∀w ∈ S}. Definizione 3.9 Siano U, W, ⊂ V sottospazi. Si dice che U è perpendicolare a W ( U ⊥ W ) se U ⊂ W ⊥ . É immediato verificare che U ⊥ W ⇔ W ⊥ U . Il vettore nullo è ortogonale a ogni vettore dello spazio e se la forma è non degenere esso è l’unico vettore ortogonale a tutti i vettori di V . Definizione 3.10 Un vettore v ∈ V si dice isotropo se B(v, v) = 0. Il vettore nullo è un vettore isotropo e se la forma è degenere ci sono molti vettori isotropi, ma anche nel caso di forme bilineari non degeneri possono esistere vettori isotropi. Per esempio, per B : C×C (x, y) il vettore 1 i è isotropo. Ed anche per B : R×R (x, y) il vettore 1 0 → C 7 → xt y → R 0 1 7→ x y 1 0 t è isotropo. 34 Definizione 3.11 Sia v non isotropo. Si definisce il coeffiiciente di Fourier di w rispetto v, lo scalare B(w, v) av (w) := B(v, v) Si ha B(v, w − av (w)v) = B(v, w) − B(w, v) B(v, v) = 0 B(v, v) Da cui w − av (w)v ∈ v⊥ . Poiché w = av (w)v + (w − av (w)v), possiamo concludere che, se v è un vettore non isotropo, V = span{v} ⊕ v⊥ . (19) Definizione 3.12 Una base {v1 , . . . , vn } si dice ortogonale se B(vi , vj ) = 0 ogni qual volta i 6= j. Ne segue che la matrice associata a una forma bilineare (hermitiana) rispetto una base ortogonale è diagonale. Prima di provare che esistono basi ortogonali, dimostriamo il seguente Lemma Ogni forma bilineare B (hermitiana H) non nulla ha almeno un vettore non isotropo. Dim. Sia V = {v1 , . . . , vn } una base di V . E supponiamo che per ogni vi si abbia B(vi , vi ) = 0. Siccome la forma non è identicamente nulla, la matrice associata MV (B) 6= 0, e quindi esistono vi e vj tali che B(vi , vj ) 6= 0. Ne segue, nel caso della forma bilineare simmetrica, che B(vi + vj , vi + vj ) = B(vi , vi ) + B(vj , vj ) + 2B(vi , vj ) = 2B(vi , vj ) 6= 0 e vi + vj non isotropo. Nel caso della forma hermitiana, da H(vi , vj ) 6= 0 segue che o ReH(vi , vj ) 6= 0 o ImH(vi , vj ) 6= 0. Se ReH(vi , vj ) 6= 0 allora H(vi +vj , vi +vj ) = H(vi , vi )+H(vj , vj )+H(vi , vj )+H(vi , vj ) = 2ReH(vi , vj ) 6= 0. Se ImH(vi , vj ) 6= 0 allora H(vi + ivj , vi + ivj ) = H(vi , vi ) + H(vj , vj ) − iH(vi , vj ) + iH(vi , vj ) = 2ImH(vi , vj ) 6= 0. In ogni caso esiste un vettore non isotropo. Proposizione 3.6 Sia B (H) una forma bilineare simmetrica (hermitiana). Esiste una base ortogonale. Dim. La dimostrazione per induzione non presenta differenze fra il caso simmetrico da quello hermitiano. 35 Se B è la forma nulla allora ogni base è ortogonale. Se B non è identicamente nulla, procediamo per induzione sulla dimensione di V . Se dim V = 1 la proposizione è banale. Assumiamo l’esistenza di una base ortogonale per ogni spazio vettoriale V di dimensione n − 1. Sia v1 un vettore non isotropo. Per la (19) V = span{v1 } ⊕ v1⊥ . ovviamente B|v1⊥ è ancora bilineare simmetrica. Sia {v2 , . . . , vn } una base ortogonale di v1⊥ ; essa esiste perché dim(v1⊥ ) = n − 1. È facile verificare che {v1 , v2 , . . . , vn } è una base ortogonnale di V . Il teorema precedente mostra che per una forma bilineare o hermitiana, esiste sempre una base rispetto la quale la matrice associata è diagonale. Ci domandiamo se non sia possibile migliorare ulteriormente il risultato. Trattiamo prima il caso di una forma B bilineare simmetrica sul campo C. Proposizione 3.7 Sia B una forma bilineare simmetrica su uno spazio vettoriale complesso V di rango r. Esiste una base V, tale che Ir 0 MV (B) = 0 0 Dim. Per la proposizione (3.6) sia V 0 = {v10 , . . . , vn0 } una base tale che la matrice associata MV (B) sia diagonale. Poiché il rango è r, salvo un cambiamento dell’ordine dei vettori della base, posso supporre che i primi r elementi della diagonale a11 , . . . , arr siano non nulli, mentre tutti gli altri sono 0. Abbiamo dunque che B(v10 , v10 ) = a11 , . . . , B(vr0 , vr0 ) = arr , 0 0 B(vr+1 , vr+1 ) = 0, . . . , B(vn0 , vn0 ) = 0, B(vi0 , vj0 ) = 0 per i 6= j Se poniamo vi = √1 v0 aii i vi0 1≤i≤r r+1≤i≤n √ dove aii è una delle due radici quadrate di aii , abbiamo che V = {v1 , . . . , vn } è una base, perché ottenuta da V 0 tramite una matrice invertibile, e che MV (B) è diagonale con B(v1 , v1 ) = 1, . . . , B(vr , vr ) = 1, B(vr+1 , vr+1 ) = 0, . . . , B(vn , vn ) = 0. 36 Poiché sappiamo che il rango è un invariante delle forme bilineari simmetriche e hermitiane, possiamo concludere che due matrici simmetriche complesse sono congruenti ( e quindi rappresentano la stessa forma bilineare rispetto basi diverse) se e solo se hanno lo stesso rango. Nel caso di una forma bilineare simmetrica reale, non possiamo arrivare allo stesso risultato perché non sempre esiste la radice quadrata di un numero reale. Abbiamo comunque l’importante Proposizione 3.8 (Teorema di Sylvester) Sia B una forma bilineare simmetrica su uno spazio vettoriale reale V di rango r. Esistono numeri interi p, q, con p + q = r, e una base V, tale che Ip 0 0 MV (B) = 0 −Iq 0 0 0 0 Inoltre i numeri p, q, non dipendono dalla base, ma solo dalla forma. Dim. Anche questa volta dalla proposizione (3.6), e salvo un riordinamento dell’ordine dei vettori, sappiamo che esiste una base V 0 = {v10 , . . . , vn0 } tale che la matrice associata MV (B) è diagonale, i suoi primi p termini, a11 , . . . , app , sono positivi, i secondi q termini, ap+1 p+1 , . . . , arr , sono negativi e i restanti nulli. Abbiamo dunque che B(v10 , v10 ) = a11 , . . . , B(vr0 , vr0 ) = arr , 0 0 B(vr+1 , vr+1 ) = 0, . . . , B(vn0 , vn0 ) = 0, B(vi0 , vj0 ) = 0 per i 6= j. Se poniamo vi = √1 v0 aii i √ 1 v0 −aii i 0 vi 1≤i≤p p+1≤i≤r r+1≤i≤n abbiamo che V = {v1 , . . . , vn } è una base, perché ottenuta da V 0 tramite una matrice invertibile, e che MV (B) è diagonale con B(v1 , v1 ) = 1, . . . , B(vp , vp ) = 1 B(vp+1 , vp+1 ) = −1, . . . , B(vr , vr ) = −1 B(vr+1 , vr+1 ) = 0, . . . , B(vn , vn ) = 0. Resta da provare che p, q non dipendono dalla base. Sia pertanto V 00 = {v100 , . . . , vn00 } un’altra base tale che B(v100 , v100 ) = 1, . . . , B(vt00 , vt00 ) = 1 00 00 B(vt+1 , vt+1 ) = −1, . . . , B(vr00 , vr00 ) = −1 00 00 B(vr+1 , vr+1 ) = 0, . . . , B(vn00 , vn00 ) = 0 37 00 con p 6= t e supponiamo che t < p. Sia U = span{v1 , . . . vp } e W = span{vt+1 , . . . vn00 }. Dal teorema di Grassmann abbiamo dim U + dim W = dim(U ∩ W ) + dim(U + W ) p + (n − t) = dim(U ∩ W ) + dim(U + W ) ≤ dim(U ∩ W ) + n 1 ≤ p − t ≤ dim(U ∩ W ). Per cui esiste un vettore non nullo v ∈ U ∩ W . Poiché v ∈ U , v = a1 v1 + . . . + ap vp , con a1 , . . . , ap non tutti nulli; e poiché v ∈ W , 00 v = bt+1 vt+1 + . . . + bn vn00 . Dalla prima abbiamo B(v, v) = a21 B(v1 , v1 ) + . . . + a2p B(vp , vp ) = a21 + . . . + a2p > 0 Mentre dalla seconda B(v, v) = b2t+1 B(vt+1 , vt+1 ) + . . . + b2p B(vn , vn ) = −a21 − . . . − a2r ≤ 0. questo è assurdo e l’assurdo nasce dall’aver supposto t ≤ p. Nel caso hermitiano abbiamo un teorema perfettamente analogo al teorema di Sylvester. Anche la dimostrazione è identica, perché gli elementi della diagonale di una matrice hermitiana sono tutti reali. Definizione 3.13 Si dice segnatura della forma bilineare simmetrica B (o della forma hermitiana H) la coppia (p, q), corrispondente al numero dei termini positivi e negativi che si trovano sulla diagonale di una matrice associata a B (H), rispetto una base ortogonale. La segnatura è dunque un invariante della forma bilineare simmetrica (o hermitiana) e classifica le matrici simmetriche reali (hermitiane) rispetto la relazione di congruenza (h-congruenza), nel senso che due matrici sono congruenti (H-congruenti) se e solo se hanno la stessa segnatura. Più spesso si parla di segnatura di una forma quadratica, riferendosi alla segnatura della forma bilineare simmetrica associata. Definizione 3.14 Una forma quadratica (hermitiana) di rango r su uno spazio vettoriale V di dimensione n prende il seguente nome a seconda della segnatura (n, 0) definita positiva (0, n) definita negativa (r, 0) con r < n semidefinita positiva (0, r) con r < n semidefinita negativa (p, q) con p > 0 e q > 0 indefinita La ragione dei nomi delle forme quadratiche è dovuta al fatto che una forma Q è definita positiva se e solo se Q(v) ≥ 0 e Q(v) = 0 ⇔ v = 0. 38 3.4 Prodotti scalari e prodotti hermitiani Definizione 3.15 Una forma bilineare simmetrica con forma quadratica associata definita positiva su uno spazio vettoriale reale V si dice un prodotto scalare. Definizione 3.16 Una forma hermitiana definita positiva su uno spazio vettoriale complesso V si dice un prodotto hermitano. Supporremo nel seguito sempre definito un prodotto scalare o un prodotto hermitiano, che indicheremo, per ricordarci che è definito positivo, con < v, w > . Definizione 3.17 Si dice modulo (o norma) di un vettore v il numero √ kvk := < v, v > Proposizione 3.9 (Disuguaglianza di Schwartz) | < v, w > | ≤ kvkkwk e vale l’uguaglianza se e solo se v e w sono linearmente dipendenti. Dim. Diamo la dimostrazione nel caso del prodotto hermitiano che presenta qualche maggiore difficoltà. Se w = 0 il teorema è banale. Siano a, b ∈ K, abbiamo 0 ≤ < av + bw, av + bw >= aākvk2 + bb̄kwk2 + 2Re(ab̄ < v, w >) (20) ponendo a = kwk2 e b = − < v, w > otteniamo 0 ≤ kwk4 kvk2 + | < v, w > |2 kwk2 + 2Re(−kwk2 | < v, w > |2 ) = kwk4 kvk2 − | < v, w > |2 kwk2 da cui, dividendo per kwk2 e passando alla radice quadrata, otteniamo la disuguaglianza. Infine se vale l’uguale ho che 0 =< kwk2 v− < v, w > w, kwk2 v− < v, w > w > da cui, essendo il prodotto definito positivo, segue che kwk2 v− < v, w > w è una combinazione lineare nulla non banale di v e w, quindi v e w sono linearmente dipendenti. Viceversa, se v e w sono uno un multiplo dell’altro, l’uguaglianza è di immediata verifica. Dalla disuguaglianza di Schwartz, tanto nel caso reale quanto in quello hermitiano, seguono le seguenti proprietà 39 1. kvk ≥ 0, kvk = 0 ⇐⇒ v = 0 2. kkvk = |k|kvk 3. kv + wk ≤ kvk + kwk La dimostrazione delle prime due è banale, la terza nel caso hermitiano segue da kv + wk2 = kvk2 + 2Re < v, w > +kwk2 ≤ kvk2 + 2| < v, w > | + kwk2 ≤ kvk2 + 2kvkkwk + kwk2 = (kvk + kwk)2 , e in maniera simile nel caso reale. Uno spazio vettoriale dove vi sia una funzione norma, kvk, che soddisfi le tre proprietà di cui sopra, si dice spazio normato. In uno spazio normato è possibile definire una funzione distanza d, tramite d(v, w) := kv − wk; in effetti d soddisfa le proprietà 1. d(v, w) ≥ 0 e d(v, w) = 0 ⇐⇒ v = w 2. d(v, w) = d(w, v) 3. d(v, w) ≤ d(v, z) + d(z, w). Pertanto, l’introduzione di un prodotto scalare o hermitiano in uno spazio vettoriale arricchisce la sua struttura facendolo diventare anche uno spazio metrico. 3.5 Operatori ortogonali e unitari Sia V uno spazio vettoriale di dimensione finita su C (su R) dove sia definita un prodotto hermitiano (un prodotto scalare) . Definizione 3.18 Un operatore T : V → V si dice unitario (ortogonale) se < T (v), T (w) >=< v, w > . Nelle proposizioni che seguono si faranno le dimostrazioni per il caso unitario, ottenedosi le dimostrazioni del caso ortogonale in maniera del tutto simile, il più delle volte , semplicemente omettendo il simbolo del coniugio. Definizione 3.19 Una matrice A ∈ Mnn (C) si dice unitaria se At Ā = I ( o equivalentemente AĀt = I) Proposizione 3.10 Un operatore unitario (ortogonale) gode delle seguenti proprietà 40 1. conserva il modulo di un vettore 2. conserva la distanza di due vettori 3. trasforma basi ortonormali in basi ortonormali 4. è invertibile 5. la matrice associata all’operatore, rispetto a una base ortonormale, è ortogonale se l’operatore è ortogonale e unitaria se l’operatore è unitario. Dim. Le proprietà 1), 2) e 3) sono immediata conseguenza della definizione. T è invertibile perché è iniettivo, infatti T (v) = 0 implica 0 =< T (v), T (v) >=< v, v > e questo implica v = 0. Infine proviamo l’ultima Pn proprietà. Sia V = {v1 , . . . , vn } una base ortonormale di V . Sia T (vi ) = k=1 aki vk , per cui la matrice associata a T , rispetto la base V, è MV (T ) = (aki ) 1 ≤ k ≤ n . 1 ≤ i ≤ n Abbiamo δij =< vi , vj >=< T (vi ), T (vj ) >= n n X X < aki vk , ahj vh >= k=1 n X k=1 aki h=1 n X āhj < vk , vh >= h=1 n X aki k=1 n X n X āhj δkh = h=1 aki ākj = n X atik ākj k=1 k=1 dove atik sono gli elementi della matrice trasposta (MV (T ))t ; pertanto (MV (T ))t (MV (T )) = I, cioè MV (T ) è una matrice unitaria. Proposizione 3.11 Se λ è autovalore di un operatore unitario T (ortogonale), allora |λ| = 1 (λ = ±1). 41 Dim. Sia v un autovettore relativo all’autovalore λ, abbiamo < v, v >=< T (v), T (v) >=< λv, λv >= λλ̄ < v, v >, da cui, essendo v 6= 0, segue la tesi. Proposizione 3.12 Autovettori relativi a autovalori distinti di un operatore unitario T (ortogonale) sono ortogonali fra loro Dim. Siano v e w due autovettori relativi agli autovalori λ e µ, con λ 6= µ. Abbiamo < v, w >=< T (v), T (w) >=< λv, µw >= λµ̄ < v, w > . Da cui, o λµ̄ = 1 o < v, w >= 0. Poiché, per la proposizione precedente, µµ̄ = 1, non può essere anche λµ̄ = 1, altrimenti λ = µ. Dunque < v, w >= 0. La seguente proposizione è vera per gli operatori unitari, ma non per gli operatori ortogonali. Proposizione 3.13 Sia T un operatore unitario. Esiste una base ortonormale che diagonalizza T . Dim. Dobbiamo determinare l’esistenza di una base ortonormale di autovettori. La dimostrazione è per induzione sulla dimensione di V . Se dim V = 0 , il fatto è banale. Supponiamo di averlo provato per gli spazi vettoriali di dimensione n − 1 e apprestiamoci a dimostrarlo per gli spazi vettoriali di dimensione n. Sia λ un autovalore di T ; esso esiste perché siamo sul campo C. Sia v1 un autovettore unitario, relativo a λ. Sia w ∈ v1⊥ , abbiamo 0 =< v1 , w >=< T (v1 ), T (w) >=< λv1 , T (w) >= λ < v1 , T (w) >= 0, da cui, essendo λ 6= 0, segue che < v1 , T (w) >= 0. Dunque T (v1⊥ ) ⊆ v1⊥ . Naturalmente T|v1⊥ : v1⊥ → v1⊥ è ancora unitario e opera su uno spazio di dimensione n − 1: Per l’ipotesi induttiva, esiste una base ortonormale di autovettori per T|v1⊥ , {v2 , . . . , vn }. Risulta dunque che {v1 , v2 , . . . , vn } è una base ortonormale di autovettori di T . 42 3.6 Operatori simmetrici, teorema spettrale Sia V uno spazio vettoriale di dimensione finita su R (su C) dove sia definito un prodotto scalare (prodotto hermitiano) . Definizione 3.20 Un operatore T : V → V si dice simmetrico (hermitiano) se < T (v), w >=< v, T (w) > Proposizione 3.14 La matrice associata a un operatore simmetrico (hermitiano), rispetto a una base ortogonale, è simmetrica (hermitiana). Dim. Dimostrazione per un operatore Pn hermitiano. Sia V = {v1 , . . . , vn } una base ortonormale di V . Sia T (vi ) = k=1 aki vk , per cui la matrice associata a T , rispetto la base V è MV (T ) = (aki ) 1 ≤ k ≤ n . 1 ≤ i ≤ n Abbiamo < T (vi ), vj >=< n X aki vk , vj >= k=1 n X aki < vk , vj >= k=1 n X aki δkj = aji , k=1 similmente < vi , T (vj ) >=< vi , n X akj vk >= k=1 n X ākj < vi , vk >= k=1 n X ākj δik = āij . k=1 Poiché < T (vi ), vj >=< vi , T (vj ) >, abbiamo che aji = āij , da cui MV (T ) = MV (T )t . Per un operatore simmetrico stessa prova senza il coniugio. Premettiamo il seguente lemma alla dimostrazione del teorema spettrale. Lemma Lo spettro di un operatore simmetrico (hermitiano) è totalmente reale; ovvero il polinomio caratteristico dell’operatore si decompone nel prodotto di n fattori lineari reali. Dim. Esprimiamo l’operatore in termini di coordinate rispetto una base ortonormale. Sia V = {v1 , . . . , vn } una base ortonormale di V e sia MV (T ) la matrice associata. Sia λ un autovalore complesso di MV (T ) e x un corrispondente autovettore19 di Cn . Abbiamo MV (T )x = λx, (21) e, coniugando ambo i membri, MV (T )x̄ = λ̄x̄. 19 nel caso T sia un operatore simmetrico, x rappresenta le componenti rispetto la base V, di unautovettore relativo a λ dell’operatore complessificato TC . 43 Utilizzando ora la condizione che, MV (T ) è reale simmetrica nel caso dell’operatore simmetrico, ovvero che MV (T ) è hermitiana nel caso di un operatore hermitiano, otteniamo in ogni caso MV (T )t x̄ = λ̄x̄, quindi, moltiplicando a sinistra per xt xt MV (T )t x̄ = xt λ̄x̄, da cui, utilizzando la (21) λ̄kxk2 = λ̄xt x̄ = xt MV (T )t x̄ = (MV (T )x)t x̄ = (λx)t x̄ = λkxk2 . Essendo x 6= 0, abbiamo λ = λ̄, cioè λ ∈ R. Pertanto ogni autovalore di MV (T ) complesso è reale e dunque il polinomio caratteristico di MV (T ), che è uguale al polinomio caratteristico di T si decompone nel prodotto di fattori lineari. Siamo ora in grado di dimostrare il teorema più importante di questo capitolo. Proposizione 3.15 (Teorema spettrale — versione per gli operatori) Sia T un operatore simmetrico (o hermitiano). Esiste una base ortonormale che diagonalizza T . Dim. Dobbiamo determinare l’esistenza di una base ortonormale di autovettori. La dimostrazione è per induzione sulla dimensione di V . Se dim V = 0 , il fatto è banale. Supponiamo di averlo provato per gli spazi di dimensione n − 1 e apprestiamoci a dimostrarlo per gli spazi di dimensione n. Sia λ un autovalore di T ; esso esiste per il lemma. Sia v1 un suo autovettore unitario. Sia w ∈ v1⊥ , abbiamo < v1 , T (w) >=< T (v1 ), w >=< λv1 , w >= λ < v1 , w >= 0. Pertanto T (v1⊥ ) ⊆ v1⊥ . Naturalmente T|v1⊥ : v1⊥ → v1⊥ è ancora simmetrico (hermitiano) e opera su uno spazio di dimensione n − 1: Per l’ipotesi induttiva, esiste una base ortonormale di autovettori per T|v1⊥ , {v2 , . . . , vn }. Risulta dunque che {v1 , v2 , . . . , vn } è una base ortonormale di autovettori di T . Il teorema spettrale ammette anche diverse letture se lo si esprime in termini di matrici o in termini di forme bilineari. La versione per le matrici si ottiene considerando che ogni matrice simmetrica A (hermitiana) definisce un’operatore simmetrico (hermitiano) T : Rn → Rn (T : Cn → Cn ), che mappa x in Ax. Proposizione 3.16 (Teorema spettrale — versione per le matrici) Sia A una matrice simmetrica ( hermitiana). Esiste una matrice M ortogonale (unitaria) che diagonalizza A, cioè tale che M −1 AM è diagonale. 44 Se M è ortogonale e M −1 AM è diagonale, allora anche M t AM è diagonale, quindi la matrice simmetrica A non solo è simile ma è anche congruente a una matrice diagonale. Se M è hermitiana e M −1 AM è diagonale, abbiamo che M̄ t AM è diagonale, e ponendo N = M̄ , abbiamo che N t AN̄ è diagonale; quindi la matrice hermitiana A non solo è simile ma è anche H-congruente a una matrice diagonale. Come conseguenza della osservazione precedente otteniamo che se (p, q) è la segnatura di una matrice simmetrica (hermitiana), allora p rappresenta il numero degli autovalori positivi e q rappresenta il numero degli autovalori negativi, contati entrambi con la dovuta molteplicità. Dalla stessa osservazione segue anche la versione del teorema spettrale per le forme bilineari. Proposizione 3.17 (Teorema spettrale — versione per le forme bilineari) Sia B una forma bilinerare simmetrica (H una forma hermitiana). Esiste una base ortonormale che diagonalizza B (H). 4 Tensori Al solito sia V una spazio vettoriale su R o C (indicati genericamente da K ). In tutto il capitolo supponiamo che V ha dimensione n. 4.1 Spazio duale Definizione 4.1 Un’applicazione lineare da σ : V → K si chiama funzionale (lineare) o covettore. La somma di due funzionali e il prodotto di un funzionale per una costante sono definite da (σ1 + σ2 )(v) := σ1 (v) + σ2 (v) (kσ)(v) := k(σ(v)) Sono verifiche di routine controllare che la somma di due funzionali è un funzionale e che il prodotto di un funzionale per una costante è ancora un funzionale. L’insieme di tutti i funzionali è uno spazio vettoriale rispetto le operazioni di somma e prodotto per una costante, definite sopra (verifiche di routine). Come ogni applicazione lineare, un funzionale resta univocamente definito quando si assegnino i valori che assume sui vettori di una base. Definizione 4.2 Lo spazio vettoriale dei funzionali lineari su V si chiama spazio duale e si indica con V ∗ . Proposizione 4.1 Se V ha dimensione finita allora dim V ∗ = dim V . Dim. Sia {e1 , . . . , en } una base di V , sia η i per 1 ≤ i ≤ n il funzionale su V definito da η i (ej ) = δji . dove δji è la funzione ”delta di Kronecker”, che vale 1 se i = j e vale 0 se i 6= j. {η 1 , . . . , η n } è una base di V ∗ . Infatti 45 1. sono linearmente indipendenti, perché da n X ai η i = 0 i=1 segue che, applicando il funzionale a un qualunque vettore ej della base di V , da un lato n X ai η i (ej ) = 0(ej ) = 0 i=1 e dall’altro n X ai η i (ej ) = i=1 n X ai δji = aj . i=1 Da cui aj = 0 per ogni j. 2. generano tutto V ∗ , perché , per ogni funzionale σ ∈ V ∗ , si ha σ= n X (σ(ei ))η i , i=1 infatti per dimostrare l’uguaglianza dei due funzionali basta verificarla sui vettori di una base; cosı̀ facendo abbiamo per ogni ej n X (σ(ei ))η i (ej ) = i=1 n X (σ(ei ))δji = σ(ej ). i=1 Definizione 4.3 La base {η 1 , . . . , η n } di V ∗ si dice base duale della base {e1 , . . . , en } di V . Avendo V e V ∗ la stessa dimensione sono spazi vettoriali isomorfi, ma non vi è un modo canonico di associare un funzionale a un vettore 20 . Notiamo invece che è possibile definire un isomorfismo canonico fra V e lo spazio biduale (V ∗ )∗ . Definiamo Φ : V → (V ∗ )∗ v 7→ Φ(v) dove Φ(v) : V ∗ → K σ 7→ σ(v). 20 a meno che non si aumenti la struttura di V , introducendo un prodotto scalare, ma discuteremo di considerazioni di questo tipo 46 Lasciamo al lettore la verifica che Φ(v) è effettivamente un funzionale lineare su V ∗ e che la Φ cosı̀ definita è lineare; dimostriamo invece che Φ è iniettiva. Se Φ(v] = 0, allora per ogni σ ∈ V ∗ , Φ(v)(σ) = 0; cioè, per ogni σ ∈ V ∗ , σ(v) = 0 e questo è possibile solo se v = 0. Concludiamo che Φ è un isomorfismo perché V e (V ∗ )∗ hanno la stessa dimensione. Se identifichiamo v con Φ(v), osserviamo che ogni vettore si comporta come un funzionale sullo spazio dei funzionali, e proprio per questo motivo i funzionali si chiamano (nel caso della dimensione finita) anche covettori. Possiamo concludere che i covettori sono funzionali sullo spazio dei vettori, ma anche i vettori si comportano come funzionali sullo spazio dei covettori. 4.2 Convenzione di Einstein La convnzione di Einstein è una convenzione che semplifica la notazione. Essa prevede che: 1. i vettori di una base dello spazio vettoriale V , {e1 , . . . , en } si indiciano con indici in basso 2. i vettori della base duale {η 1 , . . . , η n } si indiciano con indici in alto 3. le coordinate di un vettore si indiciano con indici in alto 4. le coordinate di un covettore si indiciano con indici in basso 5. si ometta il simbolo di sommatoria, se questa si riferisce a un indice che si trova una volta un basso e una volta in alto 6. ogni qualvolta si incontri uno stesso indice in alto e in basso in una formula si intende che si deve effettuare una somma al variare di quell’indice fra 1 e la dimensione di V 7. si dispongono gli indici in alto o in basso in modo di evitare se possibile di dover fare una sommatoria, rispetto a un indice ripetuto due volte in basso (o in alto); se questa situazione dovesse essere inevitabile si mostra il simbolo di sommatoria 8. usualmente in una formula che contiene un’uguaglianza un indice non ripetuto in basso (in alto) a sinistra dell’uguale deve comparire non ripetuto in basso (in alto) anche a destra dell’uguale Per quanto dietro questa notazione non ci siano fatti particolarmente rilevanti da un punto di vista scientifico21 , noi ne faremo uso nelle pagine che seguono. Pertanto la decomposizione di un vettore v rispetto alla base E = {e1 , . . . , en } si scriverà v = xj ej (22) 21 alcuni fisici matematici non sono d’accordo con questa opinione 47 piuttosto che v= n X xj ej o v= j=1 n X xj ej j=1 Se E 0 = {e01 , . . . , e0n } è un’altra base avremo v = x0i e0i (23) e le relazioni che danno il cambiamento di base nella forma e0i = αij ej o ej = βji e0i (24) mentre quelle che danno il cambiamento di coordinate (che si ricavano sostituendo le (24) nelle (22) e (23)) sono xj = αij x0i o x0i = βji xj . (25) Per ricollegare queste formule al nostro modo di rappresentare le matrici cambiamento di base osserviamo che ME 0 E (id) = βji 1 ≤ i ≤ n 1 ≤ j ≤ n e MEE 0 (id) = αij 1 ≤ j ≤ n 1 ≤ i ≤ n infine il fatto che le due matrici sono una l’inversa dell’altra si rappresenta αji βkj = δki αji βik = δjk . 4.3 Definizione di tensore La nozione di tensore può essere introdotta in modi diversi. Possiamo qui fare un parallelo con la nozione di vettore (di cui comunque il tensore rappresenta una generalizzazione). Il vettore può essere introdotto come terna (n-pla) di numeri, come segmento orientato, come elemento di una spazio vettoriale. Similmente un tensore può essere introdotto come un pacchetto di numeri variamente indiciati, come un’applicazione multilineare, o come un elemento del prodotto tensoriale di spazi vettorali. Utilizzeremo qui l’approccio che descrivere il tensore come un’applicazione multilineare. Definizione 4.4 Siano V1 , . . . , Vr spazi vettoriali su K. Un’applicazione F : V1 × . . . × Vr → K si dice multilineare se è lineare in ciascuna delle variabili. Formalmente per ogni indice i, per ogni a, b ∈ K e per ogni v, w ∈ Vi F (v1 , . . . , vi−1 , av + bw, vi+1 , . . . , vr ) = aF (v1 , . . . , vi−1 , v, vi+1 , . . . , vr ) + bF (v1 , . . . , vi−1 , w, vi+1 , . . . , vr ) 48 Definizione 4.5 Si dice tensore sullo spazio vettoriale V di ordine covariante r e ordine controvariante s (o di tipo (r, s)) un’applicazione multilineare T : V ×, . . . , ×V × V ∗ ×, . . . , ×V ∗ → K | {z } | {z } r s Esempio 4.1 Ogni covettore σ ∈ V ∗ è un tensore covariante di ordine 1, essendo un funzionale lineare su V . Esempio 4.2 Avendo indentificato V con il suo biduale (V ∗ )∗ , anche ogni vettore v ∈ V è un tensore controvariante di ordine 1, essendo un funzionale su V ∗. Esempio 4.3 Ogni forma bilineare su V è un tensore covariante di ordine 2 Esempio 4.4 Il determinante, inteso come funzione delle colonne di una matrice n × n è un tensore covariante di ordine n sullo spazio vettoriale Rn . La somma di due tensori di tipo (r, s) e il prodotto di un tensore per uno scalare sono definiti in modo analogo a quanto fatto per i covettori Definizione 4.6 Siano T, R tensori di tipo (r, s) e k scalare. Definiamo (T +R)(v1 , . . . , vr , σ1 , . . . , σs ) := T (v1 , . . . , vr , σ1 , . . . , σs )+R(v1 , . . . , vr , σ1 , . . . , σs ) (kT )(v1 , . . . , vr , σ1 , . . . , σs ) := kT (v1 , . . . , vr , σ1 , . . . , σs ) L’insieme dei tensori di tipo (r, s) forma uno spazio vettoriale che indichiamo con Tsr (V ). 4.4 Il prodotto tensoriale Definiamo un prodotto fra tensori, che a un tensore T di tipo (r, s) e uno T 0 di tipo (r0 , s0 ), associa un tensore T ⊗ T 0 di tipo (r + r0 , s + s0 ). Definizione 4.7 T ⊗ T 0 : V ×, . . . , ×V × V ∗ ×, . . . , ×V ∗ → K {z } | {z } | r+r 0 s+s0 T ⊗ T 0 (v1 , . . . , vr , vr+1 , . . . , vr+r0 , σ1 , . . . , σs , σs+1 , . . . , σs+s0 ) := T (v1 , . . . , vr , σ1 , . . . , σs )T 0 (vr+1 , . . . , vr+r0 , σs+1 , . . . , σs+s0 ) Sono verifiche di routine controllare che T +T 0 è un tensore, cioè un’applicazione multilineare. Il prodotto tensoriale gode delle proprietà (T + T 0 ) ⊗ T 00 = T ⊗ T ” + T 0 ⊗ T ” 49 T ⊗ (T 0 + T 00 ) = T ⊗ T 0 + T ⊗ T ” k(T ⊗ T 0 ) = (kT ) ⊗ T 0 = T ⊗ (kT ”) pertanto 0 r+r ⊗ : Tsr × Tsr0 → Ts+s 0 0 è bilineare. Il prodotto tensoriale è anche associativo, cioè (T ⊗ T 0 ) ⊗ T ” = T ⊗ (T 0 ⊗ T ”) e pertanto possiamo omettere le parentesi e, per iterazione, definire il prodotto tensoriale di più tensori; in tal caso ⊗ si comporta come un’applicazione multilineare. Sia {e1 , . . . , en } una base di V , e {η 1 , . . . , η n } la base duale di V ∗ . Calcoliamo il tensore η i1 ⊗ η i2 ⊗ . . . ⊗ η ir su una qualunque r-pla di vettori della base di V, ej1 , ej2 , . . . , ejr . Abbiamo η i1 ⊗ η i2 ⊗ . . . ⊗ η ir (ej1 , ej2 , . . . , ejr ) = δji11 δji22 . . . δjirr , che vale sempre 0, eccetto il caso in cui gli indici i1 , . . . , ir sono rispettivamente uguali a j1 , . . . , jr , nel qual caso assume il valore 1. Proposizione 4.2 L’insieme dei tensori {η i1 ⊗. . .⊗η ir }, al variare di i1 , . . . , ir fra 1 e n forma una base dello spazio dei vettori covarianti di ordine r, T0r . Dim. La dimostrazione della lineare indipendenza si fa testando la generica combinazione lineare dei tensori del nostro insieme sulla generica r-pla dei vettori della base di V : ai1 ,...,ir {η i1 ⊗ . . . ⊗ η ir } = 0 implica che per ogni r-pla (ej1 , . . . , ejr ) ai1 ,...,ir {η i1 ⊗ . . . ⊗ η ir }(ej1 , . . . , ejr ) = 0(ej1 , . . . , ejr ) = 0, ma d’altra parte ai1 ,...,ir {η i1 ⊗ . . . ⊗ η ir }(ej1 , . . . , ejr ) = ai1 ,...,ir δji11 . . . δjirr = aj1 ,...,jr , quindi per ogni r-pla (j1 , . . . , jr ), aj1 ,...,jr = 0. Il fatto che {η i1 ⊗ . . . ⊗ η ir }, al variare di i1 , . . . , ir , generino tutto T0r segue dal fatto che se T è un tensore covariante di ordine r, vale la seguente T = T (ei1 , . . . , eir )η i1 ⊗ . . . ⊗ η ir , (26) la quale pure si dimostra testandola sulla generica r-pla dei vettori della base di V . Dettagli omessi 50 In modo det tutto analogo, ricordando che i vettori della base di V , si comportano come funzionali sui vettori della base di V ∗ , si perviene a dimostrare che Proposizione 4.3 L’insieme dei tensori {ej1 ⊗. . .⊗ejs }, al variare di j1 , . . . , js fra 1 e n forma una base dello spazio dei vettori controvarianti di ordine s, Ts0 . e più in generale Proposizione 4.4 L’insieme dei tensori {η i1 ⊗ . . . ⊗ η ir ⊗ ei1 ⊗ . . . ⊗ eis }, al variare di i1 , . . . , ir e j1 , . . . , js fra 1 e n forma una base dello spazio dei vettori con ordine di coovarianza r e e ordine di controvarianza s, Tsr . Ne segue che dim Tsr = nr+s . 4.5 Gli operatori come tensori di tipo (1, 1) Denotiamo con End(V ) lo spazio vettoriale degli operatori su V . Esso ha dimensione n2 . Definiamo Φ: dove End(V ) → T11 (V ) F 7→ Φ(F ) Φ(F ) : V × V ∗ (v, σ) → K 7 → σ(F (v)) La bilinearità di Φ(F ) è conseguenza banale della linearità di F e di σ, il che ci assicura che Φ(F ) è un tensore. Proposizione 4.5 Φ è un isomorfismo canonico di spazi vettoriali Dim. La linearità di Φ è conseguenza diretta delle definizioni. Φ è iniettiva, infatti se Φ(F ) = 0, allora per ogni v ∈ V e per ogni σ ∈ V ∗ , σ(F (v)) = 0. Dal fatto che per ogni σ ∈ V , σ(F (v)) = 0, segue che F (v) = 0, e poiché questo vale per ogni v ∈ V , allora F è l’operatore nullo. Infine, avendo End(V ) e T11 (V ) la stessa dimensione, si conclude che Φ è un isomorfismo, che si dice canonico, perché la sua definizione non dipende da scelte arbitrarie, quali potrebbe essere la scelta di una base. In matematica, quando vi è un isomorfismo canonico, si è soliti identificare i due spazi vettoriali. Ne segue che ogni operatore lineare T : V → V viene interpretato come un tensore con ordine di covarianza 1 e controvarianza 1 e viceversa un tensore può essere interpretato come operatore lineare. 51 4.6 Tensori e cambiamenti di base Siano {e1 , . . . , en }, {e01 , . . . , e0n } due basi di V e {η 1 , . . . , η n }, {η 01 , . . . , η 0n } le rispettive basi duali. Abbiamo già scritto le relazioni relative ai cambiamenti di base (24) e0i = αij ej ej = βji e0i (27) con αij βjk = δik . (28) Consideriamo il covettore βji η j e applichiamolo al vettore e0k . Applicando le (27) e (28) e la definizione di base duale, per cui η j (eh ) = δhj , abbiamo βji η j (e0k ) = βji η j (αkh eh ) = αkh βji η j (eh ) = αkh βji δhj = αkh βhi = δki . Si noti che nella formula precedente, talvolta, abbiamo dovuto cambiare il nome degli indici al fine di evitare ripetizioni indesiderate. Poiché, d’altra parte, η 0i (e0k ) = δki ne segue che η 0i e βji η j assumono gli stessi valori sui vettori di una base di V , pertanto η 0i = βji η j . (29) La (29) rappresenta la formula di cambiamento di base per la base duale. Si osservi che la matrice che permette di passare dalla base {η 1 , . . . , η n } alla base {η 01 , . . . , η 0n } è l’inversa22 di quella che occorre per passare dalla base {e1 , . . . , en } alla base {e01 , . . . , e0n }. Dalla (29) seguono poi le relazioni per il cabiamento di base nell’ordine inverso η j = αij η 0i . (30) Si calcolano, poi, le relazioni per i cambiamenti di coordinate; se un covettore è rappresentato in due basi diverse da σ = si η i = s0j η 0j abbiamo si = βij s0j s0j = αji si (31) I covettori si dicono covarianti, perché le loro coordinate variano, al cambiare della base di V , e conseguentemente al cambiare della base duale, con la matrice di cambiamento di base di V ; mentre i vettori si dicono controvarianti, perché le loro coordinate variano, al cambiare di base, con la matrice inversa rispetto a quella del cambiamento di base, come mostrato in (25). Un tensore T covariante di ordine r si scrive come combinazione lineare dei vettori della base {η j1 ⊗ . . . ⊗ η jr } di T0r T = tj1 ...jr η j1 ⊗ . . . ⊗ η jr (32) 22 esattamente l’inversa se si conviene di rappresentare la base duale come un vettore colonna, e leggere la (29) come un prodotto fra matrici (che è la scelta preferibile), e la trasposta dell’inversa se si conviene di rappresentare la base duale come un vettore riga. 52 e come combinazione de vettori della base {η 0i1 ⊗ . . . ⊗ η 0ir } T = t0i1 ...ir η 0i1 ⊗ . . . ⊗ η 0ir (33) Sostituendo la (29) nella (33) abbiamo T = t0i1 ...ir (βji11 η j1 ) ⊗ . . . ⊗ (βjirr )η jr = t0i1 ...ir βji11 . . . βjirr η j1 ⊗ . . . ⊗ η jr (34) e confrontando questa con la (32) otteniamo che le coordinate dei tensori covarianti di ordine r variano al cambiare della base di V (e conseguentemete al cambiare della base di V ∗ e di T0r ) in un verso secondo la formula tj1 ...jr = βji11 . . . βjirr t0i1 ...ir (35) e nell’altro secondo la formula t0i1 ...ir = αij11 . . . αijrr tj1 ...jr (36) In modo analogo un tensore controvariante T di ordine s si scrive come combinazione lineare dei vettori delle basi {ej1 ⊗ . . . ⊗ ejs } e {e0i1 ⊗ . . . ⊗ e0is } di Ts0 T = tj1 ...js ej1 ⊗ . . . ⊗ ejs = t0i1 ...is e0i1 ⊗ . . . ⊗ e0is da cui le formule di cambiamento di coordinate tj1 ...js = αij11 . . . αijss t0i1 ...is t0i1 ...is = βji11 . . . βjiss tj1 ...js (37) Infine un tensore T r-volte covariante e s-volte controvariante si rappresenta rispetto la base {η j1 ⊗ . . . ⊗ η jr ⊗ ek1 ⊗ . . . ⊗ eks } di Tsr ...ks j1 η ⊗ . . . ⊗ η jr ⊗ ek1 ⊗ . . . ⊗ eks T = tkj11...j r e rispetto la base {η 0i1 ⊗ . . . ⊗ η 0ir ⊗ e0h1 ⊗ . . . ⊗ e0hs } di Tsr 1 ...hs 0i1 T = t0h ⊗ . . . ⊗ η 0ir ⊗ e0h1 ⊗ . . . ⊗ e0hs i1 ...ir η da cui le formule di cambiamento di coordinate ...ks 1 ...is = αik11 . . . αikss βjh11 . . . βjhrr t0i tkj11...j h1 ...hr r (38) jr k1 ...ks i1 is j1 1 ...is t0i h1 ...hr = βk1 . . . βks αh1 . . . αhr tj1 ...jr (39) Si osservi come nelle coordinate (o componenti) di un tensore gli indici di covarianza siano quelli in basso e gli indici di controvarianza siano quelli in alto. 53 4.7 Collegamenti con il calcolo differenziale In molte applicazioni le matrici che legano due tensori sono rappresentate dalla matrice jacobiana e dalla sua inversa. Vediamo il perché. La prima e immediata osservazione è che se y = Ax è un’applicazione lineare da Rn in sé , allora A coincide con la matrice jacobiana di questa trasformazione, i ∂y A= ∂xj 1 ≤ i ≤ n 1 ≤ j ≤ n Possiamo applicare lo stesso concetto alla matrice cambiamento di coordinate (25), per cui, posto che v si scriva v = xi ei nella base {e1 , . . . , en } e v = x0j e0j nella base {e01 , . . . , e0n }, abbiamo x0j = ∂x0j i x ∂xi xi = ∂xi 0j x ∂x0j (40) Pertanto le matrici di cambiamento di coordinate utilizzate in tutte le formule sui tensori si rappresentano i ∂x i αj 1 ≤ i ≤ n = 1 ≤ j ≤ n ∂x0j 1 ≤ i ≤ n 1 ≤ j ≤ n βji 1 ≤ i ≤ n 1 ≤ j ≤ n = 0i ∂x ∂xj 1 ≤ i ≤ n 1 ≤ j ≤ n Le (40) hanno il vantaggio, rispetto alle (25), di evitare ogni possibile confusione fra la matrice cambiamento di coordinate e la sua inversa. Cosı̀ la formula generale di cambiamento di base per i tensori si scrive senza possibilità di equivoci ...ks = tkj11...j r ∂xk1 ∂xks ∂x0h1 ∂x0hr 0i1 ...is . . . . . . t ∂x0i1 ∂x0is ∂xj1 ∂xjr h1 ...hr (41) ∂x0is ∂xj1 ∂xjr k1 ...ks ∂x0i1 . . . . . . t (42) ∂xk1 ∂xks ∂x0h1 ∂x0hr j1 ...jr Ma vi è una ragione più profonda nel rappresentare con la jacobiana la matrice cambiamento di coordinate. Ad ogni vettore v = ai ei dello spazio dei vettori applicati in un punto ∂ x0 ∈ Rn , si può associare l’operatore differenziale ai ∂x , che ad ogni applicazione i f ∈ C ∞ (U ), dove U è un intorno di x0 , associa la derivata direzionale23 (nella 1 ...is t0i h1 ...hr = 23 dovremmo scrivere ∂ , ∂xi |x0 ma in tutti gli operatori differenziali che seguiranno eviteremo di mettere il simbolo di |x0 che significa calcolato in x0 perché non avremo ragione di cambiare il punto di applicazione dei vettori. 54 direzione di v) di f in x0 : n X i=1 ai ∂f ∂xi Fatta questa identificazione fra operatori e vettori applicati, i vettori della ∂ ∂ base di V , {e1 , . . . , en }, sono rappresentati dagli operatori differenziali { ∂x 1 , . . . , ∂xn }. La formula di cambiamento di base è data ora da ∂ ∂xj ∂ = 0i ∂x ∂x0i ∂xj Anche i covettori hanno un’interessante lettura in termini di calcolo differenziale. Il differenziale di una funzione f ∈ C ∞ (U ), nel punto x0 ∈ Rn , si indica con df ed, applicato nel punto x0 è il funzionale lineare che a ogni vettore v applicato in x0 ∈ Rn associa la derivata direzionale di f rispetto a v in x0 . Cioè ∂ se v = aei = ai ∂x i ∂ ∂f (df )(v) = df (ai i ) = ai i ∂x ∂x I differenziali delle funzioni coordinate, dxi , . . . , dxn , risultano essere i vettori della base duale perché ∂xi ∂ = δji . dxi ( j ) = ∂x ∂xj Le formula di cambiamento di base per la base duale risulta coincidere con la formula di differenziazione di funzione composta. dx0j = 4.8 ∂x0j i dx . ∂xi Una definizione alternativa di tensore Le formule di cambiamento di coordinate per i tensori (41), (42) sono spesso utilizzate per definire i tensori. In questo approccio la definizione di tensore è seguente24 Definizione 4.8 Si dice tensore (o campo tensoriale) di tipo (r,s) un oggetto ...ks definito da un insieme di numeri tkj11...j in un sistema di coordinate arbitrarie r (x1 , . . . , xn ), la cui espressione numerica dipende dal sistema di coordinate secondo la seguente relazione: se è xk = xk (x01 , . . . , x0n ), x0j = x0j (x1 , . . . , xn ), con x0 (x(x0 )) = x0 , vale la formula di trasformazione ∂xks ∂x0h1 ∂x0hr 0i1 ...is ∂xk1 . . . . . . t ∂x0i1 ∂x0is ∂xj1 ∂xjr h1 ...hr k1 ...ks 0 1 ...is in cui t0i h1 ...hr è l’espressione numerica del tensore nelle coordinate (x ) e tj1 ...jr l’espressione numerica del tensore nelle coordinate (x); tutti gli indici variano da 1 a n , essendo n la dimensione dello spazio considerato. ...ks tkj11...j = r 24 la definizione esposta è tratta da Novikov, Dubronik, Fomenko,Geometria contemporanea 1, con qualche adattamento alle notazioni da noi usate. 55 4.8.1 La definizione di tensore data in funzione delle coordinate varia, nel suo significato, in funzione dei sistemi di coordinate ammessi. Se ad esempio siamo in uno spazio euclideo, (spazio vettoriale di dimensione finita dotato di prodotto scalare), è logico assumere solo riferimenti ortonormali. In questo caso le matrici cambiamento di coordinate sono ortogonali e pertanto 25 ∂x0j ∂xi = (43) ∂x0j ∂xi Non vi è dunque modo di distinguere un vettore da un covettore basandosi sul comportamento delle sue componenti al variare della base fra un insieme di basi ortonormali. È per questo motivo che, talvolta, nell’algebra tensoriale in spazi euclidei non si fa differenza fra vettori e covettori, fra ordine di covarianza e ordine di controvarianza. Chiariamo questi concetti con un esempio. Supponete che abbiate descritto un fenomeno fisico per mezzo di tre numeri (t(1), t(2), t(3)) che dipendono dal sistema di coordinate usato nello spazio, dove di proposito ho messo gli indici in linea. Questa terna rappresenta un vettore, un covettore o altro? Metto l’indice in alto o in basso? Si ha la risposta guardando come cambiano questi numeri al cambiare del riferimento. Se, in un altro riferimento, con la stessa origine, il fenomeno è descritto da (t0 (1), t0 (2)0 , t0 (3)) e avete t(i) = 3 X ∂xi 0 t (j) ∂x0j j=1 (44) e questo vale qualunque sia il secondo riferimento scelto, allora stabilite che si tratta di un vettore controvariante e scrivete gli indici in alto. Se, invece, in un altro riferimento, con la stessa origine, il fenomeno è descritto da (t0 (1), t0 (2)0 , t0 (3)) e avete 3 X ∂x0j 0 t(i) = t (j) (45) ∂xi j=1 e questo vale qualunque sia il secondo riferimento scelto, allora stabilite che si tratta di un vettore covariante (o covettore) e scrivete gli indici in basso. Se, infine, esiste un riferimento, per cui non vale (44) e un riferimento per cui non vale (45) allora stabilite che si tratta di altro. Ma è probabile che gli unici sistemi di riferimento rispetto ai quali possiate (o siate interessati) a descrivere il fenomeno, siano sistemi ortogonali, in tal caso, per la (43), non vi è differenza fra la (44) e la (45). In questo caso parlerete solo di vettore (ovvero tensore del primo ordine) senza distinguere tra covarianza e controvarianza. 25 si noti come nella formula l’indice in alto a sinistra è uguale all’indice in basso a destra e l’indice in basso a sinistra è uguale all’indice in alto a destra! 56 4.8.2 Notiamo come la definizione di tensore data tramite le coordinate si presta a essere estesa anche a cambiamenti di coordinate non lineari, infatti ogni trasformazione C ∞ biunivoca ha matrice jacobiana con determinante diverso da 0. La cosa assume particolare importanza quando si voglia fare del calcolo tensoriale su superficie curve (e più in gnererale su varietà). Un approccio indipendente dalle coordinate per definire tensori su oggetti geometrici diversi da Rn , comporta, in primo luogo la necessità di definire lo spazio dei vettori tangenti in modo intrinseco, cioè senza ricorrere a una immersione dell’oggetto in uno spazio euclideo. Questo è compito della geometria differenziale. 4.8.3 ∂f 1 Osserviamo come la definizione di differenziale di una funzione df = ∂x 1 dx + ∂f n . . . + ∂xn dx e la definizione di gradiente di una funzione, che comunemente si ∂f ∂f trova sui testi di analisi, ∇f = ∂x corrispondano allo stesso tensore 1 , . . . , ∂xn letto nei due diversi approcci. Del differenziale abbiamo già detto; il gradiente, invece, è una n-pla di numeri che varia al cambiare delle coordinate secondo la regola ∂f ∂x0j ∂f = i ∂x ∂x0j ∂xi e che è dunque un covettore ai sensi dell’ultima definizione. Nel differenziale abbiamo l’espressione della decomposizione del covettore nella base duale, mentre nel gradiente si rappresentano solo le componenti. Se si vuole che il gradiente risulti un vettore controvariante, bisogna utilizzare l’isomorfismo canonico che il prodotto scalare permette di definire fra V e V ∗ . Indichiamo i titoli di quelli che potrebbero essere i successivi argomenti di algebra tensoriale 4.9 L’isomorfismo canonico indotto dal prodotto scalare fra V e V ∗ 4.10 La contrazione degli indici 4.11 Il prodotto esterno 4.12 Pullback di forme 57