1 Numeri e spazi vettoriali complessi 1.1 Breve introduzione storica Si è soliti introdurre i numeri complessi, partendo dal problema della risoluzione dell’equazione x2 = −1; (1) ma questo non è il motivo storico della nascita dei numeri complessi. In effetti la risoluzione dell’equazione (1) non poteva essere considerato un problema matematico aperto, nel senso che, fin dalla nascita dei numeri reali negativi, era ovvio che l’equazione (1) non aveva soluzioni. La questione che ha dato l’avvio allo studio dei numeri complessi è invece collegata al problema della risoluzione dell’equazione di terzo grado. Cardano e Tartaglia avevano scoperto una formula per determinare una soluzione dell’equazione x3 + px + q = 0, alla quale si può ricondurre ogni equazione di terzo grado mediante un cambiamento lineare di variabile. La formula di Cardano è la seguente s s r r 3 −q 3 −q p3 p3 q2 q2 + + + − + . (2) x= 2 4 27 2 4 27 2 3 La formula non può essere utilizzata quando il discriminante, q4 + p27 , è minore di 0, eppure ogni equazione di terzo grado ha almeno una radice reale. Ecco il problema matematico aperto: risolvere l’equazione cubica nel casus irriducibilis, cioè quando il discriminante è minore di 0. Bombelli esaminò l’equazione x3 − 15x − 4 = 0 (3) che appartiene al casus irriducibilis e ha la radice 4. Dalla formula di Cardano si otterrebbe q q √ √ 3 3 x = 2 + −121 + 2 − −121. Bombelli dimostrò, che, attribuendo un significato matematico alla radice quadrata di −1 (la chiama più di meno), se si pone q √ √ 3 2 + −121 = a + b −1 allora q 3 2− √ √ −121 = a − b −1; per cui applicando la formula di Cardano si ottiene √ √ x = (a + b −1) + (a − b −1) = 2a. 1 Bombelli non conosceva un algoritmo per l’estrazione della radice cubica di √ 2 + −121, ma verificò che,√estendendo le usuali regole del calcolo algebrico a espressioni che contenevano −1, √ √ √ (2 + −1)3 = 2 + 11 −1 = 2 + −121, per cui a = 2, b = 1 e x = 4. Dunque l’introduzione dell’ entità più di meno rendeva compatibile la radice 4 dell’equazione (3) con la formula di Cardano (2). Non si poteva ancora affermare di aver risolto il casus irriducibilis, perché non √ era noto un algoritmo per determinare la radice cubica dell’espressione a + b −1, √ ma la utilità di considerare, nella trattazione di problemi algebrici, l’entità −1, chiamata successivamente unità immaginaria, era pienamente dimostrata. Soltanto due secoli più tardi, grazie a Gauss, verrà attribuita la natura di √ numero all’espressione a + b −1, detta numero complesso. Per quanto in senso storico la nascita dei numeri complessi sia da ricondurre a problemi algebrici, in queste note i numeri complessi verranno introdotti seguendo una problematica geometrica. 1.2 Le coordinate polari Nel piano fissiamo un punto O, una semiretta r uscente da O e un verso per la misura degli angoli orientati che hanno r come primo lato. A ogni punto P del piano diverso da O possiamo associare due numeri: il primo ρ rappresenta la distanza di P da O, il secondo θ la misura in radianti dell’angolo orientato che la semiretta uscente da O e passante per P forma con r. La coppia (ρ, θ) dà una rappresentazione del punto P in coordinate polari. Una precisazione è necessaria sulla misura dell’angolo orientato. Senza entrare in sottili disquisizioni su cosa sia la misura di un angolo, segnaliamo che le coppie (ρ, θ) e (ρ, θ1 ) corrispondono allo stesso punto se θ − θ1 = 2kπ, con k ∈ Z. Diversi approcci si trovano in letteratura, per trattare le difficoltà provenienti dalla mancanza di corrispondenza biunivoca fra i punti del piano e l’insieme delle coppie di numeri reali (ρ, θ). Segnalo i due principali. Il primo, quello della geometria differenziale, prevede che vi siano infiniti sistemi di coordinate locali di tipo polare e quindi che un punto possa essere rappresentato da infinite coppie di numeri. Il secondo di tipo più algebrico, prevede che la misura dell’angolo orientato sia un insieme infinito di valori, per cui le coordinate polari di un punto sono una coppia di cui il primo elemento è un numero reale positivo e il secondo un insieme di numeri reali che differiscono fra loro per multipli interi di 2π. Seguendo questo secondo approccio scriveremo p P ≡ (ρ, Θ). dove Θ = {θ + 2kπ}k∈Z . 2 ρ si chiama il modulo1 di P ; Θ si chiama l’argomento2 di P . Quando scriviamo Θ1 + Θ2 , intendiamo l’insieme ottenuto sommando ogni numero del primo insieme con ogni numero del secondo e cioè l’insieme3 Θ1 + Θ2 := {θ1 + θ2 + 2kπ}k∈Z . Quando applichiamo a Θ una funzione trigronometrica si intende che la applichiamo a uno qualunque dei suoi valori, senza pericolo di confusione, perché ogni funzione trigonometrica ha 2π come periodo. Osserviamo infine che non vengono assegnate le coordinate polari del punto O. Per determinare le relazioni che esistono fra coordinate polari e coordinate cartesiane, mettiamo sul piano un sistema di riferimento cartesiano ortogonale, dove l’origine coincide con O, l’asse positivo delle ascisse x coincide con la semiretta r e l’asse positivo delle ordinate y, ortogonale all’asse delle ascisse in O, sia scelto, fra i due possibili, in modo tale che l’angolo orientato xy ˆ misuri { π2 + 2kπ}k∈Z . Se P ha coordinate cartesiane P ≡ (x, y) e coordinate polari p P ≡ (ρ, Θ). allora, da un verso e dall’altro4 x = ρ cos(Θ) y = ρ sin(Θ) (4) p ρ = x2 + y 2 cos(Θ) = √ 2x 2 x +y sin(Θ) = √ y . x2 +y 2 1.3 Definizione dei numeri complessi L’introduzione delle coordinate cartesiane nel piano permette di definire una corrispondenza biunivoca fra i punti del piano e R2 e questa corrispondenza permette di trasportare sul piano l’operazione di somma propria dello spazio vettoriale R2 . Per cui, se P1 ≡ (x1 , y1 ) e P2 ≡ (x2 , y2 ), poniamo5 P1 + P2 :≡ (x1 + x2 , y1 + y2 ) 1 nella terminologia antica raggio vettore. terminologia antica anomalia 3 in questo modo si garantisce che la misura dell’angolo che si ottiene dalla giustapposizione del secondo spigolo di un angolo orientato con il primo spigolo di un secondo angolo orientato è uguale alla somma delle misure dei due angoli orientati. 4 evitiamo di dare un’espressione espilicita per Θ, perché bisognerebbe prima convenire sulle definizioni delle funzioni arcoseno e arcocoseno. 5 la somma dei punti nel piano con origine fissata, può essere introdotta in modo puramente 2 nella → → geometrico, con la regola del parallelogramma applicata ai vettori geometrici OP1 e OP2 . 3 Quale operazione suggeriscono le coordinate polari fra i punti del piano privato dell’origine? I moduli, essendo numeri reali positivi, hanno una struttura naturale di gruppo se considero la moltiplicazione; mentre, per quanto riguarda gli argomenti, ho una struttura di gruppo se considero la somma. Combiniamo le due operazioni precedenti, il prodotto dei moduli e la somma degli argomenti, in una nuova operazione per i punti del piano privato dell’origine, p p che denotiamo provvisoriamente con ∗: posto che sia P1 ≡ (ρ1 , Θ1 ) e P2 ≡ (ρ2 , Θ2 ), definiamo p P1 ∗ P2 :≡ (ρ1 ρ2 , Θ1 + Θ2 ). Questa stessa operazione, in coordinate cartesiane assume l’espressione q q P1 ∗ P2 ≡( x21 + y12 x22 + y22 (cos Θ1 cos Θ2 − sin Θ1 sin Θ2 ), q q x21 + y12 x22 + y22 (cos Θ1 sin Θ2 + cos Θ2 sin Θ1 ) = (x1 x2 − y1 y2 , x1 y2 + x2 y1 ) Trasferiamo le operazioni cosı̀ introdotte in R2 , (x1 , y1 ) + (x2 , y2 ) := (x1 + x2 , y1 + y2 ) (x1 , y1 ) ∗ (x2 , y2 ) := (x1 x2 − y1 y2 , x1 y2 + x2 y1 ). Si prova che (R2 , +, ∗) è campo, cioè • è un gruppo commutativo rispetto la somma (+) con elemento neutro (0, 0) • gli elementi diversi da (0, 0) formano un gruppo rispetto al prodotto (∗), con elemento neutro (1, 0) • vale la proprietà distributiva ((x1 , y1 ) + (x2 , y2 )) ∗ (x3 , y3 ) = (x1 , y1 ) ∗ (x3 , y3 ) + (x2 , y2 ) ∗ (x3 , y3 ) Le verifiche delle proprietà sono tutte elementari; segnaliamo solo la prova dell’esistenza dell’inversa rispetto al prodotto6 : sia (a, b) 6= (0, 0), dobbiamo cercare (x, y) tale che (a, b) ∗ (x, y) = (1, 0) cioè ax − by bx + ay = = 1 0 poichè il sistema ha una e una sola soluzione, essendo a2 + b2 6= 0, l’inverso di (a, b) esiste. 6 che peraltro è ovvia se si pensa al prodotto in termini di coordinate polari 4 Chiameremo (R2 , +, ∗) il campo dei numeri complessi e verrà semplicemente indicato con C; come d’uso, eviteremo di scrivere il simbolo dell’operazione prodotto, e converremo anche che in un’espressione algebrica, in mancanza di parentesi, l’operazione prodotto abbia priorità sull’operazione di somma. La funzione f: R → C x 7→ (x, 0) è iniettiva e tale che f (x + y) = f (x) + f (y) f (xy) = f (x)f (y) pertanto, se identifichiamo x ∈ R con (x, 0) ∈ C, possiamo considerare il campo C come un’estensione del campo R. C eredita da R2 anche la struttura di spazio vettoriale su R , quindi ho due operazioni di prodotto di un numero complesso per un numero reale, quella che c’è in ogni spazio vettoriale di moltiplicazione di un vettore per uno scalare, e quella che deriva dal considerare ogni numero reale un particolare numero complesso. Per fortuna le due operazioni coincidono, per cui non vi è ambiguità nel prodotto di un numero reale per un numero complesso. La base standard di C come spazio vettoriale su R è formata dai numeri7 (1, 0) e (0, 1), il numero (1,0) possiamo chiamarlo 1, corrispondendo al numero reale 1 e all’unità del prodotto; chiamiamo unità immaginaria il numero (0, 1) e indichiamola sinteticamente con ”i”. Formando 1 e i una base di C come R-spazio vettoriale, possiamo rappresentare il numero (x, y) ∈ C nel seguente modo (x, y) = x1 + yi = x + iy. Abbiamo che i2 = −1; pertanto i è soluzione dell’equazione x2 = −1, ma anche −i è soluzione, quindi la scrittura √ i = −1, che si trova in molto libri, è fonte di confusione, essendo equivoco il significato √ del simbolo . Indicheremo il generico numero complesso con la lettera z e volendo mettere in luce la decomposizione di cui sopra scriveremo z = x + iy. (5) x si chiama la parte reale di z (si indica Re(z)) e y la parte immaginaria (si indica Im(z)). La scrittura data dalla (5) è particolarmente comoda perché il prodotto fra due numeri complessi può essere eseguito con le usuali regole del calcolo algebrico, sostituendo −1 ogni volta che troviamo i2 . 7 gli elementi di C vengono chiamati numeri e non vettori 5 1.4 Alcune funzioni elementari su C La seguente funzione si chiama coniugio ed è particolarmente importante C z = x + iy → C 7 → z̄ := x − iy La sua importanza deriva dal fatto che il coniugio è un isomorfismo di campi, cioè è biunivoca e gode delle seguenti proprietà z1 + z2 = z̄1 + z̄2 z1 z2 = z̄1 z̄2 La parte reale e la parte immaginaria di un numero complesso possono essere definite tramite il coniugio da C z → R⊂C z+z̄ 7→ 2 Im : C z → R⊂C z−z̄ 7→ 2i Re : Per il coniugio valgono le seguenti proprietà di facile verifica • z̄¯ = z • z + z̄ = 2Re(z) • z − z̄ = 2iRe(z) • z −1 = (z̄)−1 , per z 6= 0 • z̄ = z ⇔ z ∈ R • z̄ = −z ⇔ z ∈ iR, in tal caso diremo che z è un immaginario puro. Definiamo la funzione modulo di un numero complesso z = z+iy nel seguente modo p |z| = x2 + y 2 , p √ risulta |z| = Re(z)2 + Im(z)2 = z z̄. Trattandosi di numeri √ reali positivi o nulli, non c’è equivoco col simbolo di radice, intendendosi con x il numero reale non negativo il cui quadrato è x. Inoltre se z è un numero reale il suo modulo coincide col valore assoluto, per cui non c’è confusione nel simbolo usato. Per la funzione modulo valgono le seguenti proprietà • |z| ≥ 0 e |z| = 0 ⇔ z = 0 • |z̄| = |z| • |Re(z)| ≤ |z|, |Im(z)| ≤ |z|, |z| ≤ |Im(z)| + |Re(z)| 6 • |z1 z2 | = |z1 ||z2 | • |z −1 | = |z|−1 , per z 6= 0 • |z1 + z2 | ≤ |z1 | + |z2 | • |z1 + z2 | ≥ ||z1 | − |z2 ||. Segnaliamo la dimostrazione delle ultime due relazioni, essendo le altre immediate: |z1 + z2 |2 = (z1 + z2 )(z1 + z2 ) = |z1 |2 + z1 z̄2 + z̄1 z2 + |z2 |2 = |z1 |2 + z1 z̄2 + z1 z̄2 + |z2 |2 = |z1 |2 + 2Re(z1 z̄2 ) + |z2 |2 ≤ |z1 |2 + 2|z1 z̄2 | + |z2 |2 = |z1 |2 + 2|z1 ||z̄2 | + |z2 |2 = |z1 |2 + 2|z1 ||z2 | + |z2 |2 = (|z1 | + |z2 |)2 , similmente (passaggi abbreviati) |z1 − z2 |2 = |z1 |2 − 2Re(z1 z̄2 ) + |z2 |2 ≥ |z1 |2 − 2|(z1 z̄2 )| + |z2 |2 = (|z1 | − |z2 |)2 . 1.5 La rappresentazione trigoniometrica di un numero complesso Scriviamo un numero complesso z = x + iy diverso da 0 nella forma z = |z|( Poiché Re(z) |z| 2 + Im(z) |z| 2 Re(z) Im(z) +i ). |z| |z| = 1, possiamo anche scrivere z = |z|(cos Θ + i sin Θ). (6) dove Θ = {θ + 2kπ}k∈Z rappresenta la misura8 dell’angolo orientato che la semiretta uscente da 0 e passante per 1 forma con la semiretta uscente da 0 e passante per z; esso è tale che cos Θ = Re(z) e sin Θ = Im(z) |z| |z| . Θ si dice l’argomento di z. La funzione argomento è definita per tutti numeri complessi diversi da 0 ed è un esempio di funzione a più valori. 8 è doveroso segnalare che la definizione di misura di un angolo, specie se orientato, è questione assai delicata e autorevoli matematici ritengono che questa non possa essere data in mamiera corretta se non in un corso di analisi complessa o in un corso di teoria della misura; purtroppo ragioni didattiche impongono anticipare le definizioni delle funzioni trigonometriche, ed anche la rappresentazione trigonometrica di un numero complesso. 7 Siano z1 = ρ1 (cos θ1 + i sin θ1 ) z2 = ρ2 (cos θ2 + i sin θ2 ), due numeri complessi, con θ1 , θ2 ∈ R e ρ1 , ρ2 ∈ R+ ; se z1 = z2 , allora, essendo | cos θ + i sin θ| = 1, abbiamo ρ1 = |ρ1 || cos θ1 + i sin θ1 | = |ρ1 (cos θ1 + i sin θ1 )| = z1 = z2 = |ρ2 (cos θ2 + i sin θ2 )| = |ρ2 || cos θ2 + i sin θ2 | = ρ2 , quindi cos θ1 = cos θ2 e sin θ1 = sin θ2 . Poiché l’implicazione nell’altro verso è ovvia, possiamo concludere che ρ1 = ρ2 z1 = z2 ⇐⇒ (7) ∃k ∈ Z : θ1 = θ2 + 2kπ Pertanto, se rapprensentiamo la misura di un angolo orientato con un insieme di numeri reali Θ = {θ + 2kπ}k∈Z , un numero complesso non nullo è univocamente determinato dalla sua rappresentazione (6). Per ogni θ ∈ Θ z = |z|(cos θ + i sin θ) si chiama una rappresentazione trigonometrica di z. Tornando alla (6) Θ si chiama l’argomento di z e ogni θ ∈ Θ si chiama una determinazione dell’argomento di z. Siano z1 = |z1 |(cos Θ1 + i sin Θ1 ) z2 = |z2 |(cos Θ2 + i sin Θ2 ), si ha z1 z2 = |z1 ||z2 |(cos(Θ1 + Θ2 ) + i sin(Θ1 + Θ2 )), (8) che è ovvia se si considera la ”genesi” che abbiamo presentato del prodotto di numeri complessi, e che comunque si prova facilmente usando le formule del coseno e del seno dell’angolo somma. Come caso particolare dalla (8) otteniamo la formula di De Moivre z n = |z|n (cos(nΘ) + i sin(nΘ)). (9) OSSERVAZIONE. Nella formula di De Moivre col simoblo nΘ intendiamo Θ + . . . + Θ, n volte, e qunindi nΘ = {nθ + 2kπ}k∈Z e non nΘ = {nθ + 2knπ}k∈Z . La formula di De Moivre permette di risolvere in C l’equazione zn = w 8 (10) Per w 6= 0, sia w = |w|(cos Φ + i sin Φ), con Φ = {φ + 2kπ}k∈Z , e sia z = |z|(cos Θ + i sin Θ), con Θ = {θ + 2kπ}k∈Z una soluzione di (10). Abbiamo |w| = |z|n , Φ = nΘ. 1 Da cui segue subito che |z| = |w| n , ma non possiamo scrivere Θ = Φ n , per l’osservazione precedente. In effetti da (10) segue 1 |z| = |w| n ∀φ ∈ Φ, ∀θ ∈ Θ, ∃k ∈ Z : φ = nθ + 2kπ ovvero 1 |z| = |w| n ∀φ ∈ Φ, ∀θ ∈ Θ, ∃k ∈ Z : θ = φ n + 2kπ n Pertanto ∀k ∈ Z , in numeri 1 φ 2kπ φ 2kπ |w| n cos + + i sin + n n n n sono soluzioni della (10) ma non ho infinite soluzione diverse, potendo i numeri φ 2kπ n + n rappresentare diverse determinazioni dello stesso angolo. Sia φ ∈ Φ, poniamo θ0 = nφ θ1 = nφ + 2π n θ2 = nφ + 2 2π n .. .. . . θn−1 = φ n + (n − 1) 2π n a cui corrispondono gli angoli le cui misure sono Θ0 Θ1 Θ2 .. . = { nφ + 2kπ}k∈Z = { nφ + 2π n + 2kπ}k∈Z = { nφ + 2 2π n + 2kπ}k∈Z .. . Θn−1 = { nφ + (n − 1) 2π n + 2kπ}k∈Z ; φ il numero nφ + n 2π n = n + 2π appartiene a Θ0 e non da luogo a una diversa soluzione dell’equazione (10). Pertanto, se w = 6 0, l’equazione (10) ha n distinte soluzioni ed esse sono date da 9 9 nella formula che segue al posto di Θ0 , Θ1 . . . potremmo scrivere anche θ0 , θ1 . . . 9 1 z0 z1 z2 .. . = |w| n (cos(Θ0 ) + i sin(Θ0 )) 1 = |w| n (cos(Θ1 ) + i sin(Θ1 )) 1 = |w| n (cos(Θ2 ) + i sin(Θ2 )) .. . zn−1 = |w| n (cos(Θn−1 ) + i sin(Θn−1 )) 1 Infine, se w = 0, la (10) ha la sola soluzione nulla. Esempio Per trovare le soluzioni dell’equazione z 3 = 2, dobbiamo rappresentare in modo trigonometrico il numero complesso 2: 2 = 2(cos(0) + i sin(0)) pertanto le tre radici cubiche di 2 sono z0 z1 z2 1 1 = 23 = 2 3 (cos(0) + i sin(0)) √ 1 1 2π 2π 3 = 2 (cos( 3 ) + i sin( 3 )) = 2 3 (− 21 + i √23 ) 1 1 3 1 4π 3 = 2 3 (cos( 4π 3 ) + i sin( 3 )) = 2 (− 2 − i 2 ) Esempio Per trovare le soluzioni dell’equazione z 4 = −4, dobbiamo rappresentare in modo trigonometrico il numero complesso -4: −4 = 4(cos(π) + i sin(π)) pertanto le quattro radici quarte di -4 sono z0 = z1 = z2 = z3 = 1 1 2 2 (cos( π4 ) + i sin( π4 )) 1 2 2 (cos( π4 1 2 2 (cos( π4 1 2 2 (cos( π4 + + + 1 1 = 2 2 ( 222 + i 222 ) π 2) + i sin( π4 + π2 )) π) + i sin( π4 + π)) 3π π 3π 2 ) + i sin( 4 + 2 )) = = = 1 1 2 =1+i 1 2 (− 222 + i 222 1 1 1 2 2 (− 222 − i 222 1 1 1 2 2 ( 222 − i 222 ) ) = −1 + i ) = −1 − i =1−i Esempio Per trovare le soluzioni dell’equazione z 2 = −i, dobbiamo rappresentare in modo trigonometrico il numero complesso i: −i = (cos( 3π 3π ) + i sin( )) 2 2 pertanto le due radici quadrate di -i sono z0 z1 = = 1 √ 1 3π (cos( 3π 4 ) + i sin( 4 )) = (− 222 + i 222 ) = 3π (cos( 3π 4 + π) + i sin( 4 + π)) =( −i = 1 22 2 1 22 2 ) 2 (−1 + i) √2 2 2 (1 − i) La formula di De Moivre (9) ci ha permesso di trovare le soluzioni di alcune semplici equazioni polinomiali, ma non esiste una formula che utilizzi solo le quattro operazioni e le estrazioni di radici, tipo quella di Cardano (2) che dia le soluzioni della generica equazione polinomiale, quando il grado è maggiore 10 di 4. Ciononostante, il seguente teorema, cosı̀ importante da essere chiamato teorema fondamentale dell’algebra, assicura che almeno una soluzione esiste. Teorema (fondamentale dell’algebra) Ogni polinomio in una variabile, a coefficienti complessi, non costante, ha almeno una radice10 in C . Le dimostrazioni puramente algebriche di questa teorema sono molto complesse; altre più abbordabili fanno uso di strumenti di analisi matematica. Un polinomio in una variabile si dice monico se il coefficiente del termine di grado massimo è 1. Se un polinomio p(z) ha una radice z0 , allora è divisibile per (z − z0 ) e, ripetendo la divisione n volte, otteniamo il seguente Corollario Ogni polinomio, in C, non costante, di grado n, si fattorizza nel prodotto di una costante e di n fattori di primo grado monici. Ogni polinomio a coefficienti reali è anche un polinomio a coefficienti complessi, e come tale ammette radici complesse. Proposizione 1.1 Sia p(x) un polinomio a coefficienti reali. Se w è una radice di p(x) anche w̄ lo è. Dim. Sia p(x) = an xn + an−1 xn−1 + . . . + a1 x + a0 . Se w è radice abbiamo an wn + an−1 wn−1 + . . . + a1 w + a0 = 0, coniugando ambo i membri, abbiamo an wn + an−1 wn−1 + . . . + a1 w + a0 = 0̄ = 0, da cui, considerate le proprietà della funzione coniugio e tenendo presente che i coefficienti sono reali, an w̄n + an−1 w̄n−1 + . . . + a1 w̄ + a0 = 0, cioè p(w̄) = 0. Corollario Ogni polinomio a coefficienti reali di grado dispari ha almeno una radice reale. 1.6 Spazi vettoriali reali e spazi vettoriali complessi Abbiamo già osservato che C è uno spazio vettoriale sul campo R di dimensione 2, essendo {1, i} una base. C è anche uno spazio vettoriale sul campo C, e in questo caso la sua dimensione è 1, essendo ogni numero complesso non nullo una sua base. Uno spazio vettoriale V su C è anche uno spazio vettoriale su R , in quanto, essendo definito il prodotto di un vettore per un numero complesso, è definito anche il prodotto di un vettore per un numero reale poiché questo è un particolare numero complesso. Indichiamo con VR l’insieme V munito della sola struttura di spazio vettoriale reale. 10 cioè un numero complesso dove il polinomio vale 0, per questo la radice di un polinomio si dice anche uno zero del polinomio 11 Proposizione 1.2 Sia V uno spazio vettoriale su C. Se dim(V ) = n, allora dim(VR ) = 2n. Dim. Sia V = {v1 , . . . , vn } una base su C di V . Allora VR = {v1 , . . . , vn , iv1 , . . . , ivn } è una base di V su R. Infatti, essendo V una base su C, abbiamo che ogni vettore w si scrive w = z1 v1 + . . . + zn vn = (x1 + iy1 )v1 + . . . (xn + iyn )vn = x1 v1 + . . . + xn vn + y1 iv1 + . . . + yn ivn . e quindi VR è un sistema di generatori su R di V . D’altra parte, se a1 v1 + . . . + an vn + b1 iv1 + . . . + bn ivn = 0 è una combinazione lineare nulla degli elementi di VR , allora (a1 + ib1 )v1 + . . . + (an + ibn )vn = 0, è una combinazione lineare a coefficienti complessi nulla dei vettori della base V; pertanto (a1 + ib1 ) = . . . = (an + ibn ) = 0 da cui a1 = . . . = an = b1 = . . . = bn = 0. Sia ora V uno spazio vettoriale reale di dimensione n, possiamo dare a V × V una struttura di spazio vettoriale complesso11 . Questo spazio si chiama il complessificato di V e lo indichiamo con VC . Le operazioni di somma e prodotto per uno scalare in VC sono definnite da (v1 , v2 ) + (w1 , w2 ) := (v1 + w1 , v2 + w2 ) (x + iy)(v1 , v2 ) := (xv1 − yv2 , yv1 + xv2 ) Le verifiche delle proprietà sono di routine. Per quanto già visto all’inizio del paragrafo, VC ha anche una struttura di spazio vettoriale reale, che coincide con quella di V × V . Possiamo definire un’applicazione iniettiva da V in VC , che è lineare come applicazione fra spazi vettoriali reali (verifiche banali), nel seguente modo J : V −→ VC v 7−→ (v, 0) Abbiamo (v1 , v2 ) = (v1 , 0) + i(v2 , 0), per cui, se identifichiamo v con (v, 0), (operazione legittimata dal fatto che J è lineare e iniettiva) possiamo scrivere (v1 , v2 ) = v1 + iv2 . 11 V × V ha in maniera naturale una struttura di spazio vettoriale reale di dimensione 2n. 12 Proposizione 1.3 Se dim(V ) = n, allora dim VC = n. Dim. Basta provare che, sotto l’identificazione J, una base di V è anche una base di VC . Sia dunque V = {v1 , . . . , vn } una base di V ; sia (v, w) ∈ C; abbiamo v = a1 v1 + . . . + an vn w = b1 v1 + . . . + bn vn da cui (v, w) = v + iw = a1 v1 + . . . + an vn + i(b1 v1 + . . . + bn vn ) = (a1 + ib1 )v1 + . . . + (an + ibn )vn , pertanto V = {v1 , . . . , vn } è un sistema di generatori di VC . Sia ora (a1 + ib1 )v1 + . . . + (an + ibn )vn = 0 una combinazione lineare nulla dei vettori di V, abbiamo (a1 v1 + . . . + an vn , b1 v1 + . . . + bn vn ) = a1 v1 + . . . + an vn + i(b1 v1 + . . . + bn vn ) = (a1 + ib1 )v1 + . . . + (an + ibn )vn = 0 = (0, 0) da cui a1 v1 + . . . + an vn = b1 v1 + . . . + bn vn = 0 e, essendo {v1 , . . . , vn } linearmente indipendenti in V , concludiamo che a1 = . . . = an = b1 = . . . = bn = 0 e che {v1 , . . . , vn } sono linearmente indipendenti in VC . 1.7 Applicazioni lineari e matrici 1.7.1 Sia F : V → W un’applicazione C-lineare fra spazi vettoriali complessi di dimensione n e m. Siano V = {v1 , . . . , vn }, W = {w1 , . . . , wm }, basi di V e W rispettivamente. Come è noto a F possiamo associare una matrice m × n, MW,V (F ), sinteticamente definita dalla relazione F (V) = WMW,V (F ). MW,V (F ) = (αij ) è una matrice a elementi complessi. Essa può essere scritta come A + iB, dove gli elementi di A = (aij ) e B = (bij ) sono, rispettivamente, le parti reali e le parti immaginarie degli elementi di MW,V (F ), cioè αij = aij +ibij . 13 Nel paragrafo precedente abbiamo visto che V e W , sono anche spazi vettoriali reali di dimensione 2n e 2m; per distinguerli li abbiamo chiamati VR e WR . F è anche un’applicazione R-lineare da VR a WR . Siano VR e WR le basi di VR e WR precedentemente definite. Vogliamo calcolare MWR ,VR (F ). Le colonne di MWR ,VR (F ), sono rappresentate dalle componenti dei vettori F (v1 ), . . . , F (vn ), F (iv1 ), . . . , iF (vn ), rispetto a WR = {w1 , . . . , wm , iw1 , . . . , iwm }. Abbiamo F (vj ) = m X αij wi = i=1 m X aij wi + i i=1 m X bij wi = i=1 m X aij wi + i=1 m X bij iwi i=1 e F (ivj ) = iF (vj ) = i m X i=1 αij wi = m X iaij wi − i=1 m X bij wi = i=1 m X i=1 aij iwi − m X bij wi , i=1 da cui la matrice cercata, è rappresentata a blocchi da A −B MWR ,VR (F ) = . B A 1.7.2 Sia ora F : V → W un’applicazione lineare fra spazi vettoriali reali di dimensione n e m e siano V = {v1 , . . . , vn }, W = {w1 , . . . , wm }, basi di V e W , rispettivamente. Possiamo estendere F a un’applicazione FC : VC → WC , per linearità, utilizzando il fatto che le basi V e W di di V e W sono anche basi di VC e WC , e dunque la FC è definita sui vettori di una base di V . FC si chiama la complessificata dell’applicazione F . Essendo FC (vj ) = F (vj ), abbiamo che MW,V (FC ) = MW,V (F ). Osservazione Capiterà, qualche volta, di considerare le radici complesse ( e non reali) del polinomio caratteristico di un operatore T su uno spazio vettoriale reale; questi numeri sono autovalori dell’operatore complessificato TC ; i rispettivi autovettori saranno combinazioni lineari a coefficienti complessi dei vettori della base di V e come tali elementi di VC . 14 2 Complementi di teoria degli operatori Richiamiamo le proprietà sulla diagonalizzazione degli operatori. Sia V uno spazio vettoriale12 su K di dimensione finita, V = {v1 , . . . , vn } una base di V e T : V → V un operatore lineare. Indichiamo con MVV (T ), la matrice associata a T rispetto alla base V. Ricordo che le sue colonne rappresentano, nell’ordine, le componenti dei trasformati dei vettori della base V rispetto alla stessa base V. Tale proprietà può essere scritta, in notazione matriciale T (V) = VMVV (T ). x1 Se v = x1 v1 + . . . + xn vn = Vx, con x = ... abbiamo xn T (v) = T (Vx) = T (V)x = VMVV (T )x, da cui se poniamo T (v) =: Vy, ne segue che y = MVV (T )x che possiamo considerare la rappresentazione in coordinate dell’operatore T . L’operatore T si dice diagonalizzabile se esiste una base W per cui MWW (T ) è diagonale, questo accade se e soltanto se esiste una base di autovettori13 . Ricordiamo che due matrici A, B ∈ Mnn (K) si dicono simili se esiste G ∈ GLn (K) tale che B = G−1 AG. Essendo −1 MVV (T ) = MWV (Id)MWW (T )MWV (Id), dove MWV (Id) è la matrice cambiamento di base, abbiamo che T è diagonalizzabile se e solo se MVV (T ) è simile a una matrice diagonale. La procedura per determinare se T è diagonalizzabile prevede di calcolare, in primo luogo gli autovalori di T (che coincidono, qualunque sia la base V, con gli autovalori di MVV (T )), tramite la ricerca delle radici del polinomio caratteristico PT (λ) = det(MVV (T ) − λI). λ è un autovalore se e solo se è radice del polinomio caratteristico. Per ogni autovalore λ, si definisce l’autospazio Vλ , come l’insieme degli autovettori associati a λ con l’aggiunto del vettore nullo; si definisce poi la molteplicità geometrica di λ come la dimensione di Vλ . Il criterio di diagonalizzabilità stabilisce che T è diagonalizzabile se e solo se la somma delle molteplicità geometriche degli autovalori di T è uguale alla dimensione di V . Infine è da segnalare che la molteplicità geometrica di un autovalore λ̃ è sempre minore o uguale della molteplicità algebrica di λ̃, cioè dell’esponente con cui si trova il fattore λ − λ̃ nella decomposizione in fattori irriducibili del polinomio caratteristico PT (λ). 12 indichiamo 13 ricordo genericamente con K un campo, nel nostro corso K è sempre R o C che un vettore x non nullo si dice un autovettore relativo all’autovalore λ ∈ K, se T (x) = λx. 15 2.1 Classificazione di matrici, operatori, applicazioni lineari La relazione di similitudine fra matrici quadrate è di equivalenza. I matematici si pongono, dunque, il problema di classificare le matrici modulo la relazione di similitudine, cioè classificare le classi di equivalenza. Se T è un operatore e A = MWW (T ) è la matrice associata a T rispetto la base W, allora la classe di equivalenza di A rappresenta l’insieme delle matrici con cui possiamo vedere rappresentato T rispetto basi diverse. Infatti, sia B simile a A, esiste quindi G ∈ GLn (K) tale che B = G−1 AG. Poniamo V = WG, abbiamo che V è una base di V e G = MWV (Id), per cui −1 B = MWV (Id)MWW (T )MWV (Id) = MVV (T ). Questo non è il solo motivo per cui è importante classificare le matrici modulo similitudine. La classificazione delle matrici modulo similitudine permette anche di classificare gli operatori modulo automorfismi. Vediamo cosa si intende con questa affermazione. Siano T e F due operatori sullo spazio vettoriale V . Supponiamo che esista un automorfismo14 su V , φ, tale che φ ◦ F = T ◦ φ. (11) È facile vedere che questa è una relazione di equivalenza fra operatori: si suole dire che F e T sono equivalenti modulo automorfismi. Quando F e T sono equivalenti modulo automorfismi, allora hanno le stesse proprietà algebriche, per esempio hanno lo stesso rango, stessi autovalori, stesse molteplicità algebriche e geometriche; inoltre se W = ker(F ) allora φ(W ) = ker(T ) e in generale tramite φ o φ−1 è possibile passare da sottospazi significativi per T agli analoghi sottospazi per F . Da (11) segue F = φ−1 ◦ T ◦ φ che in coordinate, rispetto a una base a una base V, di V , si rappresenta −1 MVV (F ) = MVV (φ)MVV (T )MVV (φ), per cui matrici associate, rispetto la stessa base, a operatori equivalenti sono simili. Viceversa, sia la matrice A simile a MVV (T ), esiste quindi G ∈ GL(K) tale che A = G−1 MVV (T )G. Sia φ : V → V definita15 da φ(V) = VG, 14 un operatore su V invertibile lineare è definita quando siano dati i suoi valori sui vettori di una base 15 un’applicazione 16 abbiamo che φ è invertibile e MVV (φ) = G, per cui, posto F := φ−1 ◦ T ◦ φ, abbiamo che F è equivalente a T modulo automorfismi e −1 MVV (F ) = MVV (φ)MVV (T )MVV (φ) = G−1 MVV (T )G = A. Concludendo possiamo affermare che la classe di equivalenza di matrici quadrate rispetto la relazione di similitudine rappresenta l’insieme delle matrici associate,rispetto a una stessa base, a una classe di operatori equivalenti modulo automorfismi. Pertanto la classificazione delle matrici modulo similitudine permette anche di classificare gli operatori modulo automorfismi. Il modo più semplice per classificare un insieme di classi di equivalenza è quello di individuare all’interno di ogni classe un suo elemento16 con caratteristiche specifiche che verrà chiamata forma canonica. La teoria della diagonalizzazione degli operatori (o delle matrici) permette di classificare gli operatori diagonalizzabili. Abbiamo infatti che Proposizione 2.1 Due matrici diagonali sono simili se e solo se sulla diagonale troviamo gli stessi elementi e con la stessa molteplicità, disposti eventualmente in ordine diverso. Dim. Se le matrici diagonali A e B sono simili, allora hanno lo stesso polinomio caratteristico, quindi gli stessi autovalori con le stesse molteplicità algebriche. Poiché gli elementi della diagonale di una matrice diagonale sono gli autovalori della matrice ripetuti tante volte quanto è la loro molteplicità algebrica, e gli autovalori con le loro molteplicità sono invarianti per similitudine, A e B hanno sulla diagonale gli stessi numeri (e, se ripetuti, li incontriamo lo stesso numero di volte, salvo in un diverso ordine). Viceversa proviamo che due matrici diagonali con diagonali uguali, salvo l’ordine degli elementi, sono simili. Poiché ogni permutazione dell’ordine degli elementi della diagonale può essere ottenuta con una sequenza di scambi, possiamo limitarci a considerare a due matrici diagonali A e B che differiscono solo per lo scambio di due elementi sulla diagonale. Siano A= a1 0 0 .. . 0 a2 0 .. . 0 0 a3 .. . ... ... ... .. . 0 0 0 .. . 0 0 0 ... an B= a2 0 0 .. . 0 a1 0 .. . 0 0 a3 .. . ... ... ... .. . 0 0 0 .. . 0 0 0 ... an Sia inoltre C ottenta dalla matrice unità cambiando le prime due colonne, 16 o un limitato gruppo di elementi 17 cioè C= 0 1 0 1 0 0 0 0 1 .. .. .. . . . 0 0 0 ... 0 ... 0 ... 0 .. .. . . ... 1 Abbiamo che C è ortogonale e quindi C −1 = C t = C e facilmente si verifica che A = C −1 BC. Prima di progredire nello studio che ci porterà a classificare tutte le matrici modulo similitudine, osserviamo come l’analogo problema di classificazione delle applicazioni lineari fra due spazi vettoriali diversi, modulo automorfismi dei due spazi vettoriali, sia semplice. Questa classificazione è conseguenza del seguente, importante teorema Proposizione 2.2 (teorema nullità + rango17 ) Sia F : V → W un’applicazione lineare. Abbiamo che dim(ker F ) + dim(F (V )) = dim V Dim. Sia {v1 , . . . , vs } una base di ker(F ) e completiamola a una base di V , V = {v1 , . . . , vs , vs+1 , . . . , vn }. Se proviamo che {F (vs+1 ), . . . , F (vn )} è una base di F (V ) abbbiamo provato il teorema. • span{F (vs+1 ), . . . , F (vn )} = F (V ). Sia w ∈ F (V ), esiste v ∈ V tale che F (v) = w. v = a1 v1 + . . . + as vs + as+1 vs+1 + . . . + an vn , quindi, per la linearità di F , e poiché i primi s vettori di V stanno in ker(F ), w = F (v) = a1 F (v1 ) + . . . + as F (vs ) + as+1 F (vs+1 ) + . . . + an F (vn ) = as+1 F (vs+1 ) + . . . + an F (vn ). • {F (vs+1 ), . . . , F (vn )} sono linearmente indipendenti. 17 si dice nullità la dimensione del nucleo di un’applicazione lineare, si dice rango la dimensione dell’immagine 18 Sia as+1 F (vs+1 ) + . . . + an F (vn ) = 0, una combinazione lineare nulla. Abbiamo 0 = as+1 F (vs+1 ) + . . . + an F (vn ) = F (as+1 vs+1 + . . . + an vn ). Per cui as+1 vs+1 + . . . + an vn ∈ ker(F );questo vettore è quindi combinazione lineare dei vettori della base di ker(F ). Esistono a1 , . . . , as tali che as+1 vs+1 + . . . + an vn = a1 v1 + . . . + as vs , e pertanto −a1 v1 − . . . − as vs + as+1 vs+1 + . . . + an vn = 0 rappresenta una combinazione lineare nulla dei vettori della base di V . Ne segue che tutti i coefficenti e in particolare as+1 . . . + an sono nulli. Vediamo come utilizzare la dimostrazione del teorema per classificare le applicazioni lineari fra due spazi vettoriali diversi modulo automorfismi. Completiamo la base {F (vs+1 ), . . . , F (vn )} di F(V) in una base W di W , aggiundendo opportunamente k vettori, w1 , . . . , wk , con k = m − (n − s). W = {F (vs+1 ), . . . , F (vn ), w1 , . . . , wk }. La matrice associata a F rispetto 0 ... 0 ... .. .. . . 0 . . . MWV (F ) = 0 ... . .. .. . le basi V e W è 0 0 .. . 0 0 .. . 0 ... 0 1 0 .. . 0 ... 1 ... .. . . . . 0 0 ... 0 0 ... .. .. .. . . . 0 0 ... 0 0 .. . 1 0 .. . 0 Ir = 0 0 0 dove Ir è la matrice unità di dimensione uguale al rango di F . Poiché due matrici che rappresentano la stessa applicazione lineare rispetto a basi diverse hanno lo stesso rango, possiamo concludere che troviamo nella classe di equivalenza di un applicazione lineare F fra spazi diversi modulo automorfismi (dello spazio di partenza e di arrivo), tutte e sole le applicazioni che hanno lo stesso rango di F . Quindi il rango classifica le applicazioni lineari. 19 2.2 Triangolarizzazione degli operatori Il fatto fondamentale che distingue la teoria degli operatori in campo comlesso da quella in campo reale è che in C un operatore ha sempre almeno un autovalore, perché il polinomio caratteristico ha almeno una radice. Definizione 2.1 Una matrice quadrata A = (aij ) si dice triagolare superiore se aij = 0 per i > j. Proposizione 2.3 Ogni operatore T su uno spazio vettoriale complesso V è triangolarizzabile, cioè esiste una base V per cui la matrice associata MVV (T ) è triangolare superiore. Dim. La dimostrazione è per induzione sulla dimensione di V . Per gli spazi di dimensione 1 la proposizione è banale. Assumiamo che ogni operatore su uno spazio vettoriale complesso di dimensione n − 1 sia triangolarizzabile. Sia λ1 un autovalore di T (esiste perchè siamo su uno spazio vettoriale complesso) e sia v1 un suo autovettore. Completiamo v1 fino a una base di V . Sia questa V = {v1 , v2 , . . . , vn }. La matrice associata a T , rispetto alla base V, ha la forma λ1 a12 . . . a1n 0 a22 . . . a2n λ1 B MVV (T ) = . = . .. .. .. 0 A .. . . . 0 an2 . . . ann Sia W = span{v2 , . . . , vn }. Sia P la proiezione da V in W definita da P :V v = a1 v1 + a2 v2 + . . . + an vn −→ 7−→ W a2 v2 + . . . + an vn L’applicazione18 P ◦ T|W : W → W è un operatore su uno spazio vettoriale di dimensione n − 1, che rispetto alla base {v2 , . . . , vn } di W ha, come matrice associata, la matrice A. Per ipotesi induttiva esiste una base W = {w2 , . . . , wn } di W , rispetto la quale la matrice associata a T , MWW (P ◦ T|W ), è triangolare superiore. U = {v1 , w2 , . . . , wn } è una base di V e la matrice assocata a T rispetto U è λ1 D MU U (T ) = 0 MWW (P ◦ T|W ) dove D è un non precisato vettore riga, infatti tutte le componenti, esclusa la prima, dei vettori T (w2 ), . . . , T (wn ), rispetto alla base U, sono uguali alle componenti dei vettori P ◦ T|W (w2 ), . . . , P ◦ T|W (wn ), rispetto alla base W. MU U (T ) è triangolare superiore. 18 conT |W intendiamo la restrizione di T al sottospazio W 20 Definizione 2.2 Sia T un operatore su uno spazio vettoriale reale o complesso, definiamo spettro di T l’insieme delle radici complesse del polinomio caratteristico. Per un operatore T su uno spazio vettoriale reale V , lo spettro19 coincide con l’insieme degli degli autovalori dell’estensione TC di T al complessificato VC . Si osservi che la proposizione (2.3) non è vera in campo reale, in quanto ogni operatore triangolarizzabile ha almeno un autovettore (il primo vettore di una base che lo triangolarizza), mentre esistono operatori privi di autovettori, quali, 2 ad esempio, le rotazioni nello spazio vettoriale VO , di angolo diverso da 0 e π. Comunque vale la seguente Proposizione 2.4 Un operatore T su uno spazio vettoriale reale V , con lo spettro tutto reale, è triangolarizzabile. la cui dimostrazione è simile alla precedente, poiché nella prova è intervenuta l’ipotesi che il campo sia complesso, solo per provare l’esistenza di un autovettore. Bisogna osservare anche che, se T ha lo spettro tutto reale, pure P ◦ T|W ha lo spettro tutto reale. 2.3 Somma e somma diretta di sottospazi Definizione 2.3 Siano U e W due sottospazi dello spazio vettoriale V , l’insieme U + W := {v ∈ V |v = u + w, u∈U w ∈ W} si dice la somma di U e W . È facile provare che U +W è un sottospazio vettoriale di V . Anche l’intersezione dei due sottospazi, U ∩ W , è un sossospazio vettoriale di V . Il seguente teorema lega la dimensione della somma di sue sottospazi con la dimensione della loro intersezione. Proposizione 2.5 (teorema di Grassmann) Siano U e W due sottospazi vettoriali di V , abbiamo dim U + dim W = dim(U ∩ W ) + dim(U + W ). Dim. Siano {v1 , . . . , vr } una base di U ∩ W . U ∩ W è, sia un sottospazio di U , sia un sottospazio di W . Completiamo la base di U ∩ W fino a ottenere basi di U e di W . Siano rispettivamente {v1 , . . . , vr , u1 , . . . , us } una base di U , {v1 , . . . , vr , w1 , . . . , wt } una base di W . Abbiamo che dim U = r + s, dim W = 19 alcuni autori intendono con spettro di un operatore reale l’insieme delle radici reali del polinomio caratteristico 21 r + t. Ci basta provare che dim(U + W ) = r + s + t, per poter concludere di aver dimostrato il teorema. Proviamo quindi che {v1 , . . . , vr , u1 , . . . , us , w1 , . . . , wt } è una base di U + W . • span{v1 , . . . , vr , u1 , . . . , us , w1 , . . . , wt } = U + W. Sia u + w un generico vettore di U + W . u = a1 v1 + . . . + ar vr + b1 u1 + . . . + bs us w = c1 v1 + . . . + cr vr + d1 w1 + . . . + dt wt . segue u+w = (a1 +c1 )v1 +. . .+(ar +cr )vr +b1 u1 +. . .+bs us +d1 w1 +. . .+dt wt . • v1 , . . . , vr , u1 , . . . , us , w1 , . . . , wt sono linearmente indipendenti. Sia a1 v1 + . . . + ar vr + b1 u1 + . . . + bs us + c1 w1 + . . . + ct wt = 0 (12) una loro combinazione lineare nulla. Il vettore w := c1 w1 + . . . + ct wt appartiene a W , ma appartiene anche a U , perché w = −(a1 v1 + . . . + ar vr + b1 u1 + . . . + bs us ) ∈ U, quindi w ∈ U ∩ W. Pertanto w ∈ U ∩ W e quindi w = d1 v1 + . . . + dr vr e sostituendo in (12) otteniamo (a1 + d1 )v1 + . . . + (ar + dr )vr + b1 u1 + . . . + bs us = 0, che, essendo una combinazione lineare dei vettori della base di U , può essere nulla solo se (a1 + d1 ) = . . . = (ar + dr ) = b1 = . . . = bs = 0. Utilizziamo il fatto che b1 = . . . = bs = 0 nella (12); otteniamo a1 v1 + . . . + ar vr + c1 w1 + . . . + cs wt = 0, che, essendo una combinazione lineare dei vettori di una base di W , può essere nulla solo se a1 = . . . = ar = c1 = . . . = cr = 0. Dunque i coefficienti della (12) sono necessariamente tutti nulli. 22 Definizione 2.4 La somma di due sottospazi U e W dello spazio vettoriale V si dice diretta se U ∩ W = {0}; in tal caso la somma si scrive U ⊕ W Per il teorema di Grassmann dim(U ⊕ W ) = dim U + dim W . Vale la seguente Proposizione 2.6 Ogni vettore v ∈ U ⊕ W si scrive in uno e un sol modo come somma, v = u + w, di un vettore u ∈ U e di un vettore w ∈ W . Dim. Supponiamo che il vettore v ∈ U ⊕ W si possa scrivere in due modi come somma di un vettore che sta in U e un vettore che sta in W . v = u1 + w1 = u2 + w2 , u1 , u2 ∈ U, w1 , w2 ∈ W ; abbiamo che il vettore u1 − u2 = w2 − w1 appartiene sia a U che a W . Dunque u1 − u2 = w2 − w1 = 0, perché U ∩ W = {0}. Da qui u1 = u2 e w1 = w2 . La definizione di somma diretta si estende al caso della sommna di un numero finito di sottospazi nel modo seguente Definizione 2.5 La somma dei sottospazi W1 , . . . , Wr si dice diretta (e si scrive W1 ⊕ . . . ⊕ Wr ) se ogni vettore v ∈ W1 + . . . + Wr è somma in uno e un sol modo di r vettori, v1 , . . . , vr , con v1 ∈ W1 , . . . , vr ∈ Wr . Proposizione 2.7 dim(W1 ⊕ . . . ⊕ Wr ) = dim W1 + . . . + dim Wr Dim. Siano W1 . . . Wr r basi, rispettivamente di W1 , . . . , Wr . La loro unione, W, è una base di W1 ⊕ . . . ⊕ Wr , infatti • W genera W1 ⊕ . . . ⊕ Wr perché ogni vettore di W1 ⊕ . . . ⊕ Wr è somma di r vettori, w1 ∈ W1 , . . . , wr ∈ Wr , ciascuno dei quali è combinazione lineare dei vettori delle basi dei rispettivi spazi. • W è un insieme di vettori linearmente indipendenti, perché , se vi fosse una combinazione lineare non banale dei vettori di W, avremmo che il vettore nullo, oltre a scriversi come 0 + . . . + 0 si scrive anche in un modo diverso come somma di r vettori, w1 ∈ W1 , . . . , wr ∈ Wr . 2.4 I teorema di riduzione Definizione 2.6 Sia T un operatore sullo spazio vettoriale V . Un sottospazio W , di V , si dice T -invariante (o invariante per T o anche T-stabile) se T (W ) ⊆ W. 23 Se T è diagonalizzabile e V = {v1 , . . . , vn } è una base che diagonalizza T allora span{v1 }, . . . , span{vn } sono spazi T -invarianti e V = span{v1 } ⊕ . . . ⊕ span{vn }, anzi è facile vedere che T è diagonalizzabile se e solo se V è somma diretta di n sottospazi T -invarianti di dimensione 1. È pertanto naturale ricercare per gli operatori non diagonalizzabili la decomposizione di V in una somma diretta con il maggior numero di sottospazi T -invarianti. Con questo obiettivo in mente, introciamo la seguente: Definizione 2.7 Sia λ un autovalore di T , v ∈ V si dice una radice per T di ordine m relativa all’autovalore λ, se (T − λId)m (v) = 0 e m è il più piccolo numero naturale per cui vale tale proprietà. Gli autovalori sono radici di ordine 1. Proposizione 2.8 L’insieme delle radici di T relative all’autovalore λ è un sottospazio vettoriale che indichiamo con R(T, λ). Dim. Sia v ∈ R(T, λ); esiste m ∈ N tale che (T − λId)m (v) = 0; ne segue che (T − λId)m (kv) = k(T − λId)m (v) = 0, dunque kv ∈ R(T, λ). Siano v1 , v2 ∈ R(T, λ); esistono m1 , m2 ∈ N tali che (T − λId)m1 (v1 ) = 0 e (T − λId)m2 (v2 ) = 0; ne segue (T − λId)max(m1 ,m2 ) (v1 + v2 ) = (T − λId)max(m1 ,m2 ) (v1 ) + (T − λId)max(m1 ,m2 ) (v2 ) = 0 Proposizione 2.9 R(T, λ) è T -invariante. Dim. Sia v ∈ R(T, λ). Esiste m ∈ N tale che (T − λId)m (v) = 0. Anche (T − λId)m+1 (v) = 0. Quindi 0 = (T − λId)m+1 (v) = (T − λId)m ((T − λId)(v)) = (T − λId)m (T (v) − λv) = m (T − λId) (T (v)) − λ(T − λId)m (v) = (T − λId)m (T (v)). Quindi anche T (v) è una radice relativa a λ. Teorema (I Teorema di riduzione) 24 Sia T : V → V un operatore sullo spazio vettoriale complesso di dimensione finita V . Siano λ1 , . . . , λk i suoi autovalori. Allora V = R(T, λ1 ) ⊕ . . . ⊕ R(T, λk ) Omettiamo la dimostrazione del teorema20 , ma cerchiamo di saperne di più sul sottospazio delle radici. T|R(T,λ) ha il solo autovalore λ, perché se avesse anche un diverso autovalore µ, un autovettore di T|R(T,λ) relativo a µ, sarebbe anche autovettore di T e quindi apparterrebbe a R(T, µ) contro al fatto che R(T, λ) ∩ R(T, µ) = 0. Ne segue che la dimensione di R(T, λ) è uguale alla molteplicità algebrica di λ. Consideriamo una base Vλ di R(T, λ) che triangolarizza T|R(T,λ) ; sulla diagonale di MVλ Vλ (T|R(T,λ) ) troviamo gli autovalori, pertanto λ a12 . . . a1n 0 λ . . . a2n MVλ Vλ (T|R(T,λ) ) = . .. .. . .. .. . . . 0 0 ... λ Poiché ogni sottospazio è Id-invariante, abbiamo Proposizione 2.10 R(T, λ) è (T − µId)-invariante, qualunque sia µ, in particolare è (T − λId)-invariante. Rispetto la base Vλ indicata sopra abbiamo λ−µ a12 . . . a1n 0 λ − µ . . . a2n MVλ Vλ ((T − µId)|R(T,λ) ) = . .. .. .. .. . . . . 0 0 ... λ−µ Definizione 2.8 Un operatore T su V si dice nilpotente se esiste m ∈ N tale che T m = 0 ( cioè T m (v) = 0 per ogni v ∈ V ); si dice nilpotente di ordine m se m è il più piccolo indice tale che T m = 0. Proposizione 2.11 Sia λ un autovalore dell’operatore T sullo spazio di dimensione finita V . (T − λId)|R(T,λ) : R(T, λ) → R(T, λ) è nilpotente. Dim. Rispetto alla base Vλ di R(T, λ) , che triangolarizza 0 a12 . . . . . . 0 0 a23 . . . .. .. .. MVλ Vλ ((T − λId)|R(T,λ) ) = ... . . . 0 0 ... 0 0 0 ... 0 (T − λId), a1n a2n .. . an−1 n 0 20 può essere trovata sul libro di Ciliberto Algebra lineare, oppure sulle vecchie note del Corso di Complementi di Algebra lineare 25 è una matrice triangolare superiore con diagonale principale nulla. Il quadrato di questa matrice ha nulla anche la diagonale immediatamente a destra della diagonale principale: 0 0 ∗ ... ∗ ∗ 0 0 0 ... ∗ ∗ .. .. . . . . .. .. . . . . . . , (MVλ Vλ ((T − λId)|R(T,λ) ))2 = . .. 0 ∗ 0 0 0 0 0 0 ... 0 0 0 0 0 ... 0 0 dove al posto degli ∗ vi sono numeri non meglio precisati. Ogni successiva potenza determina un’ulteriore diagonale nulla, per cui (T − λId)|R(T,λ) è nilpotente e l’ordine di nilpotenza è, al più, uguale alla molteplicità algebrica di λ. Osserviamo che l’ordine di nilpotenza di (T − λId)|R(T,λ) è uguale al più piccolo m tale che ker(T − λId)m+1 = ker(T − λId)m . Ciò deriva dal fatto che, se ker(T − λId)m+1 = ker(T − λId)m allora per ogni k ∈ N ker(T − λId)m+k = ker(T − λId)m ; infatti sia v ∈ ker(T − λId)m+k , abbiamo 0 = (T − λId)m+k (v) = (T − λId)m+1 ((T − λId)k−1 (v)) = (T − λId)m ((T − λId)k−1 (v)) = (T − λId)m+k−1 (v) Iterando il procedimento k volte, otteniamo (T −λId)m (v) = 0, cioè v ∈ ker(T − λId)m . 2.5 Il II teorema di riduzione Il primo teorema di riduzione mostra una prima decomposizione di V in somma diretta di sottospazi T -invarianti. Dobbiamo chiederci se un sottospazio delle radici possa essere, a sua volta, somma diretta di sottospazi T -invarianti. Un sottospazio W di R(T, λ) è T -invariante se e solo se è (T −λId)-invariante. Possiamo quindi limitarci a cercare sottospazi di R(T, λ), (T − λId)-invarianti. Il vantaggio sta nel fatto che (T − λId)|R(T,λ) è un operatore nilpotente. Introduciamo la seguente 26 Definizione 2.9 Sia G un operatore sullo spazio vettoriale V di dimensione n, G si dice ciclico se esiste una base, V = {v1 , . . . , vn }, detta base ciclica, tale che G(v1 ) = 0 G(v2 ) = v1 .. . G(vn ) = vn−1 È immediato verificare che ogni operatore ciclico è nilpotente. La matrice associata all’operatore ciclico G rispetto una base ciclica ha la forma 0 1 0 ... 0 0 0 1 ... 0 .. . .. Jn := ... ... . . 0 0 0 ... 1 0 0 0 ... 0 0 è il solo autovalore di un operatore ciclico G, con molteplicità algebrica n e molteplicità geometrica 1. Pertanto l’autospazio relativo all’autovalore 0 è span(v1 ). Per gli operatori nilpotenti vale il II teorema di riduzione, di cui omettiamo la dimostrazione. Teorema (II Teorema di riduzione) Sia G un operatore nilpotente sullo spazio vettoriale V . Esistono sottospazi G-invarianti W1 , . . . , Wk tali che V = W1 ⊕ . . . ⊕ Wk e la restrizione, G|Wi , di G a ogni sottospazio Wi , è un operatore ciclico. Applicando il II teorema di riduzione all’operatore (T − λId)|R(T,λ) : R(T, λ) → R(T, λ) e, ricordando che un sottospazio (T − λId)-invariante è anche T -invariante, abbiamo che R(T, λ) = W1 ⊕ . . . ⊕ Wk , (13) dove i sottospazi Wi sono T -invarianti e gli operatori (T − λId)|Wi sono ciclici. Chiamiamo sottospazio di Jordan relativo all’autovalore λ dell’operatore T, un sottospazio W ⊆ V per cui (T − λId)|W è ciclico, e base di Jordan una base di W ciclica per (T − λId)|W . Sia V = {v1 , . . . , vr } una base di Jordan di W . Poiché la matrice associata a (T − λId)|W è 0 1 0 0 ... 0 0 0 1 0 ... 0 0 0 0 1 ... 0 Jr = . . . (14) .. , .. .. .. .. . . 0 0 0 0 ... 1 0 0 0 0 ... 0 27 la matrice associata a T |W rispetto a λ 1 0 λ .. .. . . Jr (λ) = . . .. .. 0 0 0 0 V è 0 1 .. . ... ... .. . 0 0 .. .. . ... ... 0 0 0 0 .. . .. . 1 λ . λ 0 . (15) La matrice Jr (λ) si chiama blocco di Jordan di ordine r relativo a λ o λ-blocco di Jordan di ordine r. Sia Vi = {vi1 , . . . , vir(i) } una base di Jordan di Wi ; dalla (13) segue che ∪ki=1 Vi è una base di R(T, λ) e rispetto a questa base l’operatore T |R(T,λ) è rappresentato da una matrice avente sulla diagonale k blocchi di Jordan. Essa ha la forma r(1) z λ r(2) }| 1 0 .. . λ 0 0 0 0 .. .. . . ... ... { z 0 0 0 .. . 0 .. . λ 0 1 λ 0 λ r(k) }| 1 0 .. . λ 0 0 0 0 .. .. . . ... ... { 0 0 0 .. . λ 0 0 .. . 1 λ z 0 .. . .. . .. . 0 λ }| 1 0 .. . λ 0 0 0 0 .. .. . . ... ... { 0 0 0 .. . 0 .. . λ 0 1 λ ; dove i singoli blocchi di Jordan hanno ordine uguale alla dimensione dei Wi ; nel caso che un blocco abbia dimesione 1 allora è formato dal solo autovalore. Come si vede, si tratta di una matrice con tutti zeri eccetto che sulla diagonale dove troviamo l’autovalore λ e sulla prima parallela destra della diagonale dove troviamo una sequenza di 1 e 0, che servono a individuare i blocchi di Jordan. 28 2.6 Forma canonica di Jordan Combiniamo il I e il II teorema di riduzione. Per ognuno dei sottospazi delle radici esiste una decomposizione in sottospazi di Jordan, quindi V è somma diretta di sottospazi di Jordan, che ricordo sono T invarianti. Prendendo una base di Jordan per ciascuno dei sottospazi di Jordan e facendone l’unione, ottengo una base W di V, rispetto la quale la matrice associata a T ha lungo la diagonale blocchi di Jordan relativi ai vari autovalori di T . Supponiamo che sia si il numero dei (λi )-blocchi di Jordan che trovo sulla diagonale; la matrice associata a T rispetto W può essere schematizzata nella seguente nella matrice a bloccchi, dove i blocchi non rappresentati sono tutti nulli e dove l’indice che numera i blocchi di Jordan è indicato fra parentesi per non confonderlo con l’indice che mostra (quando è scritto) l’ordine del blocco di Jordan. J(1) (λ1 ) .. . J(s1 ) (λ1 ) .. . . (16) MWW (T ) = . .. J(1) (λk ) .. . J(sk ) (λk ) Definizione 2.10 Una matrice che è nulla, salvo avere lungo la diagonale blocchi di Jordan si dice una forma canonica di Jordan. Da quanto sopra detto abbiamo Proposizione 2.12 Per ogni operatore T su uno spazio vettoriale complesso di dimensione finita esiste una base rispetto la quale la matrice associata è una forma canonica di Jordan Poiché ogni matrice complessa definisce un operatore su Cn , vi è un equivalente della proposizione precedente in termini di matrici. Proposizione 2.13 Ogni matrice quadrata complessa è simile in C a una forma canonica di Jordan. Si osservi che i sottospazi delle radici sono univocamente determinati dall’operatore T ; non cosı̀ i sottospazi di Jordan. Se consideriamo ad esempio l’operatore nullo su V , questo ha un solo autovalore, lo zero, a cui corrisponde come sottospazio delle radici lo stesso spazio V . Ogni sottospazio di dimensione 1 è un sottospazio di Jordan, ed esistono infinite decomposizioni di V in somma diretta di sottospazi di Jordan. 29 Sono invece univocamente determinati da T , sia il loro numero sia le loro dimensioni21 , e la prova di questa affermazione seguirà dall’algoritmo che serve a calcolare la forma canonica di Jordan dell’operatore T . Cominciamo col calcolare il rango delle potenze di (Jr (λ) − λIr ). Da (14) e (15) abbiamo che Jr (λ) − λIr = Jr e quindi rk(Jr (λ) − λIr ) = r − 1. 0 0 .. . J2r = 0 0 0 0 0 .. . 1 0 .. . 0 0 0 0 0 0 0 ... 0 1 ... 0 .. .. . . 0 ... 1 0 ... 0 0 ... 0 dunque rk(Jr (λ) − λIr )2 = r − 2. Ogni volta che si alza di uno l’esponente di Jr , la diagonale degli uni si sposta di un posto verso destra e verso l’alto cosicché il rango scende di uno. Pertanto r − h se h ≤ r h rk(Jr (λ) − λIr ) = (17) 0 se h ≥ r a cui diamo un senso anche per h = 0, convenendo che, per ogni matrice quadrata non nulla A, A0 = I. Se µ 6= λ, indipendentemente dal valore di h, rk(Jr (µ) − λIr )h = r. Valutiamo ora come varia il rango di (T − λId)h al crescere di h. Sia W una base rispetto la quale la matrice associata a T sia in forma canonica di Jordan; con le notazioni della (16) abbiamo rk(T − λId)h = rk((MWW (T ) − λIn )h = si k X X rk(J(j) (λi ) − λIr(i,j) )h , i=1 j=1 dove r(i, j) è l’ordine di J(j) (λi ). Se λi 6= λ, il rango di (J(j) (λi ) − λI)h non varia al crescere di h, mentre, per la (17), se λi = λ, al crescere di 1 dell’esponente h, il rango di (J(j) (λi ) − λI)h diminuisce di 1, purché (J(j) (λi ) − λI)h non sia già diventata la matrice nulla, nel qual caso il rango non può ulteriormente diminuire al crescere di h. Pertanto rk(T − λId)h−1 − rk(T − λId)h 21 questo giustifica la parola canonica che si dà alla forma di Jordan 30 (18) rappresenta il numero dei λ-blocchi di Jordan con ordine maggiore o uguale a h. Ne segue la seguente Proposizione 2.14 Sia ρ(T, λ, h) il numero del λ-blocchi di Jordan di ordine h, che si trovano in una forma canonica di Jordan associata all’operatore T . Vale ρ(T, λ, h) = rk(T − λId)h−1 − 2rk(T − λId)h + rk(T − λId)h+1 (19) Dim. Dalla (18) segue subito ρ(T, λ, h) = (rk(T − λId)h−1 − rk(T − λId)h ) − (rk(T − λId)h − rk(T − λId)h+1 ) da cui la tesi. La formula (19) permette di calcolare ρ(T, λ, h) direttamente da T , senza dover determinare una base rispetto la quale la matrice associata a T sia una forma canonica di Jordan, quindi i numeri ρ(T, λ, h) non dipendono dalla base usata per rappresentare T in forma canonica di Jordan. Da ciò ne deriva Teorema(della riduzione a forma canonica di Jordan) Sia T un operatore sullo spazio vettoriale complesso di dimensione finita V . Esiste una base W rispetto la quale la matrice associata a T è una forma canonica di Jordan, la quale è univocamente determinata da T , salvo l’ordine con cui compaiono i blocchi di Jordan sulla diagonale di MWW (T ). Gli invarianti ρ(T, λ, h) servono anche a classificare le matrici quadrate complesse rispetto la relazione di similitudine. Sia A ∈ Mnn (C) e sia TA : Cn → Cn l’operatore che definito da T (x) = Ax. Indichiamo con ρ(A, λ, h) := ρ(TA , λ, h). Abbiamo che Proposizione 2.15 Due matrici A, B ∈ Mnn (C) sono simili se e solo se 1. hanno gli stessi autovalori 2. ρ(A, λ, h) = ρ(B, λ, h), per ogni autovalore λ e per ogni naturale h minore o uguale della moltepliciyà algebrica di λ. Dim. Due matrici simili rappresentano lo stesso operatore rispetto basi diverse quindi hanno gli stessi autovalori e gli stessi ρ(−, λ, h); viceversa se, A e B hanno gli stessi autovalori e ρ(A, λ, h) = ρ(B, λ, h), per ogni λ e per ogni h, allora sono simili alla stessa forma canonica di Jordan, quindi simili fra loro. 31 Similmente, gli invarianti ρ(T, λ, h) sono sufficienti a classificare anche gli operatori modulo automorfismi nel senso che due operatori T e T 0 sono equivalenti modulo automorfismi e hanno quindi le stesse proprietà algebriche22 , se e solo se hanno gli stessi autovalori e hanno uguali gli invarianti ρ(T, λ, h), ρ(T 0 , λ, h). Un’ulteriore osservazione è che la decomposizione di V in somma diretta di sottospazi T -invarianti, data dalla riduzione a forma canonica di Jordan, non è ulteriormente migliorabile nel senso che non esiste un’altra decomposizoione di V in un maggior numero di sottospazi T -invarianti, perché altrimenti la restrizione di T a ciascuno di questi sottospazi sarebbe, a sua volta, riducibile a forma canonica di Jordan e complessivamente ritroverei due decomposizioni di T a forma canonica di Jordan con diversi valori per ρ(T, λ, h), contro l’unicità. Che dire infine della classificazione delle matrici quadrate reali a meno di similitudine? La teoria della riduzione a forma canonica di Jordan risolve anche questo problema. Vale infatti Proposizione 2.16 Due matrici quadrate reali A, B ∈ M nn (R) sono simili se e solo se sono simili come matrici complesse. Cioè ∃M ∈ GLn (R), A = M −1 BM ⇐⇒ ∃C ∈ GLn (C), A = C −1 BC. Dim. L’implicazione =⇒ è banale. Viceversa. Sia C ∈ Mnn (C) tale A = C −1 BC. Segue CA = BC da cui, coniugando e tenendo presente che che A e B sono reali C̄A = B C̄, e quindi BC + B C̄ CA + C̄A = = BRe(C) 2 2 CA + C̄A BC + B C̄ Im(C)A = = = BIm(C). 2i 2i Non possiamo concludere che A e B sono simili come matrici reali perché, pur essendo Re(C) e Im(C) matrici reali, non sappiamo se sono invertibili. Poiché anche ogni combinazione lineare aReC + bImC è tale che Re(C)A = (aReC + bImC)A = B(aReC + bImC), dobbiamo chiederci se esistono a, b ∈ R tali che (aReC + bImC) è invertibile. Scegliamo a = 1 e osserviamo che det(ReC + bImC) 22 vedi paragrafo (2.1) 32 è un polinomio in b, a coefficienti reali, non identicamente nullo, in quanto calcolato sul numero complesso i assume il valore det C 6= 0. Esiste dunque almeno un numero reale b̃ (ne esistono infiniti) tale che det(ReC + b̃ImC) 6= 0. Sia M = (ReC + b̃ImC), ho M ∈ GLn (R) e A = M −1 BM . Interpretando il risultato precedente in termini di operatori, abbiamo che lo spettro e gli invarianti ρ(TC , λ, h) sono sufficienti a classificare anche gli operatori su uno spazio vettoriale reale a meno di automorfismi: due operatori T e T 0 sullo spazio vettoriale reale V sonno equivalenti a meno di automorfismi, e hanno quindi le stesse ”proprietà algebriche”23 se e solo se hanno lo stesso spettro e i loro complessificati hanno gli invarianti ρ(TC , λ, h) e ρ(TC0 , λ, h) uguali. 2.7 Un esempio di calcolo della forma canonica di Jordan Sia T l’operatore che T : C4 x dove 0 0 1 0 0 −λ 1 0 0 1 −λ 0 1 0 A= 0 0 PT (λ) = det 1−λ 0 0 0 −→ C4 7−→ Ax 0 1 0 0 1 0 1 1 1 0 = (1 − λ)3 (1 + λ). 1 1−λ Ho due autovalori λ1 = 1 di molteplicità algebrica 3 e λ2 = −1 di molteplicità algebrica 1. Da ciò segue che necessariamente ρ(T, λ2 , 1) = 1 e non serve calcolare altro per l’autovalore λ2 . Calcoliamo ora ρ(T, λ1 , 1), ρ(T, λ1 , 2) e ρ(T, λ1 , 3). Determiniamo 0 0 0 1 0 −1 1 0 rk(T − λ1 I4 ) = rk 0 1 −1 1 = 2 0 0 0 0 0 0 0 0 0 2 −2 0 rk(T − λ1 I4 )2 = rk 0 −2 2 0 = 1 0 0 0 0 23 vedi paragrafo (2.1) 33 rk(T − λ1 I4 )3 = 1. Per l’ultimo rango non è necessario fare calcoli, perché la molteplicità algebrica di λ1 è 3 e dunque rk(T − λ1 I4 )3 = dim(C4 ) − 3 = 1. E’ anche inutile calcolare rk(T −λ1 I4 )4 , perché all’aumentare dell’esponente oltre la molteplicità algebrica il rango non scende più. Dalla (19) abbiamo ρ(T, λ1 , 1) = 4 − 2 · 2 + 1 = 1 ρ(T, λ1 , 2) = 2 − 2 · 1 + 1 = 1 ρ(T, λ1 , 3) = 1 − 2 · 1 + 1 = 0 Esiste una base W per cui la matrice associata a T rispetto a W è 1 1 0 0 0 1 0 0 MWW (T ) = 0 0 1 0 . 0 0 0 −1 34 3 Forme bilineari e forme sesquilineari 3.1 Definizioni Sia V uno spazio vettoriale su K . Definizione 3.1 Un’applicazione B : V × V → K si dice bilineare se 1. B(v + w, z) = B(v, z) + B(w, z) 2. B(kv, w) = kB(v, w) 3. B(v, w + z) = B(v, w) + B(v, z) 4. B(v, kw) = kB(v, w) La forma si dice inoltre simmetrica se B(v, w) = B(w, v) e antisimmetrica ( o alternante) se B(v, w) = −B(w, v). Sia V uno spazio vettoriale su C . Definizione 3.2 Un’applicazione H : V × V → C si dice sesquilineare se 1. H(v + w, z) = H(v, z) + H(w, z) 2. H(kv, w) = kH(v, w) 3. H(v, w + z) = H(v, w) + H(v, z) 4. H(v, kw) = k̄H(v, w) La forma si dice inoltre hermitiana se H(v, w) = H(w, v) e antihermitiana se H(v, w) = −H(w, v) Le proprietà 1 e 2 segnalano che B (H) è lineare nella prima variabile, le proprietà 3 e 4 segnalano che B è lineare (H antilineare) nella seconda variabile. Proposizione 3.1 Ogni forma bilineare (sesquilineare) è somma di una forma simmetrica e una antisimmetrica (hermitiana e antihermitiana). Dim. B(v, w) + B(w, v) B(v, w) − B(w, v) + (20) 2 2 Il primo addendo è una forma bilineare simmetrica, S(B), il secondo è una forma bilineare antisimmtrica, A(B). B(v, w) = H(v, w) = H(v, w) + H(w, v) H(v, w) − H(w, v) + 2 2 (21) Il primo addendo è una forma hermitiana il secondo è una forma antihermitiana. 35 A ogni forma bilineare B(v, w) si può associare una forma quadratica Q : V → K, definita da Q(v) = B(v, v). Per ogni forma quadratica vale Q(kv) = k 2 Q(v) Q(v + w) = Q(v) + Q(w) + B(v, w) + B(w, v). Se la forma è simmetrica allora Q(v + w) − Q(v) − Q(w) . (22) 2 Molte forme bilineari definiscono la stessa forma quadratica ma fra di loro ve ne è una sola simmetrica; infatti B e S(B) generano la stessa forma quadratica, il che garantisce che nell’insieme delle forme bilineari che generano la stessa forma quadratica ve ne è una simmetrica, e d’altra parte per la (22) questa è univocamente determinata da Q. In modo analogo a quanto visto sopra, a una forma sesquilineare H(v, w) si associa la forma H-quadratica QH : V → C, definita da B(v, w) = QH (v) = H(v, v). Per ogni forma H-quadratica vale 2 QH (kv) = |k| QH (v) QH (v + w) = QH (v) + QH (w) + H(v, w) + H(w, v), da cui se la forma H è hermitiana si ha H(v, w) = ReH(v, w) + iImH(v, w) = QH (v + iw) − QH (v) − QH (w) QH (v + w) − QH (v) − QH (w) +i . (23) 2 2 Osserviamo che la forma H-quadratica associata a una forma hermitiana è reale, nel senso che assume solo valori reali, infatti h(v, v) = h(v, v) ∈ R. (Analogamente la forma H-quadratica associata a una forma antihermitiana è immaginaria pura.) Vi è corrispondenza biunivoca fra le forme hermitiane e le forme H-quadratiche reali, infatti dalla (21) segue che fra tutte le forme sesquilineari che definiscono una forma H-quadratica reale ve ne è una hermitiana e d’altra parte una forma hermitiana che definisce una forma H-quadratica reale QH può essere ricostruita a partire da QH , per la (23), ed è quindi univocamente determinata. Esempio 3.1 Sia A ∈ Mnn (K) l’applicazione B : Kn × Kn (x, y) → K 7→ xt Ay è una forma bilineare in Kn . La forma B è simmetrica se e solo se A è simmetrica. 36 Definizione 3.3 Una matrice A ∈ Mnn (C) si dice hermitiana se A = Āt . Esempio 3.2 Sia A ∈ Mnn (C), l’applicazione H : C n × Cn (x, y) → C 7→ xt Aȳ è una forma sesquilineare in Cn . La forma H è hermitiana se e solo se A è hermitiana. 3.2 Matrici associate a forme bilineari e sesquilineari Sia B : V × V → K una forma bilineare e sia H : V × V → C una forma sesquilineare; (si intende che nel primo caso V è uno spazio vettoriale su K , nel secondo uno spazio vettoriale su C .) Sia V = {v1 , . . . , vn } una base di V . Definiamo MV (B) := (B(vi , vj ))1 ≤ i ≤ n MV (H) := (H(vi , vj ))1 ≤ i ≤ n . 1 ≤ j ≤ n 1 ≤ j ≤ n Siamo in grado, adesso,Pdi rappresentarePin coordinate la forma bilineare n n (sesquilineare). Siano v = i=1 xi vi e w = j=1 yj vj , n n X X B(v, w) = B xi vi , yj vj = i=1 n X xi yj B(vi , vj ) = i,j=1 n X j=1 xi yj MV (B)ij = xt MV (B)y. i,j=1 t dove x = (x1 , . . . , xn ) e y = (y1 , . . . , yn )t . Similmente n n X X H(v, w) = H xi vi , yj vj = i=1 n X i,j=1 xi ȳj H(vi , vj ) = n X j=1 xi ȳj MV (H)ij = xt MV (H)ȳ. i,j=1 La rappresentazione in coordinate rispetto alla base V della forma quadratica Q associata alla forma bilineare B è il seguente polinomio omogeneo di secondo grado, nelle coordinate x1 , . . . , xn del vettore v: Q(v) = B(v, v) = xt MV (B)x = n X n X xi xj B(vi , vj ), i=1 j=1 e nel caso in cui la forma bilineare B sia la forma bilineare simmetrica associata alla forma quadratica Q, posso scrivere 37 Q(v) = n X Q(vi )x2i +2 i=1 n n X X B(vi , vj )xi xj . i=1 j=i+1 Per cui, se il polinomio omogeneo di secondo grado n X aii x2i + n n X X i=1 aij xi xj i=1 j=i+1 rappresenta la forma quadratica Q, rispetto la base V, la matrice che rappresenta la forma bilineare simmetrica24 B associata alla forma quadratica Q, rispetto la stessa base, è a11 a212 . . . a21n a a 2n 12 a22 . . . 2 2 MV (B) = . . . ... ... . ... a1n a2n . . . ann 2 2 Nel caso di una forma hermitiana H la rappresentazione in coordinate della forma H-quadratica associata è data da QH (v) = n n X X i=1 j=1 xi xj H(vi , vj ) = n X QH (vi )|xi |2 +2 n n X X Re(H(vi , vj )xi x̄j ). i=1 j=i+1 i=1 La matrice associata a una forma bilineare (sesquilineare) dipende dalla base. Vediamo le relazioni che sussistono fra due matrici associate alla stessa forma rispetto due basi diverse. Sia V 0 = {v10 , . . . ,P vn0 } un’altra base P di V . Nella nuova n n base i vettori v, w si rappresentano v = i=1 x0i vi0 e w = j=1 yj0 vj0 . Dalle formule di cambiamento di coordinate abbiamo x = MVV 0 (id)x0 y = MVV 0 (id)y0 Da cui B(v, w) = xt MV (B)y = (MVV 0 (id)x0 )t MV (B)MVV 0 (id)y0 = t 0 x0t MVV 0 (id)MV (B)MVV 0 (id)y d’altra parte B(v, w) = x0t MV 0 (B)y0 pertanto t 0 x0t MV 0 (B)y0 = x0t MVV 0 (id)MV (B)MVV 0 (id)y che, valendo per ogni x0 e y0 , implica t MV 0 (B) = MVV 0 (id)MV (B)MVV 0 (id). 24 in qualche libro tale forma si chiama forma polare associata alla forma quadratica 38 Analogamente, nel caso sesquilineare, otteniamo t MV 0 (H) = MVV 0 (id)MV (H)MVV 0 (id). Definizione 3.4 Due matrici A, B ∈ Mnn (K) si dicono congruenti se esiste una matrice M ∈ GLn (K) tale che A = M t BM. Definizione 3.5 Due matrici A, B ∈ Mnn (C) si dicono H-congruenti se esiste una matrice M ∈ GLn (C) tale che A = M t B M̄ . Le relazioni di congruenza e H-congruenza sono di equivalenza. Verifica per esercizio. Abbiamo dunque provato che Proposizione 3.2 Le matrici associate alla stessa forma bilineare (sesquilineare) rispetto a due basi diverse sono congruenti (H-congruenti). La definizione di H-congruenza (3.5) è spesso presentata con la condizione A = M̄ t BM , che è del tutto equivalente, perché se M soddisfa la condizione della (3.5), allora M̄ soddisfa la variante su esposta. Proposizione 3.3 Il rango della matrice associata a una forma bilineare (sesquilineare) non dipende dalla base scelta. Dim. Moltiplicando una matrice per una matrice invertibile non si altera il rango e del resto il rango non viene alterato dalle operazioni di trasposizione e di coniugio di una matrice. Proposizione 3.4 Il determinante di una matrice associata a una forma hermitiana è reale. Dim. La matrice associata a una forma hermitiana è una matrice hermitiana, cioè A = Āt . Da cui det(A) = det(Āt ) = det(At ) = det(A). Definizione 3.6 Se il rango di una forma bilineare (o sesquilineare) è minore della dimesione di V allora la forma si dice degenere. Proposizione 3.5 Una forma bilineare B è non degenere se e solo se ∀v 6= 0 ∃w B(v, w) 6= 0 (o, equivalentemente, ∀w 6= 0 ∃v B(v, w) 6= 0. Stessa cosa per una forma sesquilineare H. 39 (24) Dim. La forma B in coordinate, rispetto a una base V, si rappresenta xt Ay, dove x e y sono vettori colonna che rappresentano le coordinate di v e w ed A = MV (B). B è non degenere se e solo se det(A) 6= 0. • B non degenere ⇒ (24) Da v 6= 0 segue x 6= 0 e questo implica rk(xt ) = 1; poiché il prodotto per una matrice invertibile non altera il rango, abbiamo rk(xt A) = 1; quindi (xt A) non è il vettore riga nullo e avrà una sua componente diversa da zero. Sia per semplicità la prima componente diversa da zero, allora il vettore y che ha la prima componente uguale a 1 e tutte le altre nulle è tale che xtAy 6= 0. Posto w = Vy, abbiamo B(v, w) 6= 0. • (24) ⇒ B non degenere Se vale la (24), allora per ogni x 6= 0, esiste y tale che xt Ay 6= 0; pertanto, per ogni x 6= 0, xt A 6= 0 ed trasponendo per ogni x 6= 0, At x 6= 0 . Il che significa che il sistema At x = 0 ha solo la soluzione banale e questo è possibile se e solo se det(A) 6= 0. Dunque B è non degenere. 3.3 Forme bilineari simmetriche e forme hermitiane Le definizione che seguono vengono enunciate per una forma bilineare simmetrica, ma valgono, sostituendo H a B, anche per una forma hermitiana. La scelta di una forma bilineare simmetrica B (hermitiana H) permette di introdurre la nozione di perpendicolarità nello spazio vettoriale V . Definizione 3.7 Siano v, w ∈ V . v si dice ortogonale a w (si scrive v ⊥ w), se B(v, w) = 0. Definizione 3.8 Sia S ⊂ V un sottoinsieme. Si definisce S ⊥ := {v ∈ V |B(v, w) = 0, ∀w ∈ S}. É facile verificare che S ⊥ è un sottospazio vettoriale. Definizione 3.9 Siano U, W, ⊂ V sottospazi. Si dice che U è perpendicolare a W ( U ⊥ W ) se U ⊂ W ⊥ . É immediato verificare che U ⊥ W ⇔ W ⊥ U . Il vettore nullo è ortogonale a ogni vettore dello spazio e se la forma è non degenere esso è l’unico vettore ortogonale a tutti i vettori di V . Definizione 3.10 Un vettore v ∈ V si dice isotropo se B(v, v) = Q(v) = 0 (H(v, v) = QH (v) = 0). 40 Il vettore nullo è un vettore isotropo e se la forma è degenere ci sono molti vettori isotropi, ma anche nel caso di forme bilineari non degeneri possono esistere vettori isotropi. Per esempio, per B : C×C (x, y) il vettore 1 i è isotropo. Ed anche per B : R×R (x, y) il vettore 1 0 → C 7 → xt y → R 0 1 7→ xt y 1 0 è isotropo. Definizione 3.11 Sia v non isotropo. Si definisce il coefficiente di Fourier di w rispetto v, lo scalare B(w, v) , av (w) := B(v, v) analoga definizione per una forma hermitiana H av (w) := H(w, v) . H(v, v) Si ha B(v, w − av (w)v) = B(v, w) − B(w, v) B(v, v) = 0. B(v, v) Analogamente per una forma hermitiana H(v, w − av (w)v) = H(v, w) − H(w, v) H(v, v) H(v, v) = 0. Da cui, sia nel caso bilineare simmetrico sia nel caso hermitiano, w − av (w)v ∈ {v}⊥ . Poiché , w = av (w)v + (w − av (w)v), e i soli vettori che appartengono al proprio ortogonale sono i vettori isotropi, possiamo concludere che, se v è un vettore non isotropo, V = span{v} ⊕ v⊥ . (25) Definizione 3.12 Una base {v1 , . . . , vn } si dice ortogonale se B(vi , vj ) = 0, (H(vi , vj ) = 0) ogni qual volta i 6= j. Ne segue che la matrice associata a una forma bilineare (hermitiana) rispetto una base ortogonale è diagonale. Prima di provare che esistono basi ortogonali, dimostriamo il seguente Lemma Ogni forma bilineare B (hermitiana H) non nulla ha almeno un vettore non isotropo. 41 Dim. Poiché B (H) è non nulla, esistono v, w ∈ V , tali che B(v, w) 6= 0 (H(v, w) 6= 0). Nel caso bilineare simmetrico per la (22) possiamo concludere che almeno uno fra i tre vettori v, w, v+w, è non isotropo. Nel caso hermitiano per la (23) possiamo concludere che almeno uno fra i quattro vettori v, w, v+w, v + iw è non isotropo. Proposizione 3.6 Sia B (H) una forma bilineare simmetrica (hermitiana). Esiste una base ortogonale. Dim. La dimostrazione per induzione non presenta differenze fra il caso simmetrico da quello hermitiano. Se B è la forma nulla allora ogni base è ortogonale. Se B non è identicamente nulla, procediamo per induzione sulla dimensione di V . Se dim V = 1 la proposizione è banale. Assumiamo l’esistenza di una base ortogonale per ogni spazio vettoriale V di dimensione n − 1. Sia v1 un vettore non isotropo(esiste per il lemma). Per la (25) V = span{v1 } ⊕ v1⊥ . ovviamente B|v1⊥ è ancora bilineare simmetrica. Sia {v2 , . . . , vn } una base ortogonale di v1⊥ ; essa esiste perché dim(v1⊥ ) = n − 1. È facile verificare che {v1 , v2 , . . . , vn } è una base ortogonnale di V . Il teorema precedente mostra che per una forma bilineare o hermitiana, esiste sempre una base rispetto la quale la matrice associata è diagonale. Ci domandiamo se non sia possibile migliorare ulteriormente il risultato. Trattiamo prima il caso di una forma B bilineare simmetrica sul campo C. Proposizione 3.7 Sia B una forma bilineare simmetrica su uno spazio vettoriale complesso V di rango r. Esiste una base V, tale che Ir 0 MV (B) = 0 0 Dim. Per la proposizione (3.6) sia V 0 = {v10 , . . . , vn0 } una base tale che la matrice associata MV (B) sia diagonale. Poiché il rango è r, salvo un cambiamento dell’ordine dei vettori della base, posso supporre che i primi r elementi della diagonale a11 , . . . , arr siano non nulli, mentre tutti gli altri sono 0. Abbiamo dunque che B(v10 , v10 ) = a11 , . . . , B(vr0 , vr0 ) = arr , 0 0 B(vr+1 , vr+1 ) = 0, . . . , B(vn0 , vn0 ) = 0, B(vi0 , vj0 ) = 0 42 per i 6= j Se poniamo vi = √1 v0 aii i vi0 1≤i≤r r+1≤i≤n √ dove aii è una delle due radici quadrate di aii , abbiamo che V = {v1 , . . . , vn } è una base, perché ottenuta da V 0 tramite una matrice invertibile, e che MV (B) è diagonale con B(v1 , v1 ) = 1, . . . , B(vr , vr ) = 1, B(vr+1 , vr+1 ) = 0, . . . , B(vn , vn ) = 0. Poiché sappiamo che il rango è un invariante delle forme bilineari simmetriche, seguendo gli stessi ragionamenti fatti per gli operatori, possiamo concludere che due forme bilineari simmetriche complesse sono equivalenti, a meno di automorfismi di V, se e solo se hanno lo stesso rango e che quindi il rango classifica le forme bilineari simmetriche complesse25 . Poiché due matrici simmetriche complesse, rappresentano la stessa forma bilineare rispetto basi diverse se e solo se sono congruenti, possimao concludere che due matrici simmetriche complesse sono congruenti, se e solo se hanno lo stesso rango. Nel caso di una forma bilineare simmetrica reale, non possiamo arrivare allo stesso risultato perché non sempre esiste la radice quadrata di un numero reale. Abbiamo comunque l’importante Proposizione 3.8 (Teorema di Sylvester) Sia B una forma bilineare simmetrica su uno spazio vettoriale reale V di rango r. Esistono numeri interi p, q, con p + q = r, e una base V, tale che Ip 0 0 MV (B) = 0 −Iq 0 0 0 0 Inoltre i numeri p, q, non dipendono dalla base, ma solo dalla forma. Dim. Anche questa volta dalla proposizione (3.6), e salvo un riordinamento dell’ordine dei vettori, sappiamo che esiste una base V 0 = {v10 , . . . , vn0 } tale che la matrice associata MV (B) è diagonale, con i primi p termini della diagonale, a11 , . . . , app , positivi, i secondi q termini, ap+1 p+1 , . . . , arr , negativi e i restanti nulli. Abbiamo dunque che B(v10 , v10 ) = a11 , . . . , B(vr0 , vr0 ) = arr , 0 0 B(vr+1 , vr+1 ) = 0, . . . , B(vn0 , vn0 ) = 0, B(vi0 , vj0 ) = 0 25 ed anche le forme quadratiche complesse 43 per i 6= j. Se poniamo vi = √1 v0 aii i √ 1 v0 −aii i 0 vi 1≤i≤p p+1≤i≤r r+1≤i≤n abbiamo che V = {v1 , . . . , vn } è una base, perché ottenuta da V 0 tramite una matrice invertibile, e che MV (B) è diagonale con B(v1 , v1 ) = 1, . . . , B(vp , vp ) = 1 B(vp+1 , vp+1 ) = −1, . . . , B(vr , vr ) = −1 B(vr+1 , vr+1 ) = 0, . . . , B(vn , vn ) = 0. Resta da provare che la coppia p, q non dipende dalla base. Sia pertanto V 00 = {v100 , . . . , vn00 } un’altra base tale che B(v100 , v100 ) = 1, . . . , B(vt00 , vt00 ) = 1 00 00 B(vt+1 , vt+1 ) = −1, . . . , B(vr00 , vr00 ) = −1 00 00 B(vr+1 , vr+1 ) = 0, . . . , B(vn00 , vn00 ) = 0 00 con p 6= t e supponiamo che t < p. Sia U = span{v1 , . . . vp } e W = span{vt+1 , . . . vn00 }. Dal teorema di Grassmann abbiamo dim U + dim W = dim(U ∩ W ) + dim(U + W ) p + (n − t) = dim(U ∩ W ) + dim(U + W ) ≤ dim(U ∩ W ) + n 1 ≤ p − t ≤ dim(U ∩ W ). Per cui esiste un vettore non nullo v ∈ U ∩ W . Poiché v ∈ U , v = a1 v1 + . . . + ap vp , con a1 , . . . , ap non tutti nulli; e poiché v ∈ W , 00 v = bt+1 vt+1 + . . . + bn vn00 . Dalla prima abbiamo B(v, v) = a21 B(v1 , v1 ) + . . . + a2p B(vp , vp ) = a21 + . . . + a2p > 0 Mentre dalla seconda B(v, v) = b2t+1 B(vt+1 , vt+1 ) + . . . + b2n B(vn , vn ) = −b2t+1 − . . . − b2t+r ≤ 0. questo è assurdo e l’assurdo nasce dall’aver supposto t ≤ p. 44 Nel caso hermitiano abbiamo un teorema perfettamente analogo al teorema di Sylvester. Anche la dimostrazione è identica, perché gli elementi della diagonale di una matrice hermitiana sono tutti reali. Definizione 3.13 Si dice segnatura della forma bilineare simmetrica B (o della forma hermitiana H) la coppia (p, q), corrispondente al numero dei termini positivi e negativi che si trovano sulla diagonale di una matrice associata a B (H), rispetto una base ortogonale. La segnatura è dunque un invariante della forma bilineare simmetrica (hermitiana) e da una parte classifica le forme simmetriche reali (hermitiane) a meno di automorfismi di V, e dall’altra classifica le matrici simmetriche reali (hermitiane) rispetto la relazione di congruenza (H-congruenza), nel senso che due matrici sono congruenti (H-congruenti) se e solo se hanno la stessa segnatura. Più spesso si parla di segnatura di una forma quadratica, riferendosi alla segnatura della forma bilineare simmetrica associata. Definizione 3.14 Una forma quadratica (hermitiana) di rango r su uno spazio vettoriale V di dimensione n prende il seguente nome a seconda della segnatura (n, 0) definita positiva (0, n) definita negativa (r, 0) con r < n semidefinita positiva (0, r) con r < n semidefinita negativa (p, q) con p > 0 e q > 0 indefinita La ragione dei nomi delle forme quadratiche è dovuta al fatto che una forma Q è definita positiva se e solo se Q(v) ≥ 0 e Q(v) = 0 ⇔ v = 0. 3.4 Prodotti scalari e prodotti hermitiani Definizione 3.15 Una forma bilineare simmetrica con forma quadratica associata definita positiva su uno spazio vettoriale reale V si dice un prodotto scalare. Definizione 3.16 Una forma hermitiana definita positiva su uno spazio vettoriale complesso V si dice un prodotto hermitano. Supporremo nel seguito sempre definito un prodotto scalare o un prodotto hermitiano, che indicheremo, per ricordarci che è definito positivo, con < v, w > . Definizione 3.17 Si dice modulo (o norma) di un vettore v il numero √ kvk := < v, v > Proposizione 3.9 (Disuguaglianza di Schwartz) | < v, w > | ≤ kvkkwk e vale l’uguaglianza se e solo se v e w sono linearmente dipendenti. 45 Dim. Diamo la dimostrazione nel caso del prodotto hermitiano che presenta qualche maggiore difficoltà. Se w = 0 il teorema è banale. Per ogni a, b ∈ C, abbiamo 0 ≤ < av + bw, av + bw >= aākvk2 + bb̄kwk2 + 2Re(ab̄ < v, w >), (26) se poniamo a = kwk2 e b = − < v, w >, otteniamo 0 ≤ kwk4 kvk2 + | < v, w > |2 kwk2 + 2Re(−kwk2 | < v, w > |2 ) = kwk4 kvk2 − | < v, w > |2 kwk2 da cui, dividendo per kwk2 e passando alla radice quadrata, otteniamo la disuguaglianza. Infine se vale l’uguale ho che 0 =< kwk2 v− < v, w > w, kwk2 v− < v, w > w > da cui, essendo il prodotto definito positivo, segue che kwk2 v− < v, w > w è una combinazione lineare nulla non banale di v e w, quindi v e w sono linearmente dipendenti. Viceversa, se v e w sono uno un multiplo dell’altro, l’uguaglianza è di immediata verifica. Dalla disuguaglianza di Schwartz, tanto nel caso reale quanto in quello hermitiano, seguono le seguenti proprietà 1. kvk ≥ 0, kvk = 0 ⇐⇒ v = 0 2. kkvk = |k|kvk 3. kv + wk ≤ kvk + kwk La dimostrazione delle prime due è banale, la terza nel caso hermitiano segue da kv + wk2 = kvk2 + 2Re < v, w > +kwk2 ≤ kvk2 + 2| < v, w > | + kwk2 ≤ kvk2 + 2kvkkwk + kwk2 = (kvk + kwk)2 , e in maniera simile nel caso reale. Uno spazio vettoriale dove vi sia una funzione norma, kvk, che soddisfi le tre proprietà di cui sopra, si dice spazio normato. In uno spazio normato è possibile definire una funzione distanza d, tramite d(v, w) := kv − wk; in effetti d soddisfa le proprietà 46 1. d(v, w) ≥ 0 e d(v, w) = 0 ⇐⇒ v = w 2. d(v, w) = d(w, v) 3. d(v, w) ≤ d(v, z) + d(z, w). Pertanto, l’introduzione di un prodotto scalare o hermitiano in uno spazio vettoriale arricchisce la sua struttura facendolo diventare anche uno spazio metrico. 3.5 Operatori ortogonali e unitari Sia V uno spazio vettoriale di dimensione finita su C (su R) dove sia definita un prodotto hermitiano (un prodotto scalare) . Definizione 3.18 Un operatore T : V → V si dice unitario (ortogonale) se < T (v), T (w) >=< v, w > . Nelle proposizioni che seguono si faranno le dimostrazioni per il caso unitario, ottenedosi le dimostrazioni del caso ortogonale in maniera del tutto simile, il più delle volte , semplicemente omettendo il simbolo del coniugio. Definizione 3.19 Una matrice A ∈ Mnn (C) si dice unitaria se At Ā = I ( o equivalentemente AĀt = I) Proposizione 3.10 Un operatore unitario (ortogonale) gode delle seguenti proprietà 1. conserva il modulo di un vettore 2. conserva la distanza di due vettori 3. trasforma basi ortonormali in basi ortonormali 4. è invertibile 5. la matrice associata all’operatore, rispetto a una base ortonormale, è ortogonale se l’operatore è ortogonale e unitaria se l’operatore è unitario. Dim. Le proprietà 1), 2) e 3) sono immediata conseguenza della definizione. T è invertibile perché è iniettivo, infatti T (v) = 0 implica 0 =< T (v), T (v) >=< v, v > e questo implica v = 0. Infine proviamo l’ultima Pn proprietà. Sia V = {v1 , . . . , vn } una base ortonormale di V . Sia T (vi ) = k=1 aki vk , per cui la matrice associata a T , rispetto la base V, è MV (T ) = (aki ) 1 ≤ k ≤ n . 1 ≤ i ≤ n 47 Abbiamo δij =< vi , vj >=< T (vi ), T (vj ) >= n n X X < aki vk , ahj vh >= k=1 n X k=1 aki h=1 n X āhj < vk , vh >= h=1 n X aki k=1 n X n X aki ākj = k=1 āhj δkh = h=1 n X atik ākj k=1 dove atik sono gli elementi della matrice trasposta (MV (T ))t ; pertanto (MV (T ))t (MV (T )) = I, cioè MV (T ) è una matrice unitaria. Proposizione 3.11 Se λ è autovalore di un operatore unitario T (ortogonale), allora |λ| = 1 (λ = ±1). Dim. Sia v un autovettore relativo all’autovalore λ, abbiamo < v, v >=< T (v), T (v) >=< λv, λv >= λλ̄ < v, v >, da cui, essendo v 6= 0, segue la tesi. Proposizione 3.12 Autovettori relativi a autovalori distinti di un operatore unitario T (ortogonale) sono ortogonali fra loro Dim. Siano v e w due autovettori relativi agli autovalori λ e µ, con λ 6= µ. Abbiamo < v, w >=< T (v), T (w) >=< λv, µw >= λµ̄ < v, w > . Da cui, o λµ̄ = 1 o < v, w >= 0. Poiché, per la proposizione precedente, µµ̄ = 1, non può essere anche λµ̄ = 1, altrimenti λ = µ. Dunque < v, w >= 0. La seguente proposizione è vera per gli operatori unitari, ma non per gli operatori ortogonali. 48 Proposizione 3.13 Sia T un operatore unitario. Esiste una base ortonormale che diagonalizza T . Dim. Dobbiamo determinare l’esistenza di una base ortonormale di autovettori. La dimostrazione è per induzione sulla dimensione di V . Se dim V = 1 , il fatto è banale. Supponiamo di averlo provato per gli spazi vettoriali di dimensione n − 1 e apprestiamoci a dimostrarlo per gli spazi vettoriali di dimensione n. Sia λ un autovalore di T ; esso esiste perché siamo sul campo C. Sia v1 un autovettore unitario, relativo a λ. Sia w ∈ v1⊥ , abbiamo 0 =< v1 , w >=< T (v1 ), T (w) >=< λv1 , T (w) >= λ < v1 , T (w) >= 0, da cui, essendo λ 6= 0, segue che < v1 , T (w) >= 0. Dunque T (v1⊥ ) ⊆ v1⊥ . Naturalmente T|v1⊥ : v1⊥ → v1⊥ è ancora unitario e opera su uno spazio di dimensione n − 1: Per l’ipotesi induttiva, esiste una base ortonormale di autovettori per T|v1⊥ , {v2 , . . . , vn }. Risulta dunque che {v1 , v2 , . . . , vn } è una base ortonormale di autovettori di T . 3.6 Operatori simmetrici, teorema spettrale Sia V uno spazio vettoriale di dimensione finita su R (su C) dove sia definito un prodotto scalare (prodotto hermitiano) . Definizione 3.20 Un operatore T : V → V si dice simmetrico (hermitiano)26 se < T (v), w >=< v, T (w) > Proposizione 3.14 La matrice associata a un operatore simmetrico (hermitiano), rispetto a una base ortogonale, è simmetrica (hermitiana). Dim. Dimostrazione per un operatore Pn hermitiano. Sia V = {v1 , . . . , vn } una base ortonormale di V . Sia T (vi ) = k=1 aki vk , per cui la matrice associata a T , rispetto la base V è MV (T ) = (aki ) 1 ≤ k ≤ n . 1 ≤ i ≤ n Abbiamo < T (vi ), vj >=< n X k=1 aki vk , vj >= n X aki < vk , vj >= k=1 n X aki δkj = aji , k=1 26 tali operatori vengono anche chiamati autoaggiunti, infatti si definisce aggiunto di un operatore T un operatore G tale che < T (v), w >=< v, G(w) >; la teoria mostra che per ogni operatore T esiste uno e un solo aggiunto G. 49 similmente < vi , T (vj ) >=< vi , n X akj vk >= k=1 n X ākj < vi , vk >= k=1 n X ākj δik = āij . k=1 Poiché < T (vi ), vj >=< vi , T (vj ) >, abbiamo che aji = āij , da cui MV (T ) = MV (T )t . Per un operatore simmetrico stessa prova senza il coniugio. Premettiamo il seguente lemma alla dimostrazione del teorema spettrale. Lemma Lo spettro di un operatore simmetrico (hermitiano) è totalmente reale; ovvero il polinomio caratteristico dell’operatore si decompone nel prodotto di n fattori lineari reali. Dim. Esprimiamo l’operatore in termini di coordinate rispetto una base ortonormale. Sia V = {v1 , . . . , vn } una base ortonormale di V e sia MV (T ) la matrice associata. Sia λ un autovalore complesso di MV (T ) e x un corrispondente autovettore27 di Cn . Abbiamo MV (T )x = λx, (27) e, coniugando ambo i membri, MV (T )x̄ = λ̄x̄. Utilizzando ora la condizione che, MV (T ) è reale simmetrica nel caso dell’operatore simmetrico, ovvero che MV (T ) è hermitiana nel caso di un operatore hermitiano, otteniamo in ogni caso MV (T )t x̄ = λ̄x̄, quindi, moltiplicando a sinistra per xt xt MV (T )t x̄ = xt λ̄x̄, da cui,posto x = (x1 , . . . , xn ), utilizzando la (27), otteniamo λ̄ n X x̄i xi = λ̄xt x̄ = xt MV (T )t x̄ = (MV (T )x)t x̄ = (λx)t x̄ = λ i=1 n X x̄i xi . i=1 Pn Essendo x 6= 0, abbiamo i=1 x̄i xi 6= 0 e quindi λ = λ̄, cioè λ ∈ R. Pertanto ogni autovalore di MV (T ) complesso è reale e dunque il polinomio caratteristico di MV (T ), che è uguale al polinomio caratteristico di T , si decompone nel prodotto di fattori lineari reali. Si osservi che di conseguenza il polinomio caratteristico di un operatore hermitiano è reale. 27 nel caso T sia un operatore simmetrico, x rappresenta le componenti rispetto la base V, di un autovettore relativo a λ dell’operatore complessificato TC . 50 Siamo ora in grado di dimostrare il teorema più importante di questo capitolo. Proposizione 3.15 (Teorema spettrale — versione per gli operatori) Sia T un operatore simmetrico (o hermitiano). Esiste una base ortonormale che diagonalizza T . Dim. Dobbiamo determinare l’esistenza di una base ortonormale di autovettori. La dimostrazione è per induzione sulla dimensione di V . Se dim V = 1 , il fatto è banale. Supponiamo di aver provato il teorema per gli spazi di dimensione n − 1 e apprestiamoci a dimostrarlo per gli spazi di dimensione n. Sia λ un autovalore di T ; esso esiste per il lemma. Sia v1 un suo autovettore unitario. Sia w ∈ v1⊥ , abbiamo < v1 , T (w) >=< T (v1 ), w >=< λv1 , w >= λ < v1 , w >= 0. Pertanto T (v1⊥ ) ⊆ v1⊥ . Naturalmente T|v1⊥ : v1⊥ → v1⊥ è ancora simmetrico (hermitiano) e opera su uno spazio di dimensione n − 1. Per l’ipotesi induttiva, esiste una base ortonormale di autovettori per T|v1⊥ , {v2 , . . . , vn }. Risulta dunque che {v1 , v2 , . . . , vn } è una base ortonormale di autovettori di T . Il teorema spettrale ammette anche diverse letture se lo si esprime in termini di matrici o in termini di forme bilineari. La versione per le matrici si ottiene considerando che ogni matrice simmetrica A (hermitiana) definisce un’operatore simmetrico (hermitiano) T : Rn → Rn (T : Cn → Cn ): l’operatore che mappa x in Ax. Proposizione 3.16 (Teorema spettrale — versione per le matrici) Sia A una matrice simmetrica ( hermitiana). Esiste una matrice M ortogonale (unitaria) che diagonalizza A, cioè tale che M −1 AM è diagonale. Se M è ortogonale e M −1 AM è diagonale, allora anche M t AM è diagonale, quindi la matrice simmetrica A non solo è simile ma è anche congruente a una matrice diagonale. Se M è hermitiana e M −1 AM è diagonale, abbiamo che M̄ t AM è diagonale, e ponendo N = M̄ , abbiamo che N t AN̄ è diagonale; quindi la matrice hermitiana A non solo è simile ma è anche H-congruente a una matrice diagonale. Come conseguenza della osservazione precedente otteniamo che se (p, q) è la segnatura di una matrice simmetrica (hermitiana), allora p rappresenta il numero degli autovalori positivi e q rappresenta il numero degli autovalori negativi, contati entrambi con la dovuta molteplicità. Dalla stessa osservazione segue anche la versione del teorema spettrale per le forme bilineari. Proposizione 3.17 (Teorema spettrale — versione per le forme bilineari) Sia B una forma bilinerare simmetrica (H una forma hermitiana). Esiste una base ortonormale che diagonalizza B (H). 51 Quest’ultimo enuciato può essre cosı̀ riletto: se su uno spazio vettoriale V sono date due forme bilinerai simmetriche (hermitiane) di cui una sia definita positiva, allora esiste una base che diagonalizza entrambe. 52 4 Tensori In tutto il capitolo supponiamo che V sia uno spazio vettoriale di dimensione n sullo R , per quanto le considerazioni che si faranno valgono in genere anche su C. 4.1 Spazio duale Definizione 4.1 Un’applicazione lineare da σ : V → R si chiama funzionale (lineare) o covettore. La somma di due funzionali e il prodotto di un funzionale per una costante sono definite da (σ1 + σ2 )(v) := σ1 (v) + σ2 (v) (kσ)(v) := k(σ(v)) Sono verifiche di routine controllare che la somma di due funzionali è un funzionale e che il prodotto di un funzionale per una costante è ancora un funzionale. L’insieme di tutti i funzionali è uno spazio vettoriale rispetto le operazioni di somma e prodotto per una costante, definite sopra (anche queste sono verifiche di routine). Come ogni applicazione lineare, un funzionale resta univocamente definito quando si assegnino i valori che assume sui vettori di una base. Definizione 4.2 Lo spazio vettoriale dei funzionali lineari su V si chiama spazio duale e si indica con V ∗ . Proposizione 4.1 Se V ha dimensione finita, allora dim V ∗ = dim V . Dim. Sia {e1 , . . . , en } una base di V , sia η i per 1 ≤ i ≤ n il funzionale su V definito da η i (ej ) = δji . dove δji è la funzione ”delta di Kronecker”, che vale 1 se i = j e vale 0 se i 6= j. {η 1 , . . . , η n } è una base di V ∗ . Infatti 1. sono linearmente indipendenti, perché da n X ai η i = 0 i=1 segue che, applicando il funzionale a un qualunque vettore ej della base di V , da un lato n X ai η i (ej ) = 0(ej ) = 0 i=1 e dall’altro n X i ai η (ej ) = i=1 n X ai δji = aj . i=1 Da cui necessariamente aj = 0 per ogni j; 53 2. generano tutto V ∗ , perché , per ogni funzionale σ ∈ V ∗ , si ha σ= n X (σ(ei ))η i , i=1 infatti per dimostrare l’uguaglianza dei due funzionali basta verificarla sui vettori di una base; cosı̀ facendo abbiamo per ogni ej n X i=1 (σ(ei )η i )(ej ) = n X σ(ei )η i (ej ) = i=1 n X σ(ei )δji = σ(ej ). i=1 Definizione 4.3 La base {η 1 , . . . , η n } di V ∗ si dice base duale della base {e1 , . . . , en } di V . Avendo V e V ∗ la stessa dimensione sono spazi vettoriali isomorfi, ma non vi è un modo canonico di associare un funzionale a un vettore 28 , con ciò intendo dire che bisogna ricorrere a un arbitraria scelta delle basi per definire un isomorfismo. Notiamo invece che è possibile definire un isomorfismo canonico fra V e lo spazio biduale (V ∗ )∗ . Definiamo Φ : V → (V ∗ )∗ v 7→ Φ(v) dove Φ(v) : V ∗ → R σ 7→ σ(v). Lasciamo al lettore la verifica che Φ(v) è effettivamente un funzionale lineare su V ∗ e che la Φ cosı̀ definita è lineare (basta applicare le definizioni); dimostriamo invece che Φ è iniettiva. Se Φ(v) = 0, allora per ogni σ ∈ V ∗ , Φ(v)(σ) = 0; cioè, per ogni σ ∈ V ∗ , σ(v) = 0 e questo è possibile solo se v = 0, infatti per ogni v 6= 0 posso completare v in una base e considerare il funzionale che su v assume il valore 1 e su tutti gli altri vettori della base il valore 0. Concludiamo che Φ è un isomorfismo, perché V e (V ∗ )∗ hanno la stessa dimensione. Come si vede per definire Φ non si è fatto uso di scelte di basi. Poiché ogni vettore si comporta come un funzionale sullo spazio dei funzionali, identificando v con Φ(v), possiamo concludere che non solo i covettori sono funzionali sullo spazio dei vettori, ma anche i vettori sono funzionali sullo spazio dei covettori. 28 a meno che non si aumenti la struttura di V , introducendo un prodotto scalare, ma discuteremo di considerazioni di questo tipo più avanti. 54 4.2 Convenzione di Einstein La convenzione di Einstein è una convenzione che semplifica la notazione. Essa prevede che: 1. i vettori di una base dello spazio vettoriale V , {e1 , . . . , en } si indiciano con indici in basso, 2. i vettori della base duale {η 1 , . . . , η n } si indiciano con indici in alto, 3. le coordinate di un vettore si indiciano con indici in alto, 4. le coordinate di un covettore si indiciano con indici in basso, 5. si ometta il simbolo di sommatoria, se questa si riferisce a un indice che si trova una volta un basso e una volta in alto, 6. ogni qualvolta si incontri uno stesso indice in alto e in basso in un prodotto si intende che si deve effettuare una somma al variare di quell’indice fra 1 e la dimensione di V , 7. si dispongono gli indici in alto o in basso in modo di evitare se possibile di dover fare una sommatoria, rispetto a un indice ripetuto due volte in basso (o in alto); se questa situazione dovesse essere inevitabile si mostra esplicitamente il simbolo e l’indice di sommatoria, 8. usualmente in una formula che contiene un’uguaglianza un indice non ripetuto in basso (in alto) a sinistra dell’uguale deve comparire non ripetuto in basso (in alto) anche a destra dell’uguale Per quanto alcuni ritengano che dietro questa notazione non ci siano fatti particolarmente rilevanti da un punto di vista scientifico29 , noi ne faremo uso nelle pagine che seguono. Pertanto la decomposizione di un vettore v rispetto alla base E = {e1 , . . . , en } si scriverà v = xj ej (28) piuttosto che v= n X xj ej o v= n X xj ej j=1 j=1 Se E 0 = {e01 , . . . , e0n } è un’altra base avremo v = x0i e0i (29) e le relazioni che danno il cambiamento di base nella forma e0i = αij ej 29 ma o ej = βji e0i molti fisici matematici non sono d’accordo con questa opinione 55 (30) mentre quelle che danno il cambiamento di coordinate (che si ricavano sostituendo le (30) nelle (28) e (29)) sono xj = αij x0i o x0i = βji xj . (31) Per ricollegare queste formule al nostro modo di rappresentare le matrici cambiamento di base, osserviamo che ME 0 E (id) = βji 1 ≤ i ≤ n 1 ≤ j ≤ n e MEE 0 (id) = αij 1 ≤ j ≤ n 1 ≤ i ≤ n . Infine il fatto che le due matrici sono una l’inversa dell’altra si rappresenta αji βkj = δki αji βik = δjk . 4.3 Definizione di tensore La nozione di tensore può essere introdotta in modi diversi. Possiamo qui fare un parallelo con la nozione di vettore (di cui comunque il tensore rappresenta una generalizzazione). Il vettore può essere introdotto come terna (n-pla) di numeri, come segmento orientato, come elemento di uno spazio vettoriale. Similmente un tensore può essere introdotto come un pacchetto di numeri variamente indiciati, come un’applicazione multilineare, o come un elemento del prodotto tensoriale di spazi vettorali. Utilizzeremo qui l’approccio che descrivere il tensore come un’applicazione multilineare. Definizione 4.4 Siano V1 , . . . , Vr spazi vettoriali su R. Un’applicazione F : V1 × . . . × Vr → R si dice multilineare se è lineare in ciascuna delle variabili. Formalmente per ogni indice i, per ogni a, b ∈ R e per ogni v, w ∈ Vi F (v1 , . . . , vi−1 , av + bw, vi+1 , . . . , vr ) = aF (v1 , . . . , vi−1 , v, vi+1 , . . . , vr ) + bF (v1 , . . . , vi−1 , w, vi+1 , . . . , vr ) Definizione 4.5 Si dice tensore sullo spazio vettoriale V di ordine covariante r e ordine controvariante s (o di tipo (r, s)) un’applicazione multilineare T : V ×, . . . , ×V × V ∗ ×, . . . , ×V ∗ → R | {z } | {z } r Esempio 4.1 Ogni covettore σ ∈ V sendo un funzionale lineare su V . s ∗ è un tensore covariante di ordine 1, es- 56 Esempio 4.2 Avendo indentificato V con il suo biduale (V ∗ )∗ , anche ogni vettore v ∈ V è un tensore controvariante di ordine 1, essendo un funzionale su V ∗. Esempio 4.3 Ogni forma bilineare su V è un tensore covariante di ordine 2. Esempio 4.4 Il determinante, inteso come funzione delle colonne di una matrice n × n è un tensore covariante di ordine n sullo spazio vettoriale Rn . La somma di due tensori di tipo (r, s) e il prodotto di un tensore per uno scalare sono definiti in modo analogo a quanto fatto per i covettori: Definizione 4.6 Siano T, R tensori di tipo (r, s) e k scalare. Definiamo (T +R)(v1 , . . . , vr , σ1 , . . . , σs ) := T (v1 , . . . , vr , σ1 , . . . , σs )+R(v1 , . . . , vr , σ1 , . . . , σs ) (kT )(v1 , . . . , vr , σ1 , . . . , σs ) := kT (v1 , . . . , vr , σ1 , . . . , σs ). È verifica di routine che T + R e kT sono ancora tensori. È altrettanto verifica di routine che l’insieme dei tensori di tipo (r, s) forma uno spazio vettoriale rispetto le operazioni sopra definite. Lo indichiamo con Tsr (V ). 4.4 Il prodotto tensoriale Definiamo un prodotto fra tensori, che a un tensore T di tipo (r, s) e uno T 0 di tipo (r0 , s0 ), associa un tensore T ⊗ T 0 di tipo (r + r0 , s + s0 ). Definizione 4.7 T ⊗ T 0 : V ×, . . . , ×V × V ∗ ×, . . . , ×V ∗ → K {z } | {z } | r+r 0 s+s0 T ⊗ T 0 (v1 , . . . , vr , vr+1 , . . . , vr+r0 , σ1 , . . . , σs , σs+1 , . . . , σs+s0 ) := T (v1 , . . . , vr , σ1 , . . . , σs )T 0 (vr+1 , . . . , vr+r0 , σs+1 , . . . , σs+s0 ) Sono verifiche di routine controllare che T +T 0 è un tensore, cioè un’applicazione multilineare. Il prodotto tensoriale gode delle proprietà (T + T 0 ) ⊗ T 00 = T ⊗ T ” + T 0 ⊗ T ” T ⊗ (T 0 + T 00 ) = T ⊗ T 0 + T ⊗ T ” k(T ⊗ T 0 ) = (kT ) ⊗ T 0 = T ⊗ (kT ”) pertanto 0 r+r ⊗ : Tsr × Tsr0 → Ts+s 0 è bilineare. 57 0 Il prodotto tensoriale è anche associativo, cioè (T ⊗ T 0 ) ⊗ T ” = T ⊗ (T 0 ⊗ T ”) e pertanto possiamo omettere le parentesi in un prodotto di tre tensori e, per iterazione, definire anche il prodotto tensoriale di un numero maggiore di tensori; in tal caso ⊗ si comporta come un’applicazione multilineare. Sia {e1 , . . . , en } una base di V , e {η 1 , . . . , η n } la base duale di V ∗ . Calcoliamo il tensore η i1 ⊗ η i2 ⊗ . . . ⊗ η ir su una qualunque r-pla di vettori della base di V, ej1 , ej2 , . . . , ejr . Abbiamo η i1 ⊗ η i2 ⊗ . . . ⊗ η ir (ej1 , ej2 , . . . , ejr ) = δji11 δji22 . . . δjirr , questo numero vale sempre 0, eccetto il caso in cui gli indici i1 , . . . , ir siano rispettivamente uguali a j1 , . . . , jr , nel qual caso assume il valore 1. Proposizione 4.2 L’insieme dei tensori {η i1 ⊗. . .⊗η ir }, al variare di i1 , . . . , ir fra 1 e n forma una base dello spazio dei vettori covarianti di ordine r, T0r . Dim. La dimostrazione della lineare indipendenza si fa testando la generica combinazione lineare dei tensori del nostro insieme sulla generica r-pla dei vettori della base di V : ai1 ,...,ir {η i1 ⊗ . . . ⊗ η ir } = 0 implica che per ogni r-pla (ej1 , . . . , ejr ) ai1 ,...,ir {η i1 ⊗ . . . ⊗ η ir }(ej1 , . . . , ejr ) = 0(ej1 , . . . , ejr ) = 0, ma d’altra parte ai1 ,...,ir {η i1 ⊗ . . . ⊗ η ir }(ej1 , . . . , ejr ) = ai1 ,...,ir δji11 . . . δjirr = aj1 ,...,jr , quindi per ogni r-pla (j1 , . . . , jr ), aj1 ,...,jr = 0. Il fatto che {η i1 ⊗ . . . ⊗ η ir }, al variare di i1 , . . . , ir , generino tutto T0r segue dal fatto che per ogni un tensore covariante di ordine r, T , vale la seguente T = T (ei1 , . . . , eir )η i1 ⊗ . . . ⊗ η ir , (32) la quale pure si dimostra testandola sulla generica r-pla dei vettori della base di V , (ej1 , . . . , ejr ). Infatti T (ei1 , . . . , eir )η i1 ⊗ . . . ⊗ η ir (ej1 , . . . , ejr ) = T (ei1 , . . . , eir )δji11 δji22 . . . δjirr , = T (ej1 , . . . , ejr ) 58 In modo del tutto analogo, ricordando che i vettori della base di V , si comportano come funzionali sui vettori della base di V ∗ , si perviene a dimostrare che Proposizione 4.3 L’insieme dei tensori {ej1 ⊗. . .⊗ejs }, al variare di j1 , . . . , js fra 1 e n forma una base dello spazio dei vettori controvarianti di ordine s, Ts0 . e più in generale Proposizione 4.4 L’insieme dei tensori {η i1 ⊗ . . . ⊗ η ir ⊗ ei1 ⊗ . . . ⊗ eis }, al variare di i1 , . . . , ir e j1 , . . . , js fra 1 e n forma una base dello spazio dei vettori con ordine di coovarianza r e e ordine di controvarianza s, Tsr . Ne segue che dim Tsr = nr+s . 4.5 Gli operatori come tensori di tipo (1, 1) Denotiamo con End(V ) lo spazio vettoriale degli operatori su V . Esso ha dimensione n2 . Definiamo Φ: dove End(V ) → T11 (V ) F 7→ Φ(F ) Φ(F ) : V × V ∗ (v, σ) → K 7 → σ(F (v)) La bilinearità di Φ(F ) è conseguenza banale della linearità di F e di σ, il che ci assicura che Φ(F ) è un tensore. Proposizione 4.5 Φ è un isomorfismo canonico di spazi vettoriali Dim. La linearità di Φ è conseguenza diretta delle definizioni. Φ è iniettiva, infatti se Φ(F ) = 0, allora per ogni v ∈ V e per ogni σ ∈ V ∗ , σ(F (v)) = 0. Dal fatto che per ogni σ ∈ V , σ(F (v)) = 0, segue che F (v) = 0, e poiché questo vale per ogni v ∈ V , allora F è l’operatore nullo. Infine, avendo End(V ) e T11 (V ) la stessa dimensione, si conclude che Φ è un isomorfismo, che si dice canonico, perché la sua definizione non dipende da scelte arbitrarie, quali potrebbe essere la scelta di una base. In matematica, quando vi è un isomorfismo canonico, si è soliti identificare i due spazi vettoriali. Ne segue che ogni operatore lineare T : V → V viene interpretato come un tensore con ordine di covarianza 1 e controvarianza 1 e viceversa un tensore di tipo 1-1 può essere interpretato come operatore lineare. 59 4.6 Tensori e cambiamenti di base Siano {e1 , . . . , en }, {e01 , . . . , e0n } due basi di V e {η 1 , . . . , η n }, {η 01 , . . . , η 0n } le rispettive basi duali. Abbiamo già scritto le relazioni relative ai cambiamenti di base (30) e0i = αij ej ej = βji e0i (33) con αij βjk = δik . (34) Consideriamo il covettore βji η j e applichiamolo al vettore e0k . Applicando le (33) e (34) e la definizione di base duale, per cui η j (eh ) = δhj , abbiamo βji η j (e0k ) = βji η j (αkh eh ) = αkh βji η j (eh ) = αkh βji δhj = αkh βhi = δki . Poiché, d’altra parte, η 0i (e0k ) = δki ne segue che η 0i e βji η j assumono gli stessi valori sui vettori di una base di V , pertanto η 0i = βji η j . (35) La (35) rappresenta la formula di cambiamento di base per la base duale30 . Si osservi che la matrice che permette di passare dalla base {η 1 , . . . , η n } alla base {η 01 , . . . , η 0n } è l’inversa31 di quella che occorre per passare dalla base {e1 , . . . , en } alla base {e01 , . . . , e0n }. Dalla (35) seguono poi le relazioni per il cabiamento di base nell’ordine inverso η j = αij η 0i . (36) Si calcolano, poi, le relazioni per i cambiamenti di coordinate; se un covettore è rappresentato in due basi diverse da σ = si η i = s0j η 0j abbiamo si = βij s0j s0j = αji si (37) I covettori si dicono covarianti, perché le loro coordinate variano, al cambiare della base di V , e conseguentemente al cambiare della base duale, con la matrice di cambiamento di base di V ; mentre i vettori si dicono controvarianti, perché le loro coordinate variano, al cambiare di base, con la matrice inversa rispetto a quella del cambiamento di base, come mostrato in (31). Si scriva un tensore T covariante di ordine r come combinazione lineare dei vettori della base {η j1 ⊗ . . . ⊗ η jr } di T0r T = tj1 ...jr η j1 ⊗ . . . ⊗ η jr (38) 30 Si noti come nelle sostituzioni effettuate per dimostrare la formula (35), talvolta, abbiamo dovuto cambiare il nome degli indici al fine di evitare ripetizioni indesiderate. 31 esattamente l’inversa se si conviene di rappresentare la base duale come un vettore colonna, e leggere la (35) come un prodotto fra matrici (che è la scelta preferibile), e la trasposta dell’inversa se si conviene di rappresentare la base duale come un vettore riga. 60 e come combinazione de vettori della base {η 0i1 ⊗ . . . ⊗ η 0ir } T = t0i1 ...ir η 0i1 ⊗ . . . ⊗ η 0ir . (39) Sostituendo la (35) nella (39) abbiamo T = t0i1 ...ir (βji11 η j1 ) ⊗ . . . ⊗ (βjirr )η jr = t0i1 ...ir βji11 . . . βjirr η j1 ⊗ . . . ⊗ η jr (40) e confrontando questa con la (38) otteniamo che le coordinate dei tensori covarianti di ordine r variano al cambiare della base di V (e conseguentemete al cambiare della base di V ∗ ) in un verso secondo la formula tj1 ...jr = βji11 . . . βjirr t0i1 ...ir (41) e nell’altro secondo la formula t0i1 ...ir = αij11 . . . αijrr tj1 ...jr (42) In modo analogo se si scrive un tensore controvariante T di ordine s come combinazione lineare dei vettori delle basi {ej1 ⊗ . . . ⊗ ejs } e {e0i1 ⊗ . . . ⊗ e0is } di Ts0 : T = tj1 ...js ej1 ⊗ . . . ⊗ ejs = t0i1 ...is e0i1 ⊗ . . . ⊗ e0is , otteniamo le formule di cambiamento delle coordinate di un tensore controvariante tj1 ...js = αij11 . . . αijss t0i1 ...is t0i1 ...is = βji11 . . . βjiss tj1 ...js (43) Infine un tensore T r-volte covariante e s-volte controvariante si rappresenta rispetto la base {η j1 ⊗ . . . ⊗ η jr ⊗ ek1 ⊗ . . . ⊗ eks } di Tsr ...ks j1 T = tkj11...j η ⊗ . . . ⊗ η jr ⊗ ek1 ⊗ . . . ⊗ eks r e rispetto la base {η 0i1 ⊗ . . . ⊗ η 0ir ⊗ e0h1 ⊗ . . . ⊗ e0hs } di Tsr 1 ...hs 0i1 ⊗ . . . ⊗ η 0ir ⊗ e0h1 ⊗ . . . ⊗ e0hs T = t0h i1 ...ir η da cui le formule di cambiamento di coordinate di un tensore misto di tipo (r, s), ...ks 1 ...is tkj11...j = αik11 . . . αikss βjh11 . . . βjhrr t0i h1 ...hr r (44) jr k1 ...ks i1 is j1 1 ...is t0i h1 ...hr = βk1 . . . βks αh1 . . . αhr tj1 ...jr (45) Si osservi come nelle coordinate (o componenti) di un tensore gli indici di covarianza siano quelli in basso e gli indici di controvarianza siano quelli in alto. 61 4.7 Collegamenti con il calcolo differenziale In molte applicazioni le matrici che intervengono nel calcolo tensoriale sono la matrice jacobiana e la sua inversa. Vediamo il perché. La prima e immediata osservazione è che se y = Ax è un’applicazione lineare da Rn in sé , allora A coincide con la matrice jacobiana di questa applicazione, i ∂y A= ∂xj 1 ≤ i ≤ n 1 ≤ j ≤ n Possiamo applicare lo stesso concetto alla matrice cambiamento di coordinate (31), per cui, posto che v si scriva v = xi ei nella base {e1 , . . . , en } e v = x0j e0j nella base {e01 , . . . , e0n }, abbiamo x0j = ∂x0j i x ∂xi xi = ∂xi 0j x ∂x0j (46) Pertanto le matrici di cambiamento di coordinate utilizzate in tutte le formule sui tensori possono essere sostituite dalla matrice jacobiana e la sua inversa: i ∂x αji 1 ≤ i ≤ n = 1 ≤ j ≤ n ∂x0j 1 ≤ i ≤ n 1 ≤ j ≤ n βji 1 ≤ i ≤ n 1 ≤ j ≤ n = 0i ∂x ∂xj . 1 ≤ i ≤ n 1 ≤ j ≤ n Le (46) hanno il vantaggio, rispetto alle (31), di evitare ogni possibile confusione fra la matrice cambiamento di coordinate e la sua inversa. Cosı̀ la formula generale di cambiamento di base per i tensori si scrive senza possibilità di equivoci ...ks tkj11...j = r ∂xk1 ∂xks ∂x0h1 ∂x0hr 0i1 ...is . . . . . . t ∂x0i1 ∂x0is ∂xj1 ∂xjr h1 ...hr (47) ∂x0i1 ∂x0is ∂xj1 ∂xjr k1 ...ks . . . . . . t (48) k k 0h ∂x 1 ∂x s ∂x 1 ∂x0hr j1 ...jr Ma vi è una ragione più profonda nel rappresentare con la jacobiana la matrice cambiamento di coordinate. Ad ogni vettore v = ai ei dello spazio dei vettori applicati in un punto ∂ x0 ∈ Rn , si può associare l’operatore differenziale ai ∂x i , che ad ogni applicazione ∞ f ∈ C (U ), dove U è un intorno di x0 , associa la derivata direzionale32 (nella 1 ...is t0i h1 ...hr = 32 dovremmo scrivere ∂ , ∂xi |x0 ma in tutti gli operatori differenziali che seguiranno eviteremo di mettere il simbolo di |x0 che significa calcolato in x0 perché non avremo ragione di cambiare il punto di applicazione dei vettori. 62 direzione di v) di f in x0 , n X ai i=1 ∂f . ∂xi Adottata questa identificazione fra operatori e vettori applicati, i vettori della base di V , {e1 , . . . , en }, sono rappresentati dagli operatori differenziali ∂ ∂ { ∂x 1 , . . . , ∂xn }. ∂ ∂xj Conveniamo che, nelle espressioni del tipo ∂x i o ∂xi , gli indici delle variabili che si trovano sotto la linea di frazione siano da considerarsi indici in basso. La formula di cambiamento di base è data ora da ∂xj ∂ ∂ = . ∂x0i ∂x0i ∂xj Anche i covettori hanno un’interessante lettura in termini di calcolo differenziale. Il differenziale di una funzione f ∈ C ∞ (U ), nel punto x0 ∈ Rn , si indica con df|x0 (ma noi scriveremo semplicemente df ) ed è definito come il funzionale lineare che a ogni vettore v applicato in x0 ∈ Rn associa la derivata direzionale ∂ di f rispetto a v in x0 . Cioè se v = ai ei = ai ∂x i (df )(v) = df (ai ∂ ∂f ) = ai i i ∂x ∂x I differenziali delle funzioni coordinate, dxi , . . . , dxn , risultano essere i vettori della base duale, perché ∂xi ∂ = δji . dxi ( j ) = ∂x ∂xj Le formula di cambiamento di base per la base duale risulta coincidere con la formula di differenziazione di funzione composta. dx0j = 4.8 ∂x0j i dx . ∂xi Una definizione alternativa di tensore Le formule di cambiamento di coordinate per i tensori (47), (48) sono spesso utilizzate per definire i tensori. In questo approccio la definizione di tensore è seguente33 Definizione 4.8 Si dice tensore (o campo tensoriale) di tipo (r,s) un oggetto ...ks definito da un insieme di numeri tkj11...j in un sistema di coordinate arbitrarie r 1 n (x , . . . , x ), la cui espressione numerica dipende dal sistema di coordinate secondo la seguente relazione: se è xk = xk (x01 , . . . , x0n ), x0j = x0j (x1 , . . . , xn ), con x0 (x(x0 )) = x0 , vale la formula di trasformazione 33 la definizione esposta è tratta da Novikov, Dubronik, Fomenko,Geometria contemporanea 1, con qualche adattamento alle notazioni da noi usate. 63 ...ks = tkj11...j r ∂xk1 ∂xks ∂x0h1 ∂x0hr 0i1 ...is . . . 0is ... t 0i j 1 1 ∂x ∂x ∂x ∂xjr h1 ...hr k1 ...ks 0 1 ...is in cui t0i h1 ...hr è l’espressione numerica del tensore nelle coordinate (x ) e tj1 ...jr l’espressione numerica del tensore nelle coordinate (x); tutti gli indici variano da 1 a n , essendo n la dimensione dello spazio considerato. 4.8.1 La definizione di tensore data in funzione delle coordinate varia, nel suo significato, in funzione dei sistemi di coordinate ammessi. Se ad esempio siamo in uno spazio euclideo, (spazio vettoriale di dimensione finita dotato di prodotto scalare), è logico assumere solo riferimenti ortonormali. In questo caso le matrici cambiamento di coordinate sono ortogonali e pertanto 34 ∂x0j ∂xi = (49) ∂x0j ∂xi Non vi è dunque modo di distinguere un vettore da un covettore basandosi sul comportamento delle sue componenti al variare della base fra un insieme di basi ortonormali. È per questo motivo che, talvolta, nell’algebra tensoriale in spazi euclidei non si fa differenza fra vettori e covettori, fra ordine di covarianza e ordine di controvarianza. Chiariamo questi concetti con un esempio. Supponete che abbiate descritto un fenomeno fisico per mezzo di tre numeri (t(1), t(2), t(3)) che dipendono dal sistema di coordinate usato nello spazio, dove di proposito ho messo gli indici in linea. Questa terna rappresenta un vettore, un covettore o altro? Metto l’indice in alto o in basso? Si ha la risposta guardando come cambiano questi numeri al cambiare del riferimento. Se, in un altro riferimento, con la stessa origine, il fenomeno è descritto da (t0 (1), t0 (2)0 , t0 (3)) e avete t(i) = 3 X ∂xi 0 t (j) ∂x0j j=1 (50) e questo vale qualunque sia il secondo riferimento scelto, allora stabilite che si tratta di un vettore controvariante e scrivete gli indici in alto. Se, invece, in un altro riferimento, con la stessa origine, il fenomeno è descritto da (t0 (1), t0 (2)0 , t0 (3)) e avete 3 X ∂x0j 0 t(i) = t (j) (51) ∂xi j=1 e questo vale qualunque sia il secondo riferimento scelto, allora stabilite che si tratta di un vettore covariante (o covettore) e scrivete gli indici in basso. Se, 34 si noti come nella formula l’indice in alto a sinistra è uguale all’indice in basso a destra e l’indice in basso a sinistra è uguale all’indice in alto a destra! 64 infine, esiste un riferimento, per cui non vale (50) e un riferimento per cui non vale (51) allora stabilite che si tratta di altro. Ma è probabile che gli unici sistemi di riferimento rispetto ai quali possiate (o siate interessati) a descrivere il fenomeno, siano sistemi ortogonali, in tal caso, per la (49), non vi è differenza fra la (50) e la (51). In questo caso parlerete solo di vettore (ovvero tensore del primo ordine) senza distinguere tra covarianza e controvarianza. 4.8.2 Notiamo come la definizione di tensore data tramite le coordinate, che utilizza la matrice jacobiana, si presta a essere estesa anche a cambiamenti di coordinate non lineari, purché abbiano siano di classe almeno C 1 e con matrice jacobiana non nulla. È il caso delle coordinate polari: se vogliamo esprimere in coordinate polari un tensore sullo spazio vettoriale dei vettori applicati in un punto P del piano diverso dall’origine, dovremo utilizzare, per passare dalla rappresentazione in coordinate cartesiane a quella in coodinate polari, la matrice jacobiana delle formule di cambiamento di coordinate (4). La cosa assume particolare importanza quando si voglia fare del calcolo tensoriale su superficie curve (e più in genererale su varietà differenziali). In questo caso le funzioni di cambiamento di coordinate fra diversi sistemi di coordinate locali sono generalmente non lineari. Un approccio indipendente dalle coordinate per definire tensori su oggetti geometrici diversi da Rn , le varietà differenziali, comporta, in primo luogo la necessità di definire lo spazio dei vettori tangenti in modo intrinseco, cioè senza ricorrere a un’immersione dell’oggetto in uno spazio euclideo. In tale contesto si utilizzano come definizione dei vettori applicati in un punto (i cosiddetti vettori tangenti) gli operatori differenziali, che soddisfano la regola di Leibnitz quando sono applicati a un prodotto di funzioni. La geometria differenziale si occupa dello sviluppo di questi concetti. 4.8.3 ∂f 1 Osserviamo come la definizione di differenziale di una funzione df = ∂x 1 dx + ∂f . . . + ∂xn dxn e la definizione di gradiente di una funzione, che comunemente ∂f ∂f si trova sui testi di analisi, ∇f = ∂x , corrispondano allo stesso 1 , . . . , ∂xn tensore letto nei due diversi approcci: applicazione lineare o insieme indiciato di numeri. Del differenziale abbiamo già detto; il gradiente, invece, è una n-pla di numeri che varia al cambiare delle coordinate secondo la regola ∂f ∂f ∂x0j = ∂xi ∂x0j ∂xi e che è dunque un covettore ai sensi dell’ultima definizione. Nel differenziale abbiamo l’espressione della decomposizione del covettore nella base duale, mentre nel gradiente si rappresentano solo le componenti. 65 In genere si richiede che il gradiente risulti un vettore controvariante e non un vettore covariante; la cosa non presenta inconvenienti se si utilizzano esclusivamente riferimenti ortonormali, ma dobbiamo apportare una correzione alla definizione di gradiente se vogliamo esprimerlo anche in altre ccordinate. Indichiamo i titoli di quelli che potrebbero essere i successivi argomenti di algebra tensoriale 4.9 L’isomorfismo canonico indotto dal prodotto scalare fra V e V ∗ 4.10 La contrazione degli indici 4.11 Il prodotto esterno 4.12 Pullback dei tensori covarianti 66