Complementi di Algebra Lineare

Complementi di Algebra Lineare
Paolo Zappa
appunti a uso degli studenti
1
1.1
Numeri e spazi vettoriali complessi
Breve introduzione storica
Si è soliti introdurre i numeri complessi, partendo dal problema della risoluzione
dell’equazione
x2 = −1;
(1)
questo non è il motivo storico della nascita dei numeri complessi, e, a ben
pensare, la risoluzione dell’equazione (1) non è mai stato un problema aperto,
nel senso che, fin dalla nascita dei numeri negativi, era noto che l’equazione (1)
non aveva soluzioni.
Il vero problema che ha dato l’avvio allo studio dei numeri comlessi è invece collegato al problema della risoluzione dell’equazione di terzo grado. Cardano e Tartaglia avevano scoperto una formula per determinare una soluzione
dell’equazione
x3 + px + q = 0,
alla quale si può ricondurre ogni equazione di terzo grado mediante un cambiamento lineare di variabile. La formula è la seguente
s
s
r
r
3
2
3 −q
3 −q
q
q2
p
p3
x=
+
+
+
−
+ .
2
4
27
2
4
27
Era noto che un polinomio di terzo grado dovesse avere almeno una radice,
2
3
ma la formula data non funzionava se il discriminante, q4 + p27 , era minore di
√
0. Bombelli mise in luce, che, introducendo un simbolo formale per la −1, la
radice di un particolare polinomio con discriminante negativo, determinata con
verifica diretta, era compatibile con la formula di Cardano. Peraltro Bombelli
non conosceva un algoritmo per l’estrazione della radice cubica di un numero
complesso, quindi allo stato dell’arte, l’osservazione di Bombelli non rappresentò
un effettivo miglioramento nella risoluzione delle equazioni di terzo grado, ma
mise in luce che l’introduzione della unità immaginaria forniva nuovi strumenti
per la ricerca di soluzioni a problemi algebrici.
1
1.2
Le coordinate polari
Nel piano fissiamo un punto O una semiretta r uscente da O, e un verso per la
misura degli angoli orientati che hanno r come primo lato.
A ogni punto P del piano diverso da O possiamo associare due numeri: il
primo ρ rappresenta la distanza di P da O, il secondo θ la misura in radianti
dell’angolo orientato che la semiretta uscente da O e passante per P forma con
r. La coppia (ρ, θ) dà una rappresentazione del punto P in coordinate polari.
Una precisazione è necessaria sulla misura dell’angolo orientato. Senza entrare in sottili disquisizioni su cosa sia la misura di un angolo; segnaliamo che
le coppie (ρ, θ) e (ρ, θ1 ) corrispondono allo stesso punto se θ − θ1 = 2kπ, con
k ∈ Z.
Diversi approcci si trovano in letteratura, per trattare le difficoltà provenienti
dalla mancanza di corrispondenza biunivoca fra i punti del piano e l’insieme delle
coppie di numeri reali (ρ, θ). Segnalo i due principali. Il primo, quello della
geometria differenziale, prevede che vi siano infiniti sistemi di coordinate locali
di tipo polare e quindi che un punto possa essere rappresentato da infinite coppie
di numeri. Il secondo di tipo più algebrico, prevede che la misura dell’angolo
orientato sia un insieme infinito di valori, per cui le coordinate polari di un
punto sono una coppia di cui il primo elemento è un numero reale positivo e il
secondo un insieme di numeri reali che differiscono fra loro per multipli interi
di 2π. Seguendo questo secondo approccio scriveremo
p
P ≡ (ρ, Θ).
dove
Θ = {θ + 2kπ}k∈Z .
1
ρ si chiama il modulo di P ; Θ si chiama l’argomento2 di P .
Quando scriviamo Θ1 + Θ2 intendiamo l’insieme ottenuto sommando ogni
numero del primo insieme con ogni numero del secondo e cioè l’insieme Θ1 +
Θ2 := {θ1 + θ2 + 2kπ}k∈Z , in questo modo otteniamo che la misura dell’angolo
somma algebrica di due angoli orientati è la somma delle misure. Inoltre quando
applichiamo a Θ una funzione trigronometrica intendiamo che la applichiamo a
uno qualunque dei suoi valori, senza pericolo di confusione perché ogni funzione
trigonometrica ha 2π come periodo.
Osserviamo infine che non vengono assegnate le coordinate polari del punto
O.
Per determinare le relazioni che esistono fra coordinate polari e coordinate
cartesiane, sul piano mettiamo un sistema di riferimento cartesiano ortogonale
dove l’asse positivo delle ascisse x coincide con r e l’asse positivo delle ordinate
y, ortogonale all’asse delle ascisse in O, sia scelto, fra i due possibili, in modo
tale che l’angolo orientato xy
ˆ misuri {+ π2 + 2kπ}k∈Z .
Se P ha coordinate cartesiane
P ≡ (x, y)
1 nella
2 nella
terminologia antica raggio vettore.
terminologia antica anomalia
2
e coordinate polari
p
P ≡ (ρ, Θ).
allora, da un verso
e dall’altro3
x = ρ cos(Θ)
y = ρ sin(Θ)

p
2
2


 ρ = x + yx
cos(Θ) = √ 2 2
x +y


 sin(Θ) = √ y .
x2 +y 2
1.3
Definizione dei numeri complessi
L’introduzione delle coordinate cartesiane nel piano permette di definire una
corrispondenza biunivoca fra i punti del piano e R2 e questa corrispondenza
permette di trasportare sul piano l’operazione di somma propria dello spazio
vettoriale R2 . Per cui, se P1 ≡ (x1 , y1 ) e P2 ≡ (x2 , y2 ), poniamo4
P1 + P2 :≡ (x1 + x2 , y1 + y2 )
Quali operazioni suggeriscono le coordinate polari? Per quanto riguarda i
moduli possiamo osservare che, essendo numeri reali positivi, ho una struttura
di gruppo se considero la moltiplicazione; mentre, per quanto riguarda gli argomenti, ho una struttura di gruppo se considero la somma.
Combiniamo le due operazioni precedenti, il prodotto dei moduli e la somma
degli argomenti, in una nuova operazione per i punti del piano bucato, che
p
p
denotiamo provvisoriamente con ∗: posto che sia P1 ≡ (ρ1 , Θ1 ) e P2 ≡ (ρ2 , Θ2 ),
definiamo
p
P1 ∗ P2 :≡ (ρ1 ρ2 , Θ1 + Θ2 ).
Questa stessa operazione, in coordinate cartesiane assume l’espressione
q
q
P1 ∗ P2 ≡( x21 + y12 x22 + y22 (cos Θ1 cos Θ2 − sin Θ1 sin Θ2 ),
q
q
x21 + y12 x22 + y22 (cos Θ1 sin Θ2 + cos Θ2 sin Θ1 ) =
(x1 x2 − y1 y2 , x1 y2 + x2 y1 )
Trasferiamo le operazioni cosı̀ introdotte in R2 ,
(x1 , y1 ) + (x2 , y2 ) := (x1 + x2 , y1 + y2 )
(x1 , y1 ) ∗ (x2 , y2 ) := (x1 x2 − y1 y2 , x1 y2 + x2 y1 ).
2
(R , +, ∗) è campo, cioè
3 evitiamo di dare un’espressione espilicita di Θ, perché bisognerebbe prima convenire sulle
definizioni delle funzioni arcoseno e arcocoseno.
4 la somma dei punti nel piano on origine fissata (cioè i vettori), può essere introdotta in
modo puramente geometrico con la regola del parallelogramma.
3
• è un gruppo commutativo rispetto la somma (+) con elemento neutro
(0, 0)
• gli elementi diversi da (0, 0) formano un gruppo rispetto al prodotto (∗),
con elemento neutro (1, 0)
• vale la proprietà distributiva
((x1 , y1 ) + (x2 , y2 )) ∗ (x3 , y3 ) = (x1 , y1 ) ∗ (x3 , y3 ) + (x2 , y2 ) ∗ (x3 , y3 )
Le verifiche delle proprietà sono tutte elementari; segnaliamo solo la prova
dell’esistenza dell’inversa rispetto al prodotto5 :
sia (a, b) 6= (0, 0), dobbiamo cercare (x, y) tale che
(a, b) ∗ (x, y) = (1, 0)
cioè
ax − by
bx + ay
=
=
1
0
poichè il sistema ha una e una sola soluzione, essendo a2 + b2 6= 0, l’inverso di
(a, b) esiste.
Chiameremo (R2 , +, ∗) il campo dei numeri complessi e verrà semplicemente
indicato con C; come d’uso, eviteremo di scrivere il simbolo dell’operazione
prodotto, e converremo anche che in un’espressione algebrica, in mancanza di
parentesi, l’operazione prodotto abbia priorità sull’operazione di somma.
La funzione
f: R →
C
x 7→ (x, 0)
è iniettiva e tale che
f (x + y) = f (x) + f (y)
f (xy) = f (x)f (y)
pertanto, se identifichiamo x ∈ R con (x, 0) ∈ C, possiamo considerare il campo
C come un’estensione del campo R.
C eredita da R2 anche la struttura di spazio vettoriale su R , quindi ho due
operazioni di prodotto di un numero complesso per un numero reale, quella che
c’è in ogni spazio vettoriale di moltiplicazione di un vettore per uno scalare,
e quella che deriva dal considerare ogni numero reale un particolare numero
complesso. Per fortuna le due operazioni coincidono, per cui non vi è ambiguità
nel prodotto di un numero reale per un numero complesso. La base standard di C
come spazio vettoriale su R è formata dai numeri6 (1, 0) e (0, 1), il numero (1,0)
possiamo chiamarlo 1, corrispondendo al numero reale 1 e all’unità del prodotto;
chiamiamo unità immaginaria il numero (0, 1) e indichiamola sinteticamente con
”i”.
5 che
6 gli
peraltro è ovvia se si pensa al prodotto in termini di coordinate polari
elementi di C vengono chiamati numeri e non vettori
4
Formando 1 e i una base di C come R-spazio vettoriale, possiamo rappresentare il numero (x, y) ∈ C nel seguente modo
(x, y) = x1 + yi = x + iy.
Abbiamo che i2 = −1; pertanto i è soluzione dell’equazione x2 = −1, ma
anche −i è soluzione, quindi la scrittura
√
i = −1,
che si trova in molto libri, è fonte di confusione, essendo equivoco il significato
√
del simbolo .
Indicheremo il generico numero complesso con la lettera z e volendo mettere
in luce la decomposizione di cui sopra scriveremo
z = x + iy.
(2)
x si chiama la parte reale di z (si indica Re(z)) e y la parte immaginaria (si
indica Im(z)). La scrittura data dalla (2) è particolarmente comoda perché il
prodotto fra due numeri complessi può essere eseguito con le usuali regole del
calcolo algebrico, sostituendo −1 ogni volta che troviamo i2 .
1.4
Alcune funzioni elementari su C
La seguente funzione si chiama coniugio ed è particolarmente importante
C
z
x + iy
→
C
7
→
z̄
7→ x − iy
La sua importanza deriva dal fatto che il coniugio è un isomorfismo di campi,
cioè è biunivoca e gode delle seguenti proprietà
z1 + z2 = z̄1 + z̄2
z1 z2 = z̄1 z̄2
La parte reale e la parte immaginaria di un numero complesso possono essere
definite tramite il coniugio da
C
z
→ R⊂C
z+z̄
7→
2
Im : C
z
→ R⊂C
z−z̄
7→
2i
Re :
Per il coniugio valgono le seguenti proprietà di facile verifica
• z̄¯ = z
5
• z + z̄ = 2Re(z)
• z − z̄ = 2iRe(z)
• z −1 = (z̄)−1 , per z 6= 0
• z̄ = z ⇔ z ∈ R
• z̄ = −z ⇔ z ∈ iR, in tal caso diremo che z è un immaginario puro.
Definiamo la funzione modulo di un numero complesso z = z+iy nel seguente
modo
p
|z| = x2 + y 2 ,
p
√
risulta |z| = Re(z)2 + Im(z)2 = z z̄. Trattandosi di numeri
√ reali positivi o
nulli, non c’è equivoco col simbolo di radice, intendendosi con x il numero reale
non negativo il cui quadrato è x. Inoltre se z è un numero reale il suo modulo
coincide col valore assoluto, per cui non c’è confusione nel simbolo usato.
Per la funzione modulo valgono le seguenti proprietà
• |z| ≥ 0 e |z| = 0 ⇔ z = 0
• |z̄| = |z|
• |Re(z)| ≤ |z|, |Im(z)| ≤ |z|, |z| ≤ |Im(z)| + |Re(z)|
• |z1 z2 | = |z1 ||z2 |
• |z −1 | = |z|−1 , per z 6= 0
• |z1 + z2 | ≤ |z1 | + |z2 |
• |z1 + z2 | ≥ ||z1 | − |z2 ||.
Segnaliamo la dimostrazione delle ultime due relazioni, essendo le altre immediate:
|z1 + z2 |2 = (z1 + z2 )(z1 + z2 ) = |z1 |2 + z1 z̄2 + z̄1 z2 + |z2 |2 =
|z1 |2 + z1 z̄2 + z1 z̄2 + |z2 |2 =
|z1 |2 + 2Re(z1 z̄2 ) + |z2 |2 ≤
|z1 |2 + 2|(z1 z̄2 )| + |z2 |2 =
|z1 |2 + 2|z1 ||z̄2 | + |z2 |2 =
|z1 |2 + 2|z1 ||z2 | + |z2 |2 =
(|z1 | + |z2 |)2 ,
similmente
|z1 − z2 |2 = |z1 |2 − 2Re(z1 z̄2 ) + |z2 |2 ≥
|z1 |2 − 2|(z1 z̄2 )| + |z2 |2 =
(|z1 | − |z2 |)2 .
6
1.5
La rappresentazione trigoniometrica di un numero complesso
Scriviamo un numero complesso z = x + iy diverso da 0 nella forma
z = |z|(
Poiché
Re(z)
|z|
2
+
Im(z)
|z|
2
Re(z)
Im(z)
+i
).
|z|
|z|
= 1, possiamo anche scrivere
z = |z|(cos Θ + i sin Θ).
(3)
(dove Θ = {θ + 2kπ}k∈Z rappresenta la misura7 dell’angolo orientato che la
semiretta uscente da 0 e passante per 1 forma con la semiretta uscente da 0 e
Im(z)
passante per z; esso è tale che cos Θ = Re(z)
|z| e sin Θ = |z| .
Siano
z1 = ρ1 (cos θ1 + i sin θ1 )
z2 = ρ2 (cos θ2 + i sin θ2 ),
due numeri complessi, con θ1 , θ2 ∈ R e ρ1 , ρ2 ∈ R+ ; se z1 = z2 , allora, essendo
| cos θ + i sin θ| = 1, abbiamo
ρ1 = |ρ1 || cos θ1 + i sin θ1 | = |ρ1 (cos θ1 + i sin θ1 )| =
|ρ2 (cos θ2 + i sin θ2 )| = |ρ2 || cos θ2 + i sin θ2 | = ρ2 ,
quindi cos θ1 = cos θ2 e sin θ1 = sin θ2 . Poiché l’implicazione nell’altro verso è
ovvia, possiamo concludere che
ρ1 = ρ2
z1 = z2 ⇐⇒
(4)
∃k ∈ Z : θ1 = θ2 + 2kπ
Pertanto, se rapprensentiamo la misura di un angolo orientato con un insieme di
numeri reali Θ = {θ + 2kπ}k∈Z , un numero complesso non nullo è univocamente
determinato dalla sua rappresentazione (3). Per ogni θ ∈ Θ
z = |z|(cos θ + i sin θ)
si chiama una rappresentazione trigonometrica di z. Tornando alla (3) Θ si
chiama l’argomento di z e ogni θ ∈ Θ si chiama una determinazione di dell’argomento
di z.
Siano
z1 = |z1 |(cos Θ1 + i sin Θ1 )
7 è doveroso segnalare che la definizione di misura di un angolo, specie se orientato, è questione assai delicata e autorevoli matematici ritengono che questa non possa essere data in
mamiera corretta se non in un corso di analisi complessa o in un corso di teoria della misura;
purtroppo ragioni didattiche impongono anticipare le definizioni delle funzioni trigonometriche, ed anche la rappresentazione trigonometrica di un numero complesso.
7
z2 = |z2 |(cos Θ2 + i sin Θ2 ),
si ha
z1 z2 = |z1 ||z2 |(cos(Θ1 + Θ2 ) + i sin(Θ1 + Θ2 )),
(5)
che è ovvia se si considera la ”genesi” che abbiamo presentato del prodotto di
numeri complessi, e che comunque si prova facilmente usando le formule del
coseno e del seno dell’angolo somma.
Come caso particolare dalla (5) otteniamo la formula di De Moivre
z n = |z|n (cos(nΘ) + i sin(nΘ)),
(6)
La formula De Moivre permette di risolvere in C l’equazione
zn = w
(7)
Sia
w = |w|(cos Φ + i sin Φ),
con Φ = {φ + 2kπ}k∈Z , e sia
z = |z|(cos Θ + i sin Θ),
con Θ = {θ + 2kπ}k∈Z tale che sia soluzione di (7). Abbiamo |w| = |z|n ,
1
Φ = nΘ. Da cui segue subito che |z| = |w| n , ma possiamo scrivere Θ = Φ
n,
2π
differiscono
fra
loro
per
multipli
di
perché i valori degli elementi di Φ
n
n e
quindi non rappresenta la misura di un angolo. In effetti da (7) segue
1
|z| = |w| n
∀φ ∈ Φ, ∀θ ∈ Θ, ∃k ∈ Z : φ = nθ + 2kπ
ovvero
1
|z| = |w| n
∀φ ∈ Φ, ∀θ ∈ Θ, ∃k ∈ Z : θ =
φ
n
+
2kπ
n
Pertanto ∀k ∈ Z , in numeri
1
φ 2kπ
φ 2kπ
|w| n cos
+
+ i sin
+
n
n
n
n
sono soluzioni della(7) ma non ho infinite soluzione diverse, potendo i numeri
φ
2kπ
n + n rappresentare diverse determinazioni dello stesso angolo. Sia φ ∈ Φ,
poniamo
θ0
= nφ
θ1
= nφ + 2π
n
θ2
= nφ + 2 2π
n
..
..
.
.
θn−1
=
φ
n
+ (n − 1) 2π
n
a cui corrispondono gli angoli le cui misure sono
8
Θ0
Θ1
Θ2
..
.
= { nφ + 2kπ}k∈Z
= { nφ + 2π
n + 2kπ}k∈Z
= { nφ + 2 2π
n + 2kπ}k∈Z
..
.
Θn−1
= { nφ + (n − 1) 2π
n + 2kπ}k∈Z ;
φ
il numero nφ + n 2π
n = n + 2π appartiene a Θ0 e non da luogo a una diversa
soluzione dell’equazione (7). Pertanto, se w 6= 0, l’equazione (7) ha n distinte
soluzioni ed esse sono date da 8
1
z0
z1
z2
..
.
= |w| n (cos(θ0 ) + i sin(θ0 ))
1
= |w| n (cos(θ1 ) + i sin(θ1 ))
1
= |w| n (cos(θ2 ) + i sin(θ2 ))
..
.
zn−1
= |w| n (cos(θn−1 ) + i sin(θn−1 ))
1
Infine se w = 0 la (7) ha la sola soluzione nulla.
Esempio Per trovare le soluzioni dell’equazione z 3 = 2, dobbiamo rappresentare in modo trigonometrico il numero complesso 2:
2 = 2(cos(0) + i sin(0))
pertanto le tre radici cubiche di 2 sono
z0
z1
z2
1
1
= 2 3 (cos(0) + i sin(0))
= 23
√
1
1
2π
2π
= 2 3 (cos( 3 ) + i sin( 3 )) = 2 3 (− 21 + i √23 )
1
1
3
1
4π
3
= 2 3 (cos( 4π
3 ) + i sin( 3 )) = 2 (− 2 − i 2 )
Esempio Per trovare le soluzioni dell’equazione z 4 = −1, dobbiamo rappresentare in modo trigonometrico il numero complesso -4:
−4 = 4(cos(π) + i sin(π))
pertanto le quattro radici quarte di -4 sono
z0
=
z1
=
z2
=
z3
=
1
1
2 2 (cos( π4 ) + i sin( π4 ))
1
2
2 (cos( π4
1
2 2 (cos( π4
1
2 2 (cos( π4
+
+
+
1
1
= 2 2 ( 222 + i 222 )
π
2)
+ i sin( π4 + π2 ))
π) + i sin( π4 + π))
3π
π
3π
2 ) + i sin( 4 + 2 ))
=
=
=
1
2
1
=1+i
1
2 (− 222 + i 222
1
1
1
2 2 (− 222 − i 222
1
1
1
2 2 ( 222 − i 222 )
)
= −1 + i
)
= −1 − i
=1−i
Esempio Per trovare le soluzioni dell’equazione z 2 = −i, dobbiamo rappresentare in modo trigonometrico il numero complesso i:
−i = (cos(
8 nella
3π
3π
) + i sin( ))
2
2
formula che segue al posto di θ0 , θ1 . . . potremmo scrivere anche Θ0 , Θ1 . . .
9
pertanto le quattro radici quarte di -4 sono
z0
z1
=
=
1
√
1
3π
(cos( 3π
4 ) + i sin( 4 ))
= (− 222 + i 222 )
=
3π
(cos( 3π
4 + π) + i sin( 4 + π))
=(
−i
=
1
22
2
1
22
2
)
2
(−1 + i)
√2
2
2 (1 − i)
La formula di De Moivre (6) ci ha permesso di trovare le soluzioni di alcune
semplici equazioni polinomiali, ma non esiste una formula che dia le soluzioni
della generica equazione polinomiale se il grado è maggiore di 4. Ciononostante,
il seguente teorema, cosı̀ importante da essere chiamato teorema fondamentale
dell’algebra, assicura che almeno una soluzione esiste.
Teorema (fondamentale dell’algebra)
Ogni polinomio in una variabile, a coefficienti complessi, non costante, ha
almeno una radice in C
Le dimostrazioni puramente algebriche di questa teorema sono molto complesse;
altre più abbordabili fanno uso di strumenti di analisi matematica.
Un polinomio in una variabile si dice monico se il coefficiente del termine di
grado massimo è 1. Se un polinomio p(z) ha una radice z0 , allora è divisibile
per (z − z0 ) e, ripetendo la divisione n volte, otteniamo il seguente
Corollario Ogni polinomio, in C, non costante, di grado n, si fattorizza nel
prodotto di una costante e di n fattori di primo grado monici
Ogni polinomio a coefficienti reali è anche un polinomio a coefficienti complessi, e come tale ammette radici complesse.
Proposizione 1.1 Sia p(x) un polinomio a coefficienti reali. Se w è una radice
di p(x) anche w̄ lo è.
Dim. Sia p(x) = an xn + an−1 xn−1 + . . . + a1 x + a0 . Se w è radice abbiamo
an wn + an−1 wn−1 + . . . + a1 w + a0 = 0,
coniugando ambo i membri, abbiamo
an wn + an−1 wn−1 + . . . + a1 w + a0 = 0̄ = 0,
da cui, considerate le proprietà della funzione coniugio e tenendo presente che i
coefficienti sono reali,
an w̄n + an−1 w̄n−1 + . . . + a1 w̄ + a0 = 0,
cioè p(w̄) = 0.
1.6
Spazi vettoriali reali e spazi vettoriali complessi
Abbiamo già osservato che C è uno spazio vettoriale sul campo R di dimensione
2, essendo {1, i} una base. C è anche uno spazio vettoriale sul campo C, e in
10
questo caso la sua dimensione è 1, essendo ogni numero complesso non nullo
una sua base.
Uno spazio vettoriale V su C è anche uno spazio vettoriale su R , in quanto
essendo definito il prodotto di un vettore per un numero complesso è definito
anche il prodotto di un vettore per un numero reale poiché questo è un particolare numero complesso. Indichiamolo con VR , se vogliamo considerare su V la
sola struttura di spazio vettoriale reale.
Proposizione 1.2 Sia V uno spazio vettoriale su C. Se dim(V ) = n, allora
dim(VR ) = 2n.
Dim. Sia V = {v1 , . . . , vn } una base su C di V . Allora VR = {v1 , . . . , vn , iv1 , . . . , ivn }
è una base di V su R. Infatti, essendo V una base su C, abbiamo che ogni vettore
w si scrive
w = z1 v1 + . . . + zn vn = (x1 + iy1 )v1 + . . . (xn + iyn )vn =
x1 v1 + . . . + xn vn + y1 iv1 + . . . + yn ivn .
e quindi VR è un sistema di generatori su R di V . D’altra parte, se
a1 v1 + . . . + an vn + b1 iv1 + . . . + bn ivn = 0
è una combinazione lineare nulla degli elementi di VR , allora
(a1 + ib1 )v1 + . . . + (an + ibn )vn = 0,
è una combinazione lineare a coefficienti complessi nulla dei vettori della base
V; pertanto
(a1 + ib1 ) = . . . = (an + ibn ) = 0
da cui a1 = . . . = an = b1 = . . . = bn = 0.
Sia ora V uno spazio vettoriale reale di dimensione n, possiamo dare a V ×
V una struttura di spazio vettoriale complesso9 . Questo spazio si chiama il
complessificato di V e lo indichiamo con VC . Le operazioni di somma e prodotto
per uno scalare in VC sono definnite da
(v1 , v2 ) + (w1 , w2 ) := (v1 + w1 , v2 + w2 )
(x + iy)(v1 , v2 ) := (xv1 − yv2 , yv1 + xv2 )
Le verifiche delle proprietà sono di routine. Per quanto già visto all’inizio del
paragrafo, VC ha anche una struttura di spazio vettoriale reale, che coincide
con quella di V × V . Possiamo definire un’applicazione iniettiva da V in VC ,
9V
× V ha in maniera naturale unsa struttura di spazio vettoriale reale di dimensione 2n.
11
che è lineare come applicazione fra spazi vettoriali reali (verifiche banali), nel
seguente modo
J : V −→
VC
v 7−→ (v, 0)
Abbiamo
(v1 , v2 ) = (v1 , 0) + i(v2 , 0),
per cui, se identifichiamo v con (v, 0), (operazione legittimata dal fatto che J è
lineare e iniettiva) possiamo scrivere
(v1 , v2 ) = v1 + iv2 .
Proposizione 1.3 Se dim(V ) = n, allora dim VC = n.
Dim. Basta provare che, sotto l’identificazione J, una base di V è anche
una base di VC . Sia dunque V = {v1 , . . . , vn } una base di V ; sia (v, w) ∈ C;
abbiamo
v = a1 v1 + . . . + an vn
w = b1 v1 + . . . + bn vn
da cui
(v, w) = v + iw = a1 v1 + . . . + an vn + i(b1 v1 + . . . + bn vn ) =
(a1 + ib1 )v1 + . . . + (an + ibn )vn ,
pertanto V = {v1 , . . . , vn } è un sistema di generatori di VC .
Sia ora
(a1 + ib1 )v1 + . . . + (an + ibn )vn = 0
una combinazione lineare nulla dei vettori di V, abbiamo
(a1 v1 + . . . + an vn , b1 v1 + . . . + bn vn ) =
a1 v1 + . . . + an vn + i(b1 v1 + . . . + bn vn ) =
(a1 + ib1 )v1 + . . . + (an + ibn )vn = 0
da cui
a1 v1 + . . . + an vn = b1 v1 + . . . + bn vn = 0
e, essendo {v1 , . . . , vn } linearmente indipendenti in V , concludiamo che
a1 = . . . = an = b1 = . . . = bn = 0
e che {v1 , . . . , vn } sono linearmente indipendenti in VC .
12
1.7
Applicazioni lineari e matrici
1.7.1
Sia F : V → W un’applicazione lineare fra spazi vettoriali complessi di dimensione n e m. Siano V = {v1 , . . . , vn }, W = {w1 , . . . , wm }, basi di V e
W rispettivamente. Come è noto a F possiamo associare una matrice m × n,
MW,V (F ), sinteticamente definibile dalla relazione
F (V) = WMW,V (F ).
Essendo MW,V (F ) = (αij ) una matrice a elementi complessi. Essa può essere
scritta come A + iB, dove gli elementi di A = (aij ) e B = (bij ) sono, rispettivamente, le parti reali e le parti immaginarie degli elementi di MW,V (F ), cioè
αij = aij + ibij .
Nel paragrafo precedente abbiamo visto che V e W , sono anche spazi vettoriali reali di dimensione 2n e 2m; per distinguerli li abbiamo chiamati VR e WR .
Siano VR e WR le basi di VR e WR precedentemente definite.
Vogliamo calcolare MWR ,VR (F ). Le colonne di MWR ,VR (F ), sono rappresentate dalle componenti dei vettori F (v1 ), . . . , F (vn ), F (iv1 ), . . . , iF (vn ), rispetto
a WR = {w1 , . . . , wm , iw1 , . . . , iwm }. Abbiamo
F (vj ) =
m
X
αij wi =
i=1
m
X
aij wi + i
i=1
m
X
bij wi =
i=1
m
X
aij wi +
i=1
m
X
bij iwi
i=1
e
F (ivj ) = iF (vj ) = i
m
X
i=1
αij wi =
m
X
iaij wi −
i=1
m
X
bij wi =
i=1
m
X
i=1
aij iwi −
m
X
bij wi ,
i=1
da cui la matrice cercata, è rappresentata a blocchi da
A −B
MWR ,VR (F ) =
.
B A
1.7.2
Sia ora F : V → W un’applicazione lineare fra spazi vettoriali reali di dimensione n e m e siano V = {v1 , . . . , vn }, W = {w1 , . . . , wm }, basi di V e W ,
rispettivamente. Possiamo estendere F a un’applicazione FC : VC → WC , per
linearità, utilizzando il fatto che le basi V e W di di V e W sono anche basi di
VC e WC , e dunque la FC è definita sui vettori di una base di V . FC si chiama
la complessificata dell’applicazione F . Essendo FC (vj ) = F (vj ), abbiamo che
MW,V (FC ) = MW,V (F ).
Osservazione Capiterà, qualche volta, di considerare le radici complesse ( e
non reali) del polinomio caratteristico di un operatore T su uno spazio vettoriale
reale; questi numeri sono autovalori dell’operatore complessificato TC ; i rispettivi
autovettori saranno combinazioni lineari a coefficienti complessi dei vettori della
base di V e come tali elementi di VC .
13
2
Complementi di teoria degli operatori
Richiamiamo le proprietà sulla diagonalizzazione degli operatori. Sia V uno
spazio vettoriale su K di dimensione finita, V = {v1 , . . . , vn } una base di V e
T : V → V un operatore lineare. Indichiamo con MVV (T ), la matrice associata
a T rispetto alla base V. Ricordo che le sue colonne rappresentano, nell’ordine,
le componenti dei trasformati dei vettori della base V rispetto alla stessa base
V. Tale proprietà può essere scritta, in notazione matriciale
T (V) = VMVV (T ).


x1


Se v = x1 v1 + . . . + xn vn = Vx, con x =  ...  abbiamo
xn
T (v) = T (Vx) = T (V)x = VMVV (T )x,
da cui se poniamo T (v) =: Vy, ne segue che la T è rappresentata, in coordinate,
da
y = MVV (T )x.
L’operatore T si dice diagonalizzabile se esiste una base W per cui MWW (T )
è diagonale, questo accade se e soltanto se esiste una base di autovettori10 .
Essendo
−1
MVV (T ) = MWV
(Id)MWW (T )MWV (Id),
dove MWV (Id) è la matrice cambiamento di base, abbiamo che T è diagonalizzabile se e solo se T è simile a una matrice diagonale.
La procedura per determinare se T è diagonalizzabile prevede di calcolare, in
primo luogo gli autovalori di T (che coincidono, qualunque sia la base V, con gli
autovalori di MVV (T )), tramite la ricerca delle radici del polinomio caratteristico
PT (λ) = det(MVV (T ) − λI).
λ è un autovalore se e solo se è radice del polinomio caratteristico. Per ogni autovalore λ, si definisce l’autospazio Vλ , come l’insieme degli autovettori associati
a λ con l’aggiunto del vettore nullo; si definisce poi la molteplicità geometrica di λ come la dimensione di Vλ . Il criterio di diagonalizzabilità stabilisce
che T è diagonalizzabile se e solo se la somma delle molteplicità geometriche
degli autovalori di T è uguale alla dimensione di V . Infine è da segnalare che
la molteplicità geometrica di un autovalore λ̃ è sempre minore o uguale della
molteplicità algebrica di λ̃, cioè dell’esponente con cui si trova il fattore λ − λ̃
nella decomposizione in fattori irriducibili del polinomio caratteristico PT (λ).
Possiamo dire che la teoria della diagonalizzazione permette di classificare le
matrici quadrate diagonalizzabili rispetto la relazione di similitudine. Abbiamo
che
10 ricordo che un vettore x non nullo si dice un autovettore relativo all’autovalore λ ∈ K, se
T (x) = λx.
14
due matrici diagonalizzabili sono simili se e solo se hanno gli stessi autovalori
con la stessa molteplicità algebrica (ovvero se e solo se hanno lo stesso polinomio
caratteristico).
Similmente, in termini di operatori, possiamo dire che
due operatori diagonalizzabili hanno le stesse ”proprietà algebriche”11 se e
solo se hanno gli stessi autovalori con la stessa molteplicità algebrica (ovvero,
di nuovo, se e solo se hanno lo stesso polinomio caratteristico12 ).
Scopo di questo capitolo è illustrare come si possano classificare gli operatori
(o le matrici) che non sono diagonalizzabili.
2.1
Triangolarizzazione degli operatori
Il fatto fondamentale che distingue la teoria degli operatori in campo comlesso da
quella in campo reale è che in C un operatore ha sempre almeno un autovalore,
perché il polinomio caratteristico ha almeno una radice.
Definizione 2.1 Una matrice quadrata A = (aij ) si dice triagolare superiore
se aij = 0 per i > j.
Proposizione 2.1 Ogni operatore T su uno spazio vettoriale complesso V è
triangolarizzabile, cioè esiste una base V per cui la matrice associata MVV (T )
è triangolare superiore.
Dim. La dimostrazione è per induzione sulla dimensione di V . Per gli spazi di
dimensione 1 la proposizione è banale. Assumiamo che ogni operatore su uno
spazio vettoriale complesso di dimensione n − 1 sia traingolarizzabile (ovvero
che ogni matrice (n − 1) × (n − 1) è simile a una matrice triangolare superiore)
e dimostriamo che da ciò segue che ogni operatore su uno spazio vettoriale di
dimensione n è triangolarizzabile.
Sia λ1 un autovalore di T (esiste perchè siamo su uno spazio vettoriale complesso) e sia v1 un suo autovettore. Completiamo v1 fino a una base di V . Sia
questa V = {v1 , v2 , . . . , vn }. La matrice associata a T rispetto alla base V ha
la forma


λ1 a12 . . . a1n
 0 a22 . . . a2n 
λ1 B
=
MVV (T ) = 
.
 ... ... ... ... 
0 A
0 an2 . . . ann
A è una matrice quadrata di ordine n − 1, quindi per ipotesi induttiva è simile a
una matrice diagonale. Cioè esiste D ∈ GLn−1 (C) tale che D−1 AD è triangolare
superiore. Posto
1 0
D̃ =
,
0 D
11 in termini formalmente più corretti, ciò significa che esiste un automorfismo (applicazione
lineare invertiblie) φ : V → V tale che φ ◦ T = T 0 ◦ φ; la φ permette di ”trasportare ogni
proprietà algebrica di T a T 0 .
12 il polinomio caratterisco di una matrice A è P (λ) := det(A − λI).
A
15
abbiamo che D̃ ∈ GLn (C) e
D̃
−1
MVV (T )D̃ =
λ1
0
BD
D−1 AD
è triangolare superiore. Poniamo adesso Ṽ = V D̃, abbiamo che Ṽ è una base,
perché D̃ è invertibile; inoltre D̃ è la matrice cambiamento di base, MV Ṽ (Id),
per cui
MṼ Ṽ (T ) = MV−1Ṽ (Id)MVV (T )MV Ṽ (Id) = D̃−1 MV Ṽ (T )D̃
è triangolare superiore.
Definizione 2.2 Sia T un operatore su uno spazio vettoriale reale o complesso,
definiamo spettro di T l’insieme delle radici complesse del polinomio caratteristico.
Per un operatore T su uno spazio vettoriale reale V , lo spettro13 coincide con
l’insieme degli degli autovalori dell’estensione TC di T al complessificato VC .
Si osservi che la proposizione (2.1) non è vera in campo reale, in quanto ogni
operatore triangolarizzabile ha almeno un autovettore, mentre esistono operatori
privi di autovettori, quali, ad esempio, le rotazioni di angolo diverso da 0 e π.
Comunque vale il seguente
Proposizione 2.2 Un operatore T su uno spazio vettoriale reale V , con lo
spettro tutto reale è triangolarizzabile.
la cui dimostrazione è simile alla precedente, essendo intervenuta, nella prova,
l’ipotesi che il campo sia complesso, solo per provare l’esistenza di un autovettore. Bisogna osservare anche che, se MVV (T ) ha spettro tutto reale, pure la
sottomatrice A ha spettro tutto reale.
2.2
I teorema di riduzione
Definizione 2.3 Sia T un operatore sullo spazio vettoriale V . Un sottospazio
W di V si dice T -invariante (o invariante per T o anche T-stabile) se T (W ) ⊆
W.
Se T è diagonalizzabile e V = {v1 , . . . , vn } è una base che diagonalizza T
allora span(v1 ), . . . , span(vn ) sono spazi T -invarianti e
V = span{v1 } ⊕ . . . ⊕ span{vn },
anzi è facile vedere che T è diagonalizzabile se e solo se V è somma diretta14
di n sottospazi T -invarianti di dimensione 1. È pertanto naturale ricercare per
13 molti autori intendono con spettro di un operatore reale l’insieme delle radici reali del
polinomio caratteristico
14 si ricorda la definizione di somma diretta di sottospazi: la somma dei sottospazi
W1 , . . . , Wr di dice diretta (e si scrive W1 ⊕ . . . ⊕ Wr ) se ogni vettore v ∈ W1 + . . . + Wr è
somma in un sol modo di r vettori, v1 , . . . , vr , con v1 ∈ W1 , . . . , vr ∈ Wr .
16
gli operatori non diagonalizzabili la più ”fine” decomposizione in somma diretta
di sottospazi T -invarianti, oppure la decomposizione in somma diretta con il
maggior numero di sottospazi T -invarianti.
Con questo obiettivo in mente, introciamo la seguente
Definizione 2.4 Sia λ un autovalore di T , v ∈ V si dice una radice per T di
ordine m relativa all’autovalore λ, se m è il più piccolo numero naturale tale
che
(T − λId)m (v) = 0.
Proposizione 2.3 L’insieme delle radici per T relative all’autovalore λ è un
sottospazio vettoriale che indichiamo con R(T, λ).
Dim. Sia v ∈ R(T, λ); esiste m ∈ N tale che (T − λId)m (v) = 0; ne segue che
(T − λId)m (kv) = k(T − λId)m (v) = 0, dunque kv ∈ R(T, λ).
Siano v1 , v2 ∈ R(T, λ); esistono m1 , m2 ∈ N tali che (T − λId)m1 (v1 ) = 0 e
(T − λId)m2 (v2 ) = 0; ne segue
(T −λId)max(m1 ,m2 ) (v1 +v2 ) = (T −λId)max(m1 ,m2 ) (v1 )+(T −λId)max(m1 ,m2 ) (v2 ) = 0
Proposizione 2.4 R(T, λ) è T -invariante.
Dim. Sia v ∈ R(T, λ). Esiste m ∈ N tale che (T − λId)m (v) = 0. Anche
(T − λId)m+1 (v) = 0. Quindi
0 = (T − λId)m+1 (v) = (T − λId)m ((T − λId)(v)) =
(T − λId)m (T (v) − λv) =
(T − λId)m (T (v)) − λ(T − λId)m (v) =
(T − λId)m (T (v)).
Quindi anche T (v) è una radice relativa a λ.
Poiché ogni sottospazio è Id-invariante, abbiamo
Corollario R(T, λ) è (T − µId)-invariante, qualunque sia µ, in particolare è
(T − λId)-invariante.
Definizione 2.5 Un operatore T su V si dice nilpotente se esiste m ∈ N tale
che T m = 0 ( cioè T m (v) = 0 per ogni v ∈ V ); si dice nilpotente di ordine m
se m è il più piccolo indice tale che T m = 0.
Proposizione 2.5 Un operatore T nilpotente sullo spazio V di dimensione n,
ha solo l’autovalore 0 con molteplicità algebrica n.
17
Dim. Se λ è autovalore di T con autovettore v, allora T m (v) = λm v e
dunque λm è autovalore di T m . Se T m è l’operatore nullo, allora esso ha solo
l’autovalore 0, quindi λm = 0, cioè λ = 0. Su V è uno spazio vettoriale complesso la molteplicità algebrica è n, perché la somma delle molteplicità algebriche
è uguale alla dimensione dello spazio; se V è uno spazio vettoriale reale, allora
la molteplictà algebrica di 0 è n, perché tale è la molteplicità di 0 per TC e gli
autovalori di TC sono tutti reali.
La seguente proposizione vale solo per spazi di dimensione finita, come sono
quelli da noi considerati
Proposizione 2.6 Sia λ un autovalore dell’operatore T sullo spazio di dimensione finita V . (T − λId)|R(T,λ) : R(T, λ) → R(T, λ) è nilpotente.
Dim. Dalla definizione di R(T, λ) segue che
R(T, λ) =
∞
[
ker(T − λId)m
m=1
Abbiamo che ker(T − λId)m+1 ⊇ ker(T − λId)m . Poiché R(T, λ) ha dimensione
finita, esiste m tale che
R(T, λ) =
m̄
[
ker(T − λId)m = ker(T − λId)m̄ .
m=1
Quindi (T − λId) ristretto a R(T, λ) è nilpotente.
Osserviamo che l’ordine di nilpotenza di (T − λId)|R(T,λ) è uguale al più
piccolo m tale che ker(T − λId)m+1 = ker(T − λId)m . Ciò deriva dal fatto che,
se
ker(T − λId)m+1 = ker(T − λId)m
allora per ogni k ∈ N
ker(T − λId)m+k = ker(T − λId)m ;
infatti sia v ∈ ker(T − λId)m+k , abbiamo
0 = (T − λId)m+k (v) = (T − λId)m+1 ((T − λId)k−1 (v)) =
(T − λId)m ((T − λId)k−1 (v)) =
(T − λId)m+k−1 (v)
Iterando il procedimento k volte, otteniamo (T −λId)m (v) = 0, cioè v ∈ ker(T −
λId)m .
18
Proposizione 2.7 Siano λ, µ autovalori distinti dell’operatore T . La restrizione
di (T − µId) a R(T, λ), che denotiamo (T − λId)|R(T,λ) , è inettiva.
Dim. Abbiamo già provato nel corollario precedente che R(T, λ) è un sottospazio invariante sia per (T − λId) che per (T − µId).
Proviamo ora che se v ∈ R(T, λ) e (T − µId)(v) = 0, allora v = 0. Abbiamo
che T (v) = µv, e dunque
(T − λId)v = T (v) − λv = µv − λv = (µ − λ)v,
Se fosse v 6= 0 allora λ − µ sarebbe un autovalore per (T − λId)|R(T,λ) , il quale
essendo nilpotente ha solo l’autovalore nullo. Pertanto v = 0.
Dalla proposizione precedente segue subito che se λ 6= µ, allora R(T, λ) ∩
R(T, µ) = 0. Infatti se (T − µId) è iniettiva su R(T, λ), anche ogni sua potenza
è iniettiva; se esistesse un vettore non nullo v ∈ R(T, λ) ∩ R(T, µ), allora
(T − µId)m (v) = 0 per un qualche intero m, contro il fatto che (T − µId)m
è iniettivo su R(T, λ). Ma vale una proposizione più forte.
Proposizione 2.8 Siano λ1 , . . . , λr autovalori distinti di T . La somma
R(T, λ1 ) ⊕ . . . ⊕ R(T, λr )
è diretta, cioè ogni vettore v ∈ R(T, λ1 ) + . . . + R(T, λr ) si scrive in un sol modo
come somma di r radici relative agli r autovalori.
Dim. La dimostrazione è per induzione sul numero degli autovalori. Se r = 1 il
fatto è banale. Assumiamo l’enunciato per r = k − 1 e dimostriamolo per r = k.
Sia
v = v1 + . . . + vk = w1 + . . . + wk
(8)
con v1 , w1 ∈ R(T, λ1 ),. . . ,vk , wk ∈ R(T, λk ). Esiste m tale che15
(T − λk Id)m (vk ) = (T − λk Id)m (wk ) = 0
allora
(T − λk Id)m (v) = (T − λk Id)m (v1 ) + . . . + (T − λk Id)m (vk−1 ) =
(T − λk Id)m (w1 ) + . . . + (T − λk Id)m (wk−1 ).
Per l’ipotesi induttiva abbiamo che
(T − λk Id)m (v1 ) = (T − λk Id)m (w1 )
..
.
(T − λk Id)m (vk−1 ) = (T − λk Id)m (wk−1 ).
Poiché (T − λk Id)m è iniettiva sui sottospazi delle radici relativi a λ1 ,. . . , λk−1 ,
abbiamo che v1 = w1 ,. . . , vk−1 = wk−1 . Dalla (8) segue ora che anche vk = wk .
15 m
è uguale al massimo degli ordini delle radici di vk e wk .
19
Per arrivare a dimostrare il I teorema di riduzione abbiamo ancora bisogno della
seguente
Proposizione 2.9 Sia V uno spazio vettoriale complesso e T un operatore su
V . La dimensione di R(T, λ) è uguale alla molteplicità algebrica di λ.
Dim. Sia W = {v1 , . . . , vk } una base di R(T, λ) e completiamola a una base
V = {v1 , . . . , vk , . . . , vn } di V Poiché R(T, λ) è T -invariante, abbiamo che


a11 . . . a1k
a1 k+1
...
a1n
 ... ... ...
...
...
... 

  ak1 . . . akk
A B
ak k+1
...
akn 

=
,
MVV (T ) = 

0 C
 0 . . . 0 ak+1 k+1 . . . ak+1 n 
 ... ... ...
...
...
... 
0 ... 0
an k+1
...
ann
con A = MWW (T |R(T,λ) ).
Poiché λ è l’unico autovalore di (T |R(T,λ) ), PA (t) = (−1)k (t − λ)k abbiamo
che
PT (t) = det(MVV (T ) − tIn ) = det(A − tIn ) det(C − tIn ) = (−1)k (t − λ)k PC (t).
Supponiamo, per assurdo, che la molteplicità algebrica di λ sia maggiore di
dim R(T, λ), allora λ è autovalore di C.
Ricordandoci che in campo complesso ogni matrice può essere triangolarizzata, sia D ∈ GLn−k (C) tale che D−1 CD sia triangolare e partendo il processo
di triangolarizzazione proprio dall’autovettore relativo all’autovalore λ di C,
possiamo fare in modo che al posto 11 di D−1 CD = si trovi l’autovalore λ, cioè
!
λ ...
−1
.
D CD =
.
0 ..
Sia ora
D̃ =
Ik
0
0
D
,
abbiamo che D̃ ∈ GLn (C) e
D̃−1 MVV (T )D̃ =
A
BD
0 D−1 CD

A

=
0

BD !

λ ...
.
..
.
0
(9)
Sia Ṽ = V D̃ = {ṽ1 , . . . , ṽn }; Ṽ è una base e, poiché D̃ è la matrice cambiamento
di base da V a Ṽ, abbiamo che la (9) è la matrice associata a T rispetto a Ṽ ,
cioè MṼ Ṽ (T ).
20
Osserviamo che ṽ1 = v1 , . . . , ṽk = vk . Poiché v1 , . . . , vk sono radici relative
a λ, esiste m ∈ N tale che (T − λId)m (vi ) = 0 per i = 1, . . . , k.
Siano c1 , . . . , ck i primi k termini della prima colonna di BD, abbiamo
(T − λId)m+1 (ṽk+1 ) = (T − λId)m ((T − λId)(ṽk+1 )) =
(T − λId)m (T (ṽk+1 ) − λṽk+1 ) =
(T − λId)m (c1 ṽ1 + . . . + ck ṽk + λṽk+1 − λṽk+1 ) =
(T − λId)m (c1 v1 + . . . + ck vk ) =
c1 (T − λId)m (v1 ) + . . . + ck (T − λId)m (vk ) = 0.
Quindi ṽk+1 è una radice relativa a λ, dunque è combinazione lineare di v1 , . . . , vk ,
cioè di ṽ1 , . . . , ṽk , il che è assurdo essendo Ṽ una base. L’assurdo è nato dall’aver
supposto che la molteplicità algebrica di λ fosse maggiore della dimensione di
R(T, λ).
Abbiamo come diretta e immediata conseguenza il
Teorema (I Teorema di riduzione)
Sia T : V → V un operatore sullo spazio vettoriale complesso di dimensione
finita V . Siano λ1 , . . . , λk i suoi autovalori. Allora
V = R(T, λ1 ) ⊕ . . . ⊕ R(T, λk )
Dim. La somma delle molteplicità algebriche degli autovalori di un operatore
su uno spazio vettoriale complesso è uguale alla dimensione dello spazio, per cui
dim(R(T, λ1 ) ⊕ . . . ⊕ R(T, λk )) = dim R(T, λ1 ) + . . . + dim R(T, λk ) = n.
2.3
Il II teorema di riduzione
Il primo teorema di riduzione mostra una prima decomposizione di V in somma
diretta di sottospazi T -invarianti. Dobbiamo chiederci se un sottospazio delle
radici possa essere, a sua volta, somma diretta di sottospazi T -invarianti.
Un sottospazio W di R(T, λ) è T -invariante se e solo se è (T −λId)-invariante.
Possiamo quindi limitarci a cercare sottospazi si R(T, λ), (T − λId)-invarianti.
Il vantaggio sta nel fatto che (T − λId)|R(T,λ) è un operatore nilpotente.
Introduciamo la seguente
Definizione 2.6 Sia G un operatore sullo spazio vettoriale V di dimensione n,
G si dice ciclico se esiste una base, V = {v1 , . . . , vn }, detta base ciclica, tale
che
G(v1 ) = 0
G(v2 ) = v1
..
.
G(vn ) = vn−1
21
È immediato verificare che ogni operatore ciclico è nilpotente. La matrice
associata all’operatore ciclico G rispetto una base ciclica ha la forma


0 1 0 ... 0
 0 0 1 ... 0 



..  .
..
Jn :=  ... ...
. . 


 0 0 0 ... 1 
0 0 0 ... 0
0 è il solo autovalore di un operatore ciclico G, con molteplicità algebrica
n e molteplicità geometrica 1. Pertanto l’autospazio relativo all’autovalore 0 è
span(v1 ).
Per gli operatori nilpotenti vale il II teorema di riduzione, di cui omettiamo
la dimostrazione.
Teorema (II Teorema di riduzione)
Sia G un operatore nilpotente sullo spazio vettoriale V . Esistono sottospazi
G-invarianti W1 , . . . , Wk tali che
V = W1 ⊕ . . . ⊕ Wk
e la restrizione, G|Wi , di G a ogni sottospazio Wi , è un operatore ciclico.
Applicando il II teorema di riduzione all’operatore
(T − λId)|R(T,λ) : R(T, λ) → R(T, λ)
e, ricordando che un sottospazio (T − λId)-invariante è anche T -invariante, abbiamo che
R(T, λ) = W1 ⊕ . . . ⊕ Wk ,
(10)
dove i sottospazi Wi sono T -invarianti e gli operatori (T − λId)|Wi sono ciclici.
Chiamiamo sottospazio di Jordan relativo all’autovalore λ dell’operatore T,
un sottospazio W ⊆ V per cui (T − λId)|W è ciclico, e base di Jordan una base
di W ciclica per (T − λId)|W .
Sia V = {v1 , . . . , vr } una base di Jordan di W . Poiché la matrice associata
a (T − λId)|W è


0 1 0 0 ... 0
 0 0 1 0 ... 0 


 0 0 0 1 ... 0 


Jr =  . . .
(11)
..  ,
..
 .. .. ..

.
.


 0 0 0 0 ... 1 
0 0 0 0 ... 0
22
la matrice associata a T |W rispetto a

λ 1
 0 λ

 .. ..
 . .
Jr (λ) = 
 . .
 .. ..

 0 0
0 0
V è
0
1
..
.
...
...
..
.
0
0
..
..
.
...
...
0
0
0
0
..
.
..
.
1
λ
.
λ
0





.




(12)
La matrice Jr (λ) si chiama blocco di Jordan di ordine r relativo a λ o λ-blocco
di Jordan di ordine r.
Sia Vi = {vi1 , . . . , vir(i) } una base di Jordan di Wi ; dalla (10) segue che
∪ki=1 Vi è una base di R(T, λ) e rispetto a questa base l’operatore T |R(T,λ) è
rappresentato da una matrice avente sulla diagonale k blocchi di Jordan. Essa
ha la forma
r(1)
z







































λ
r(2)
}|
1
0
..
.
λ
0
0
0
0
..
..
.
.
...
...
{ z
0
0
0
..
.
0
..
.
λ
0
1
λ
0
λ
r(k)
}|
1
0
..
.
λ
0
0
0
0
..
..
.
.
...
...
{
0
0
0
..
.
λ
0
0
..
.
1
λ
z
0
..
.
..
.
..
.
0
λ
}|
1
0
..
.
λ
0
0
0
0
..
..
.
.
...
...
{

0
0
0
..
.
0
..
.
λ
0
1
λ



















;


















dove i singoli blocchi di Jordan hanno ordine uguale alla dimensione dei Wi ;
nel caso che un blocco abbia dimesione 1 allora è formato dal solo autovalore.
Come si vede, si tratta di una matrice con tutti zeri eccetto che sulla diagonale
dove troviamo l’autovalore λ e sulla prima parallela destra della diagonale dove
troviamo una sequenza di 1 e 0, che servono a individuare i blocchi di Jordan.
23
2.4
Forma canonica di Jordan
Combiniamo il I e il II teorema di riduzione.
Per ognuno dei sottospazi delle radici esiste una decomposizione in sottospazi
di Jordan, quindi V è somma diretta di sottospazi di Jordan, che ricordo sono
T -invarianti. Prendendo una base di Jordan per per ciascuno dei sottospazi
di Jordan e facendone l’unione, ottengo una base W di V, rispetto la quale la
matrice associata a T ha lungo la diagonale blocchi di Jordan relativi ai vari
autovalori di T . Supponiamo che sia si il numero dei (λi )-blocchi di Jordan che
trovo sulla diagonale; la matrice associata a T rispetto W può essere schematizzata nella seguente nella matrice a bloccchi, dove i blocchi non rappresentati
sono tutti nulli e dove l’indice che numera i blocchi di Jordan è indicato fra parentesi per non confonderlo con l’indice che mostra (quando è scritto) l’ordine
del blocco di Jordan.


J(1) (λ1 )


..


.




J(s1 ) (λ1 )




..


.
.

(13)
MWW (T ) = 

.
..






J(1) (λk )




..


.
J(sk ) (λk )
Definizione 2.7 Una matrice che è nulla, salvo avere lungo la diagonale blocchi
di Jordan si dice una forma canonica di Jordan.
Da quanto sopra detto abbiamo
Proposizione 2.10 Per ogni operatore T su uno spazio vettoriale complesso
di dimensione finita esiste una base rispetto la quale la matrice associata è una
forma canonica di Jordan
Poiché ogni matrice complessa definisce un operatore su Cn , vi è un equivalente della proposizione precedente in terminni di matrici.
Proposizione 2.11 Ogni matrice quadrata complessa è simile in C a una forma
canonica di Jordan.
Si osservi che i sottospazi delle radici sono univocamente determinati dall’operatore
T ; non cosı̀ i sottospazi di Jordan. Se consideriamo ad esempio l’operatore nullo
su V , questo ha un solo autovalore, lo zero, a cui corrisponde come sottospazio
delle radici lo stesso spazio V . Ogni sottospazio di dimensione 1 è un sottospazio di Jordan, ed esistono infinite decomposizioni di V in somma diretta
di sottospazi di Jordan.
24
Sono invece univocamente determinati da T sia il loro numero sia le loro
dimensioni16 e la prova di questa affermazione seguirà dall’algoritmo che serve
a calcolare la forma canonica di Jordan dell’operatore T .
Cominciamo col calcolare il rango delle potenze di (Jr (λ) − λIr ). Da (11) e
(12) abbiamo che Jr (λ) − λIr = Jr e quindi
rk(Jr (λ) − λIr ) = r − 1.

0
0
..
.




J2r = 
 0

 0
0
0
0
..
.
1
0
..
.
0
0
0
0
0
0

0 ... 0
1 ... 0 

.. 
..
. . 

0 ... 1 

0 ... 0 
0 ... 0
dunque
rk(Jr (λ) − λIr )2 = r − 2.
Ogni volta che si alza di uno l’esponente di Jr , la diagonale di uni si sposta di
un posto verso destra e verso l’alto cosicché il rango scende di uno. Pertanto
r − h se h ≤ r
h
rk(Jr (λ) − λIr ) =
(14)
0
se h ≥ r
che ha senso anche per h = 0, se conveniamo che, per ogni matrice quadrata
non nulla A, A0 = I.
Se µ 6= λ, qualunque sia k,
rk(Jr (µ) − λIr )k = r.
Valutiamo ora come varia il rango di (T − λId)h al crescere di h. Sia W una
base rspetto la quale la matrice associata a T sia in forma canonica di Jordan;
con le notazioni della (13) abbiamo
rk(T − λId)h = rk((MWW (T ) − λIn )h =
si
k X
X
rk(J(j) (λi ) − λIr(i,j) )h ,
i=1 j=1
dove r(i, j) è l’ordine di J(j) (λi ).
Se λi 6= λ, il rango di (J(j) (λi ) − λI)h non varia al crescere di h, mentre, per
la (14), se λi = λ, al crescere di 1 dell’esponente h, il rango di (J(j) (λi ) − λI)h
diminuisce di 1, purché (J(j) (λi ) − λI)h non sia già diventata la matrice nulla,
nel qual caso il rango non può ulteriormente diminuire al crescere di h. Pertanto
rk(T − λId)h−1 − rk(T − λId)h
16 questo
giustifica la parola canonica che si dà alla forma di Jordan
25
(15)
rappresenta il numero dei λ-blocchi di Jordan con ordine maggiore o uguale a
h.
Ne segue la seguente
Proposizione 2.12 Sia ρ(T, λ, h) il numero del λ-blocchi di Jordan di ordine
h, che si trovano in una forma canonica di Jordan associata all’operatore T .
Vale
ρ(T, λ, h) = rk(T − λId)h−1 − 2rk(T − λId)h + rk(T − λId)h+1
(16)
Dim. Dalla (15) segue subito
ρ(T, λ, h) = (rk(T − λId)h−1 − rk(T − λId)h ) −
(rk(T − λId)h − rk(T − λId)h+1 )
da cui la tesi.
La formula (16) permette di calcolare ρ(T, λ, h) direttamente da T , senza
dover determinare una base rispetto la quale la matrice associata a T sia una
forma canonica di Jordan, quindi i numeri ρ(T, λ, h) non dipendono dalla base
usata per rappresentare T in forma canonica di Jordan. Da ciò ne deriva
Teorema(della riduzione a forma canonica di Jordan)
Sia T un operatore sullo spazio vettoriale complesso di dimensione finita V . Esiste una base W rispetto la quale la matrice associata a T è una forma canonica
di Jordan, la quale è univocamente determinata da T , salvo l’ordine con cui
compaiono i blocchi di Jordan sulla diagonale di MWW (T ).
Gli invarianti ρ(T, λ, h) servono anche a classificare le matrici quadrate complesse rispetto la relazione di similitudine. Sia A ∈ Mnn (C) e sia TA : Cn → Cn
l’operatore che associa Ax a x. Indichiamo con ρ(A, λ, h) := ρ(TA , λ, h) Abbiamo che
Proposizione 2.13 Due matrici A, B ∈ Mnn (C) sono simili se e solo se
1. hanno gli stessi autovalori
2. ρ(A, λ, h) = ρ(B, λ, h), per ogni autovalore λ e per ogni naturale h minore
o uguale della moltepliciyà algebrica di λ.
Dim. Due matrici simili rappresentano lo stesso operatore rispetto basi diverse
quindi hanno gli stessi autovalori e gli stessi ρ(−, λ, h); viceversa se, A e B hanno
gli stessi autovalori e ρ(A, λ, h) = ρ(B, λ, h), per ogni λ e per ogni h, allora sono
simili alla stessa forma canonica di Jordan, quindi simili fra loro.
26
Similmente, gli invarianti ρ(T, λ, h) sono sufficienti a classificare anche gli
operatori nel senso che
che due operatori T e T 0 hanno le stesse ”proprietà algebriche”17 se e solo se
hanno gli stessi autovalori e uguali gli invarianti ρ(T, λ, h), ρ(T 0 , λ, h).
Un ulteriore osservazione è che la decomposizione di V in somma diretta di
sottospazi T -invarianti, data dalla riduzione a forma canonica di Jordan, non è
ulteriormente migliorabile nel senso che non esiste un’altra decomposizoione di V
in un maggior numero di sottospazi T -invarianti, perché altrimenti la restrizione
di T a ciascuno di questi sottospazi sarebbe, a sua volta, riducibile a forma
canonica di Jordan e complessivamente ritroverei due decomposizioni di T a
forma canonica di Jordan con diversi valori per ρ(T, λ, h), contro l’unicità.
Che dire infine della classificazione delle matrici quadrate reali a meno di
similitudine? La teoria della riduzione a forma canonica di Jordan risolve anche
questo problema. Vale infatti
Proposizione 2.14 Due matrici quadrate reali A, B ∈ M nn (R) sono simili se
e solo se sono simili come matrici complesse. Cioè
∃M ∈ GLn (R),
A = M −1 BM ⇐⇒ ∃C ∈ GLn (C),
A = C −1 BC.
Dim. L’implicazione =⇒ è banale. Viceversa. Sia C ∈ Mnn (C) tale
A = C −1 BC.
Segue
CA = BC
da cui, coniugando e tenendo presente che che A e B sono reali
C̄A = B C̄,
e quindi
Re(C)A =
BC + B C̄
CA + C̄A
=
= BRe(C)
2
2
CA + C̄A
BC + B C̄
=
= BIm(C).
2i
2i
Non possiamo concludere che A e B sono simili come matrici reali perché, pur
essendo Re(C) e Im(C) matrici reali, non sappiamo se sono invertibili. Poiché
anche ogni combinazione lineare aReC + bImC è tale che
Im(C)A =
(aReC + bImC)A = B(aReC + bImC),
dobbiamo chiederci se esistono a, b ∈ R tali che (aReC + bImC) è invertibile.
Scegliamo a = 1 e osserviamo che
det(ReC + bImC)
17 vedi
nota (11)
27
è un polinomio in b, a coefficienti reali, non identicamente nullo, in quanto
calcolato sul numero complesso i assume il valore det C 6= 0. Esiste dunque
almeno un numero reale b̃ (ne esistono infiniti) tale che
det(ReC + b̃ImC) 6= 0.
Sia M = (ReC + b̃ImC), ho M ∈ GLn (R) e A = M −1 BM .
Interpretando il risultato precedente in termini di operatori, abbiamo che lo
spettro e gli invarianti ρ(TC , λ, h) sono sufficienti a classificare anche gli operatori
su uno spazio vettoriale reale, nel senso che
due operatori T e T 0 sullo spazio vettoriale reale V hanno le stesse ”proprietà
algebriche”18 se e solo se hanno lo stesso spettro e i loro complessificati hanno
gli invarianti ρ(TC , λ, h) e ρ(TC0 , λ, h) uguali.
2.5
Un esempio di calcolo della forma canonica di Jordan
Sia T l’operatore che
T : C4
x
dove
−→
7−→
C4
Ax

0
0
1
0
0
−λ
1
0
0
1
−λ
0

1
0 

1 
1

1
 0

A=
0
0


PT (λ) = det 

1−λ
0
0
0
0
1
0
0
1
0 
 = (1 − λ)3 (1 + λ).
1 
1−λ
Ho due autovalori λ1 = 1 di molteplicità algebrica 3 e λ2 = −1 di molteplicità
algebrica 1. Da ciò segue che necessariamente ρ(T, λ2 , 1) = 1 e non serve calcolare altro per l’autovalore λ2 . Calcoliamo ora ρ(T, λ1 , 1), ρ(T, λ1 , 2) e ρ(T, λ1 , 3).
Determiniamo


0 0
0 1
 0 −1 1 0 

rk(T − λ1 I4 ) = rk 
 0 1 −1 1  = 2
0 0
0 0


0 0
0 0
 0 2 −2 0 

rk(T − λ1 I4 )2 = rk 
 0 −2 −2 0  = 1
0 0
0 0
18 vedi
nota (11)
28
rk(T − λ1 I4 )3 = 1.
Per l’ultimo rango non è necessario fare calcoli, perché 3 è la molteplicità algebrica di λ1 e dunque rk(T − λ1 I4 )3 = dim(C4 ) − 3 = 1. E’ anche inutile calcolare
rk(T − λ1 I4 )4 , perche all’aumentare l’esponente oltre la molteplicità algebrica il
rango non scende più.
Dalla (16) abbiamo
ρ(T, λ1 , 1) = 4 − 2 · 2 + 1 = 1
ρ(T, λ1 , 2) = 2 − 2 · 1 + 1 = 1
ρ(T, λ1 , 3) = 1 − 2 · 1 + 1 = 0
Esiste una base W per cui la matrice associata a T rispetto a W è


1 1 0 0
 0 1 0 0 

MWW (T ) = 
 0 0 1 0 .
0 0 0 −1
3
Forme bilineari e forme sesquilineari
3.1
Definizioni
Sia V uno spazio vettoriale su K .
Definizione 3.1 Un’applicazione B : V × V → K si dice bilineare se
1. B(v + w, z) = B(v, z) + B(w, z)
2. B(kv, w) = kB(v, w)
3. B(v, w + z) = B(v, w) + B(v, z)
4. B(v, kw) = kB(v, w)
La forma si dice inoltre simmetrica se B(v, w) = B(w, v) e antisimmetrica ( o
alternante) se B(v, w) = −B(w, v).
Sia V uno spazio vettoriale su C .
Definizione 3.2 Un’applicazione H : V × V → C si dice sesquilineare se
1. H(v + w, z) = H(v, z) + H(w, z)
2. H(kv, w) = kH(v, w)
3. H(v, w + z) = H(v, w) + H(v, z)
4. H(v, kw) = k̄H(v, w)
La forma si dice inoltre hermitiana se H(v, w) = H(w, v) e antihermitiana se
H(v, w) = −H(w, v)
29
Le proprietà 1 e 2 segnalano che B (H) è lineare nella prima variabile, le
proprietà 3 e 4 segnalano che B è lineare (H antilineare) nella seconda variabile.
Proposizione 3.1 Ogni forma bilineare (sesquilineare) è somma di una forma
simmetrica e una antisimmetrica (hermitiana e antihermitiana).
Dim.
B(v, w) + B(w, v) B(v, w) − B(w, v)
+
2
2
Il primo addendo è una forma bilineare simmetrica, S(B), il secondo è una forma
bilineare antisimmtrica, A(B).
B(v, w) =
H(v, w) =
H(v, w) + H(w, v) H(v, w) − H(w, v)
+
2
2
Il primo addendo è una forma hermitiana il secondo è una forma antihermitiana.
A ogni forma bilineare B(v, w) si può associare una forma quadratica Q :
V → K, definnita da
Q(v) = B(v, v).
Per ogni forma quadratica vale
Q(kv) = k 2 Q(v)
Q(v + w) = Q(v) + Q(w) + B(v, w) + B(w, v).
Se la forma è simmetrica allora
B(v, w) =
Q(v + w) − Q(v) − Q(w)
.
2
(17)
Molte forme bilineare definiscono la stessa forma quadratica ma fra di loro ve
ne è una sola simmetrica; infatti B e S(B) generano la stessa forma quadratica,
il che garantisce che nell’insieme delle forme bilineari che generano la stessa
forma quadratica ve ne è una simmetrica, e d’altra parte per la (17) questa è
univocamente determinata da Q.
In modo analogo a quanto visto sopra, a una forma sesquilineare H(v, w) si
associa la forma H-quadratica QH : V → C, definita da
QH (v) = H(v, v).
Per ogni forma H-quadratica vale
2
QH (kv) = |k| QH (v)
QH (v + w) = QH (v) + QH (w) + H(v, w) + H(w, v),
30
da cui se la forma H è hermitiana si ha
H(v, w) = ReH(v, w) + iImH(v, w) =
QH (v + w) − QH (v) − QH (w)
QH (v + iw) − QH (v) − QH (w)
+i
.
2
2
Anche per le forme hermitiane, che vi è, quindi, corrispondenza biunivoca con
le forme H-quadratiche associate.
Infine osserviamo che la forma H-quadratica associata a una forma hermitiana è reale, nel senso che assume solo valori reali, infatti h(v, v) = h(v, v) ∈ R.
Analogamente la forma H-quadratica associata a una forma antihermitiana è
immagiinaria pura.
Esempio 3.1 Sia A ∈ Mnn (K) l’applicazione
B : Kn × Kn
(x, y)
→
K
7
→
xt Ay
è una forma bilineare in Kn . La forma B è simmetrica se e solo se A è simmetrica.
Definizione 3.3 Una matrice A ∈ Mnn (C) si dice hermitiana se A = Āt .
Esempio 3.2 Sia A ∈ Mnn (C), l’applicazione
H : C n × Cn
(x, y)
→
C
7→ xt Aȳ
è una forma sesquilineare in Cn . La forma H è hermitiana se e solo se A è
hermitiana.
3.2
Matrici associate a forme bilineari e sesquilineari
Sia B : V × V → K una forma bilineare e sia H : V × V → C una forma
sesquilineare; si intende che nel primo caso V è uno spazio vettoriale su K , nel
secondo uno spazio vettoriale su C . Sia V = {v1 , . . . , vn } una base di V .
Definiamo
MV (H) := (H(vi , vj ))1 ≤ i ≤ n .
MV (B) := (B(vi , vj ))1 ≤ i ≤ n
1 ≤ j ≤ n
1 ≤ j ≤ n
Siamo in grado, adesso,Pdi rappresentarePin coordinate la forma bilineare
n
n
(sesquilineare). Siano v = i=1 xi vi e w = j=1 yj vj ,


n
n
X
X
B(v, w) = B 
xi vi ,
yj vj  =
i=1
31
j=1
n
X
xi yj B(vi , vj ) =
i,j=1
n
X
xi yj MV (B)ij = xt MV (B)y.
i,j=1
t
dove x = (x1 , . . . , xn ) e y = (y1 , . . . , yn )t . Similmente


n
n
X
X
H(v, w) = H 
xi vi ,
yj vj  =
i=1
n
X
xi ȳj H(vi , vj ) =
i,j=1
n
X
j=1
xi ȳj MV (H)ij = xt MV (H)ȳ.
i,j=1
La matrice associata a una forma bilineare (sesquilineare) dipende dalla base.
Vediamo le relazioni che sussistono fra due matrici associate alla stessa forma
rispetto due basi diverse. Sia V 0 = {v10 , . . . ,P
vn0 } un’altra base P
di V . Nella nuova
n
n
base i vettori v, w si rappresentano v = i=1 x0i vi0 e w = j=1 yj0 vj0 . Dalle
formule di cambiamento di coordinate abbiamo
x = MVV 0 (id)x0
y = MVV 0 (id)y0
Da cui
B(v, w) = xt MV (B)y =
(MVV 0 (id)x0 )t MV (B)MVV 0 (id)y0 =
t
0
x0t MVV
0 (id)MV (B)MVV 0 (id)y
d’altra parte
B(v, w) = x0t MV 0 (B)y0
pertanto
t
0
x0t MV 0 (B)y0 = x0t MVV
0 (id)MV (B)MVV 0 (id)y
che, valendo per ogni x0 e y0 , implica
t
MV 0 (B) = MVV
0 (id)MV (B)MVV 0 (id).
Analogamente, nel caso sesquilineare, otteniamo
t
MV 0 (H) = MVV
0 (id)MV (H)MVV 0 (id).
Definizione 3.4 Due matrici A, B ∈ Mnn (K) si dicono congruenti se esiste
una matrice M ∈ GLn (K) tale che
A = M t BM.
Definizione 3.5 Due matrici A, B ∈ Mnn (C) si dicono H-congruenti se esiste
una matrice M ∈ GLn (C) tale che
A = M t B M̄ .
32
Le relazioni di congruenza e H-congruenza sono di equivalenza. Verifica per
esercizio.
Abbiamo dunque provato che
Proposizione 3.2 Le matrici associate alla stessa forma bilineare (sesquilineare) rispetto a due basi diverse sono congruenti (H-congruenti).
La definizione 3.5 è spesso presentata con la condizione A = M̄ t BM , che
è del tutto equivalente, perché se M soddisfa condizione della 3.5, allora M̄
soddisfa la variante su esposta.
Proposizione 3.3 Il rango della matrice associata a una forma bilineare (sesquilineare) non dipende dalla base scelta.
Dim. Moltiplicando una matrice per una matrice invertibile non si altera il
rango e del resto il rango non viene alterato dalle operazioni di trasposizione e
di coniugio di una matrice.
Proposizione 3.4 Il determinante di una matrice associata a una forma hermitiana è reale.
Dim. La matrice associata a una forma hermitiana è una matrice hermitiana,
cioè A = Āt . Da cui
det(A) = det(Āt ) = det(At ) = det(A).
Definizione 3.6 Se il rango di una forma bilineare (o sesquilineare) è minore
della dimesione di V allora la forma si dice degenere.
Proposizione 3.5 Una forma bilineare B è non degenere se e solo se
∀v 6= 0
∃w
B(v, w) 6= 0
∀w 6= 0
∃v
B(v, w) 6= 0
(18)
o
Stessa cosa per una forma sesquilineare.
Dim. La forma B in coordinate, rispetto a una base V, si rappresenta xt Ay,
dove x e y sono vettori colonna che rappresentano le coordinate di v e w ed
A = MV (B). B è non degenere se e solo se det(A) 6= 0.
• B non degenere ⇒ (18)
x 6= 0 implica rk(xt ) = 1 e poiché il prodotto per una matrice invertibile
non altera il rango rk(xt A) = 1; quindi (xt A) non è il vettore riga nullo
e avrà una sua componente diversa da zero. Sia per semplicità la prima
allora il vettore y che ha la prima componente uguale a 1 e tutte le altre
nulle è tale che xtAy 6= 0
33
• (18) ⇒ B non degenere
Se per ogni x 6= 0, esiste y tale che xt Ay 6= 0 allora, per ogni x 6= 0,
rk(xt A) = 1 ed trasponendo per ogni x 6= 0, rk(At x) = 1 . Il che significa
che il sistema At x = 0 ha solo la soluzione banale e questo è possibile se
e solo se det(A) 6= 0.
3.3
Forme bilineari simmetriche e forme hermitiane
Le definizione che seguono vengono enunciate per una forma bilineare simmetrica, ma valgono, sostituendo H a B, anche per una forma hermitiana.
La scelta di una forma bilineare simmetrica B (hermitiana H) permette di
introdurre la nozione di perpendicolarità nello spazio vettoriale V .
Definizione 3.7 Siano v, w ∈ V . v si dice ortogonale a w (si scrive v ⊥ w),
se B(v, w) = 0.
Definizione 3.8 Sia S ⊂ V un sottoinsieme. Si definisce
S ⊥ := {v ∈ V |B(v, w) = 0, ∀w ∈ S}.
Definizione 3.9 Siano U, W, ⊂ V sottospazi. Si dice che U è perpendicolare a
W ( U ⊥ W ) se U ⊂ W ⊥ .
É immediato verificare che U ⊥ W ⇔ W ⊥ U . Il vettore nullo è ortogonale
a ogni vettore dello spazio e se la forma è non degenere esso è l’unico vettore
ortogonale a tutti i vettori di V .
Definizione 3.10 Un vettore v ∈ V si dice isotropo se B(v, v) = 0.
Il vettore nullo è un vettore isotropo e se la forma è degenere ci sono molti vettori
isotropi, ma anche nel caso di forme bilineari non degeneri possono esistere
vettori isotropi. Per esempio, per
B : C×C
(x, y)
il vettore
1
i
è isotropo. Ed anche per
B : R×R
(x, y)
il vettore
1
0
→ C
7
→
xt y
→
R 0 1
7→ x
y
1 0
t
è isotropo.
34
Definizione 3.11 Sia v non isotropo. Si definisce il coeffiiciente di Fourier di
w rispetto v, lo scalare
B(w, v)
av (w) :=
B(v, v)
Si ha
B(v, w − av (w)v) = B(v, w) −
B(w, v)
B(v, v) = 0
B(v, v)
Da cui w − av (w)v ∈ v⊥ . Poiché w = av (w)v + (w − av (w)v), possiamo
concludere che, se v è un vettore non isotropo,
V = span{v} ⊕ v⊥ .
(19)
Definizione 3.12 Una base {v1 , . . . , vn } si dice ortogonale se B(vi , vj ) = 0
ogni qual volta i 6= j.
Ne segue che la matrice associata a una forma bilineare (hermitiana) rispetto
una base ortogonale è diagonale.
Prima di provare che esistono basi ortogonali, dimostriamo il seguente
Lemma Ogni forma bilineare B (hermitiana H) non nulla ha almeno un vettore
non isotropo.
Dim. Sia V = {v1 , . . . , vn } una base di V . E supponiamo che per ogni vi
si abbia B(vi , vi ) = 0. Siccome la forma non è identicamente nulla, la matrice
associata MV (B) 6= 0, e quindi esistono vi e vj tali che B(vi , vj ) 6= 0. Ne segue,
nel caso della forma bilineare simmetrica, che
B(vi + vj , vi + vj ) = B(vi , vi ) + B(vj , vj ) + 2B(vi , vj ) = 2B(vi , vj ) 6= 0
e vi + vj non isotropo. Nel caso della forma hermitiana, da H(vi , vj ) 6= 0 segue
che o ReH(vi , vj ) 6= 0 o ImH(vi , vj ) 6= 0. Se ReH(vi , vj ) 6= 0 allora
H(vi +vj , vi +vj ) = H(vi , vi )+H(vj , vj )+H(vi , vj )+H(vi , vj ) = 2ReH(vi , vj ) 6= 0.
Se ImH(vi , vj ) 6= 0 allora
H(vi + ivj , vi + ivj ) = H(vi , vi ) + H(vj , vj ) − iH(vi , vj ) + iH(vi , vj ) =
2ImH(vi , vj ) 6= 0.
In ogni caso esiste un vettore non isotropo.
Proposizione 3.6 Sia B (H) una forma bilineare simmetrica (hermitiana).
Esiste una base ortogonale.
Dim. La dimostrazione per induzione non presenta differenze fra il caso simmetrico da quello hermitiano.
35
Se B è la forma nulla allora ogni base è ortogonale. Se B non è identicamente nulla, procediamo per induzione sulla dimensione di V . Se dim V = 1 la
proposizione è banale.
Assumiamo l’esistenza di una base ortogonale per ogni spazio vettoriale V
di dimensione n − 1. Sia v1 un vettore non isotropo. Per la (19)
V = span{v1 } ⊕ v1⊥ .
ovviamente B|v1⊥ è ancora bilineare simmetrica. Sia {v2 , . . . , vn } una base ortogonale di v1⊥ ; essa esiste perché dim(v1⊥ ) = n − 1. È facile verificare che
{v1 , v2 , . . . , vn } è una base ortogonnale di V .
Il teorema precedente mostra che per una forma bilineare o hermitiana,
esiste sempre una base rispetto la quale la matrice associata è diagonale. Ci
domandiamo se non sia possibile migliorare ulteriormente il risultato.
Trattiamo prima il caso di una forma B bilineare simmetrica sul campo C.
Proposizione 3.7 Sia B una forma bilineare simmetrica su uno spazio vettoriale complesso V di rango r. Esiste una base V, tale che
Ir 0
MV (B) =
0 0
Dim. Per la proposizione (3.6) sia V 0 = {v10 , . . . , vn0 } una base tale che la
matrice associata MV (B) sia diagonale. Poiché il rango è r, salvo un cambiamento dell’ordine dei vettori della base, posso supporre che i primi r elementi
della diagonale a11 , . . . , arr siano non nulli, mentre tutti gli altri sono 0. Abbiamo dunque che
B(v10 , v10 ) = a11 , . . . , B(vr0 , vr0 ) = arr ,
0
0
B(vr+1
, vr+1
) = 0, . . . , B(vn0 , vn0 ) = 0,
B(vi0 , vj0 ) = 0
per i 6= j
Se poniamo
vi =
√1 v0
aii i
vi0
1≤i≤r
r+1≤i≤n
√
dove aii è una delle due radici quadrate di aii , abbiamo che V = {v1 , . . . , vn }
è una base, perché ottenuta da V 0 tramite una matrice invertibile, e che MV (B)
è diagonale con
B(v1 , v1 ) = 1, . . . , B(vr , vr ) = 1, B(vr+1 , vr+1 ) = 0, . . . , B(vn , vn ) = 0.
36
Poiché sappiamo che il rango è un invariante delle forme bilineari simmetriche e hermitiane, possiamo concludere che due matrici simmetriche complesse
sono congruenti ( e quindi rappresentano la stessa forma bilineare rispetto basi
diverse) se e solo se hanno lo stesso rango. Nel caso di una forma bilineare
simmetrica reale, non possiamo arrivare allo stesso risultato perché non sempre
esiste la radice quadrata di un numero reale. Abbiamo comunque l’importante
Proposizione 3.8 (Teorema di Sylvester)
Sia B una forma bilineare simmetrica su uno spazio vettoriale reale V di rango
r. Esistono numeri interi p, q, con p + q = r, e una base V, tale che


Ip
0
0
MV (B) =  0 −Iq 0 
0
0
0
Inoltre i numeri p, q, non dipendono dalla base, ma solo dalla forma.
Dim. Anche questa volta dalla proposizione (3.6), e salvo un riordinamento
dell’ordine dei vettori, sappiamo che esiste una base V 0 = {v10 , . . . , vn0 } tale che
la matrice associata MV (B) è diagonale, i suoi primi p termini, a11 , . . . , app ,
sono positivi, i secondi q termini, ap+1 p+1 , . . . , arr , sono negativi e i restanti
nulli. Abbiamo dunque che
B(v10 , v10 ) = a11 , . . . , B(vr0 , vr0 ) = arr ,
0
0
B(vr+1
, vr+1
) = 0, . . . , B(vn0 , vn0 ) = 0,
B(vi0 , vj0 ) = 0
per i 6= j.
Se poniamo
vi =



√1 v0
aii i
√ 1
v0
−aii i
0
vi
1≤i≤p
p+1≤i≤r
r+1≤i≤n
abbiamo che V = {v1 , . . . , vn } è una base, perché ottenuta da V 0 tramite una
matrice invertibile, e che MV (B) è diagonale con
B(v1 , v1 ) = 1, . . . , B(vp , vp ) = 1
B(vp+1 , vp+1 ) = −1, . . . , B(vr , vr ) = −1
B(vr+1 , vr+1 ) = 0, . . . , B(vn , vn ) = 0.
Resta da provare che p, q non dipendono dalla base. Sia pertanto V 00 = {v100 , . . . , vn00 }
un’altra base tale che
B(v100 , v100 ) = 1, . . . , B(vt00 , vt00 ) = 1
00
00
B(vt+1 , vt+1
) = −1, . . . , B(vr00 , vr00 ) = −1
00
00
B(vr+1
, vr+1
) = 0, . . . , B(vn00 , vn00 ) = 0
37
00
con p 6= t e supponiamo che t < p. Sia U = span{v1 , . . . vp } e W = span{vt+1
, . . . vn00 }.
Dal teorema di Grassmann abbiamo
dim U + dim W = dim(U ∩ W ) + dim(U + W )
p + (n − t) = dim(U ∩ W ) + dim(U + W ) ≤ dim(U ∩ W ) + n
1 ≤ p − t ≤ dim(U ∩ W ).
Per cui esiste un vettore non nullo v ∈ U ∩ W . Poiché v ∈ U ,
v = a1 v1 + . . . + ap vp ,
con a1 , . . . , ap non tutti nulli; e poiché v ∈ W ,
00
v = bt+1 vt+1
+ . . . + bn vn00 .
Dalla prima abbiamo
B(v, v) = a21 B(v1 , v1 ) + . . . + a2p B(vp , vp ) = a21 + . . . + a2p > 0
Mentre dalla seconda
B(v, v) = b2t+1 B(vt+1 , vt+1 ) + . . . + b2p B(vn , vn ) = −a21 − . . . − a2r ≤ 0.
questo è assurdo e l’assurdo nasce dall’aver supposto t ≤ p.
Nel caso hermitiano abbiamo un teorema perfettamente analogo al teorema
di Sylvester. Anche la dimostrazione è identica, perché gli elementi della diagonale di una matrice hermitiana sono tutti reali.
Definizione 3.13 Si dice segnatura della forma bilineare simmetrica B (o della
forma hermitiana H) la coppia (p, q), corrispondente al numero dei termini
positivi e negativi che si trovano sulla diagonale di una matrice associata a B
(H), rispetto una base ortogonale.
La segnatura è dunque un invariante della forma bilineare simmetrica (o
hermitiana) e classifica le matrici simmetriche reali (hermitiane) rispetto la relazione di congruenza (h-congruenza), nel senso che due matrici sono congruenti
(H-congruenti) se e solo se hanno la stessa segnatura.
Più spesso si parla di segnatura di una forma quadratica, riferendosi alla
segnatura della forma bilineare simmetrica associata.
Definizione 3.14 Una forma quadratica (hermitiana) di rango r su uno spazio
vettoriale V di dimensione n prende il seguente nome a seconda della segnatura
(n, 0)
definita positiva
(0, n)
definita negativa
(r, 0) con r < n
semidefinita positiva
(0, r) con r < n
semidefinita negativa
(p, q) con p > 0 e q > 0 indefinita
La ragione dei nomi delle forme quadratiche è dovuta al fatto che una forma
Q è definita positiva se e solo se Q(v) ≥ 0 e Q(v) = 0 ⇔ v = 0.
38
3.4
Prodotti scalari e prodotti hermitiani
Definizione 3.15 Una forma bilineare simmetrica con forma quadratica associata definita positiva su uno spazio vettoriale reale V si dice un prodotto scalare.
Definizione 3.16 Una forma hermitiana definita positiva su uno spazio vettoriale complesso V si dice un prodotto hermitano.
Supporremo nel seguito sempre definito un prodotto scalare o un prodotto hermitiano, che indicheremo, per ricordarci che è definito positivo, con
< v, w > .
Definizione 3.17 Si dice modulo (o norma) di un vettore v il numero
√
kvk := < v, v >
Proposizione 3.9 (Disuguaglianza di Schwartz)
| < v, w > | ≤ kvkkwk
e vale l’uguaglianza se e solo se v e w sono linearmente dipendenti.
Dim. Diamo la dimostrazione nel caso del prodotto hermitiano che presenta
qualche maggiore difficoltà. Se w = 0 il teorema è banale. Siano a, b ∈ K,
abbiamo
0 ≤ < av + bw, av + bw >= aākvk2 + bb̄kwk2 + 2Re(ab̄ < v, w >)
(20)
ponendo a = kwk2 e b = − < v, w > otteniamo
0 ≤ kwk4 kvk2 + | < v, w > |2 kwk2 + 2Re(−kwk2 | < v, w > |2 ) =
kwk4 kvk2 − | < v, w > |2 kwk2
da cui, dividendo per kwk2 e passando alla radice quadrata, otteniamo la disuguaglianza.
Infine se vale l’uguale ho che
0 =< kwk2 v− < v, w > w, kwk2 v− < v, w > w >
da cui, essendo il prodotto definito positivo, segue che kwk2 v− < v, w > w
è una combinazione lineare nulla non banale di v e w, quindi v e w sono
linearmente dipendenti. Viceversa, se v e w sono uno un multiplo dell’altro,
l’uguaglianza è di immediata verifica.
Dalla disuguaglianza di Schwartz, tanto nel caso reale quanto in quello hermitiano, seguono le seguenti proprietà
39
1. kvk ≥ 0,
kvk = 0 ⇐⇒ v = 0
2. kkvk = |k|kvk
3. kv + wk ≤ kvk + kwk
La dimostrazione delle prime due è banale, la terza nel caso hermitiano segue
da
kv + wk2 = kvk2 + 2Re < v, w > +kwk2 ≤
kvk2 + 2| < v, w > | + kwk2 ≤
kvk2 + 2kvkkwk + kwk2 =
(kvk + kwk)2 ,
e in maniera simile nel caso reale.
Uno spazio vettoriale dove vi sia una funzione norma, kvk, che soddisfi le tre
proprietà di cui sopra, si dice spazio normato. In uno spazio normato è possibile
definire una funzione distanza d, tramite
d(v, w) := kv − wk;
in effetti d soddisfa le proprietà
1. d(v, w) ≥ 0 e d(v, w) = 0 ⇐⇒ v = w
2. d(v, w) = d(w, v)
3. d(v, w) ≤ d(v, z) + d(z, w).
Pertanto, l’introduzione di un prodotto scalare o hermitiano in uno spazio
vettoriale arricchisce la sua struttura facendolo diventare anche uno spazio metrico.
3.5
Operatori ortogonali e unitari
Sia V uno spazio vettoriale di dimensione finita su C (su R) dove sia definita
un prodotto hermitiano (un prodotto scalare) .
Definizione 3.18 Un operatore T : V → V si dice unitario (ortogonale) se
< T (v), T (w) >=< v, w > .
Nelle proposizioni che seguono si faranno le dimostrazioni per il caso unitario,
ottenedosi le dimostrazioni del caso ortogonale in maniera del tutto simile, il
più delle volte , semplicemente omettendo il simbolo del coniugio.
Definizione 3.19 Una matrice A ∈ Mnn (C) si dice unitaria se At Ā = I ( o
equivalentemente AĀt = I)
Proposizione 3.10 Un operatore unitario (ortogonale) gode delle seguenti proprietà
40
1. conserva il modulo di un vettore
2. conserva la distanza di due vettori
3. trasforma basi ortonormali in basi ortonormali
4. è invertibile
5. la matrice associata all’operatore, rispetto a una base ortonormale, è ortogonale se l’operatore è ortogonale e unitaria se l’operatore è unitario.
Dim. Le proprietà 1), 2) e 3) sono immediata conseguenza della definizione. T
è invertibile perché è iniettivo, infatti T (v) = 0 implica
0 =< T (v), T (v) >=< v, v >
e questo implica v = 0. Infine proviamo l’ultima
Pn proprietà. Sia V = {v1 , . . . , vn }
una base ortonormale di V . Sia T (vi ) = k=1 aki vk , per cui la matrice associata a T , rispetto la base V, è
MV (T ) = (aki ) 1 ≤ k ≤ n .
1 ≤ i ≤ n
Abbiamo
δij =< vi , vj >=< T (vi ), T (vj ) >=
n
n
X
X
<
aki vk ,
ahj vh >=
k=1
n
X
k=1
aki
h=1
n
X
āhj < vk , vh >=
h=1
n
X
aki
k=1
n
X
n
X
āhj δkh =
h=1
aki ākj =
n
X
atik ākj
k=1
k=1
dove atik sono gli elementi della matrice trasposta (MV (T ))t ; pertanto
(MV (T ))t (MV (T )) = I,
cioè MV (T ) è una matrice unitaria.
Proposizione 3.11 Se λ è autovalore di un operatore unitario T (ortogonale),
allora |λ| = 1 (λ = ±1).
41
Dim. Sia v un autovettore relativo all’autovalore λ, abbiamo
< v, v >=< T (v), T (v) >=< λv, λv >= λλ̄ < v, v >,
da cui, essendo v 6= 0, segue la tesi.
Proposizione 3.12 Autovettori relativi a autovalori distinti di un operatore
unitario T (ortogonale) sono ortogonali fra loro
Dim. Siano v e w due autovettori relativi agli autovalori λ e µ, con λ 6= µ.
Abbiamo
< v, w >=< T (v), T (w) >=< λv, µw >= λµ̄ < v, w > .
Da cui, o λµ̄ = 1 o < v, w >= 0. Poiché, per la proposizione precedente,
µµ̄ = 1, non può essere anche λµ̄ = 1, altrimenti λ = µ. Dunque < v, w >= 0.
La seguente proposizione è vera per gli operatori unitari, ma non per gli
operatori ortogonali.
Proposizione 3.13 Sia T un operatore unitario. Esiste una base ortonormale
che diagonalizza T .
Dim. Dobbiamo determinare l’esistenza di una base ortonormale di autovettori.
La dimostrazione è per induzione sulla dimensione di V . Se dim V = 0 , il fatto
è banale. Supponiamo di averlo provato per gli spazi vettoriali di dimensione
n − 1 e apprestiamoci a dimostrarlo per gli spazi vettoriali di dimensione n.
Sia λ un autovalore di T ; esso esiste perché siamo sul campo C. Sia v1 un
autovettore unitario, relativo a λ.
Sia w ∈ v1⊥ , abbiamo
0 =< v1 , w >=< T (v1 ), T (w) >=< λv1 , T (w) >= λ < v1 , T (w) >= 0,
da cui, essendo λ 6= 0, segue che < v1 , T (w) >= 0. Dunque T (v1⊥ ) ⊆ v1⊥ .
Naturalmente
T|v1⊥ : v1⊥ → v1⊥
è ancora unitario e opera su uno spazio di dimensione n − 1: Per l’ipotesi
induttiva, esiste una base ortonormale di autovettori per T|v1⊥ , {v2 , . . . , vn }.
Risulta dunque che {v1 , v2 , . . . , vn } è una base ortonormale di autovettori di T .
42
3.6
Operatori simmetrici, teorema spettrale
Sia V uno spazio vettoriale di dimensione finita su R (su C) dove sia definito
un prodotto scalare (prodotto hermitiano) .
Definizione 3.20 Un operatore T : V → V si dice simmetrico (hermitiano) se
< T (v), w >=< v, T (w) >
Proposizione 3.14 La matrice associata a un operatore simmetrico (hermitiano), rispetto a una base ortogonale, è simmetrica (hermitiana).
Dim. Dimostrazione per un operatore
Pn hermitiano. Sia V = {v1 , . . . , vn } una
base ortonormale di V . Sia T (vi ) = k=1 aki vk , per cui la matrice associata a
T , rispetto la base V è
MV (T ) = (aki ) 1 ≤ k ≤ n .
1 ≤ i ≤ n
Abbiamo
< T (vi ), vj >=<
n
X
aki vk , vj >=
k=1
n
X
aki < vk , vj >=
k=1
n
X
aki δkj = aji ,
k=1
similmente
< vi , T (vj ) >=< vi ,
n
X
akj vk >=
k=1
n
X
ākj < vi , vk >=
k=1
n
X
ākj δik = āij .
k=1
Poiché < T (vi ), vj >=< vi , T (vj ) >, abbiamo che aji = āij , da cui MV (T ) =
MV (T )t . Per un operatore simmetrico stessa prova senza il coniugio.
Premettiamo il seguente lemma alla dimostrazione del teorema spettrale.
Lemma Lo spettro di un operatore simmetrico (hermitiano) è totalmente reale;
ovvero il polinomio caratteristico dell’operatore si decompone nel prodotto di n
fattori lineari reali.
Dim. Esprimiamo l’operatore in termini di coordinate rispetto una base ortonormale. Sia V = {v1 , . . . , vn } una base ortonormale di V e sia MV (T ) la matrice
associata. Sia λ un autovalore complesso di MV (T ) e x un corrispondente autovettore19 di Cn . Abbiamo
MV (T )x = λx,
(21)
e, coniugando ambo i membri,
MV (T )x̄ = λ̄x̄.
19 nel caso T sia un operatore simmetrico, x rappresenta le componenti rispetto la base V,
di unautovettore relativo a λ dell’operatore complessificato TC .
43
Utilizzando ora la condizione che, MV (T ) è reale simmetrica nel caso dell’operatore
simmetrico, ovvero che MV (T ) è hermitiana nel caso di un operatore hermitiano,
otteniamo in ogni caso
MV (T )t x̄ = λ̄x̄,
quindi, moltiplicando a sinistra per xt
xt MV (T )t x̄ = xt λ̄x̄,
da cui, utilizzando la (21)
λ̄kxk2 = λ̄xt x̄ = xt MV (T )t x̄ = (MV (T )x)t x̄ = (λx)t x̄ = λkxk2 .
Essendo x 6= 0, abbiamo λ = λ̄, cioè λ ∈ R. Pertanto ogni autovalore di MV (T )
complesso è reale e dunque il polinomio caratteristico di MV (T ), che è uguale
al polinomio caratteristico di T si decompone nel prodotto di fattori lineari.
Siamo ora in grado di dimostrare il teorema più importante di questo capitolo.
Proposizione 3.15 (Teorema spettrale — versione per gli operatori) Sia T un
operatore simmetrico (o hermitiano). Esiste una base ortonormale che diagonalizza T .
Dim. Dobbiamo determinare l’esistenza di una base ortonormale di autovettori.
La dimostrazione è per induzione sulla dimensione di V . Se dim V = 0 , il fatto
è banale. Supponiamo di averlo provato per gli spazi di dimensione n − 1 e
apprestiamoci a dimostrarlo per gli spazi di dimensione n. Sia λ un autovalore
di T ; esso esiste per il lemma. Sia v1 un suo autovettore unitario.
Sia w ∈ v1⊥ , abbiamo
< v1 , T (w) >=< T (v1 ), w >=< λv1 , w >= λ < v1 , w >= 0.
Pertanto T (v1⊥ ) ⊆ v1⊥ . Naturalmente T|v1⊥ : v1⊥ → v1⊥ è ancora simmetrico
(hermitiano) e opera su uno spazio di dimensione n − 1: Per l’ipotesi induttiva, esiste una base ortonormale di autovettori per T|v1⊥ , {v2 , . . . , vn }. Risulta
dunque che {v1 , v2 , . . . , vn } è una base ortonormale di autovettori di T .
Il teorema spettrale ammette anche diverse letture se lo si esprime in termini
di matrici o in termini di forme bilineari. La versione per le matrici si ottiene
considerando che ogni matrice simmetrica A (hermitiana) definisce un’operatore
simmetrico (hermitiano) T : Rn → Rn (T : Cn → Cn ), che mappa x in Ax.
Proposizione 3.16 (Teorema spettrale — versione per le matrici) Sia A una
matrice simmetrica ( hermitiana). Esiste una matrice M ortogonale (unitaria)
che diagonalizza A, cioè tale che M −1 AM è diagonale.
44
Se M è ortogonale e M −1 AM è diagonale, allora anche M t AM è diagonale,
quindi la matrice simmetrica A non solo è simile ma è anche congruente a
una matrice diagonale. Se M è hermitiana e M −1 AM è diagonale, abbiamo
che M̄ t AM è diagonale, e ponendo N = M̄ , abbiamo che N t AN̄ è diagonale;
quindi la matrice hermitiana A non solo è simile ma è anche H-congruente a
una matrice diagonale.
Come conseguenza della osservazione precedente otteniamo che se (p, q) è
la segnatura di una matrice simmetrica (hermitiana), allora p rappresenta il
numero degli autovalori positivi e q rappresenta il numero degli autovalori negativi, contati entrambi con la dovuta molteplicità. Dalla stessa osservazione
segue anche la versione del teorema spettrale per le forme bilineari.
Proposizione 3.17 (Teorema spettrale — versione per le forme bilineari) Sia
B una forma bilinerare simmetrica (H una forma hermitiana). Esiste una base
ortonormale che diagonalizza B (H).
4
Tensori
Al solito sia V una spazio vettoriale su R o C (indicati genericamente da K ).
In tutto il capitolo supponiamo che V ha dimensione n.
4.1
Spazio duale
Definizione 4.1 Un’applicazione lineare da σ : V → K si chiama funzionale
(lineare) o covettore.
La somma di due funzionali e il prodotto di un funzionale per una costante sono
definite da
(σ1 + σ2 )(v) := σ1 (v) + σ2 (v)
(kσ)(v) := k(σ(v))
Sono verifiche di routine controllare che la somma di due funzionali è un funzionale e che il prodotto di un funzionale per una costante è ancora un funzionale.
L’insieme di tutti i funzionali è uno spazio vettoriale rispetto le operazioni
di somma e prodotto per una costante, definite sopra (verifiche di routine).
Come ogni applicazione lineare, un funzionale resta univocamente definito
quando si assegnino i valori che assume sui vettori di una base.
Definizione 4.2 Lo spazio vettoriale dei funzionali lineari su V si chiama
spazio duale e si indica con V ∗ .
Proposizione 4.1 Se V ha dimensione finita allora dim V ∗ = dim V .
Dim. Sia {e1 , . . . , en } una base di V , sia η i per 1 ≤ i ≤ n il funzionale su V
definito da
η i (ej ) = δji .
dove δji è la funzione ”delta di Kronecker”, che vale 1 se i = j e vale 0 se i 6= j.
{η 1 , . . . , η n } è una base di V ∗ . Infatti
45
1. sono linearmente indipendenti, perché da
n
X
ai η i = 0
i=1
segue che, applicando il funzionale a un qualunque vettore ej della base
di V , da un lato
n
X
ai η i (ej ) = 0(ej ) = 0
i=1
e dall’altro
n
X
ai η i (ej ) =
i=1
n
X
ai δji = aj .
i=1
Da cui aj = 0 per ogni j.
2. generano tutto V ∗ , perché , per ogni funzionale σ ∈ V ∗ , si ha
σ=
n
X
(σ(ei ))η i ,
i=1
infatti per dimostrare l’uguaglianza dei due funzionali basta verificarla sui
vettori di una base; cosı̀ facendo abbiamo per ogni ej
n
X
(σ(ei ))η i (ej ) =
i=1
n
X
(σ(ei ))δji = σ(ej ).
i=1
Definizione 4.3 La base {η 1 , . . . , η n } di V ∗ si dice base duale della base {e1 , . . . , en }
di V .
Avendo V e V ∗ la stessa dimensione sono spazi vettoriali isomorfi, ma non vi è
un modo canonico di associare un funzionale a un vettore 20 .
Notiamo invece che è possibile definire un isomorfismo canonico fra V e lo
spazio biduale (V ∗ )∗ . Definiamo
Φ : V → (V ∗ )∗
v 7→ Φ(v)
dove
Φ(v) : V ∗ → K
σ 7→ σ(v).
20 a
meno che non si aumenti la struttura di V , introducendo un prodotto scalare, ma
discuteremo di considerazioni di questo tipo
46
Lasciamo al lettore la verifica che Φ(v) è effettivamente un funzionale lineare su
V ∗ e che la Φ cosı̀ definita è lineare; dimostriamo invece che Φ è iniettiva. Se
Φ(v] = 0, allora per ogni σ ∈ V ∗ , Φ(v)(σ) = 0; cioè, per ogni σ ∈ V ∗ , σ(v) = 0
e questo è possibile solo se v = 0. Concludiamo che Φ è un isomorfismo perché
V e (V ∗ )∗ hanno la stessa dimensione.
Se identifichiamo v con Φ(v), osserviamo che ogni vettore si comporta come
un funzionale sullo spazio dei funzionali, e proprio per questo motivo i funzionali
si chiamano (nel caso della dimensione finita) anche covettori. Possiamo concludere che i covettori sono funzionali sullo spazio dei vettori, ma anche i vettori
si comportano come funzionali sullo spazio dei covettori.
4.2
Convenzione di Einstein
La convnzione di Einstein è una convenzione che semplifica la notazione. Essa
prevede che:
1. i vettori di una base dello spazio vettoriale V , {e1 , . . . , en } si indiciano
con indici in basso
2. i vettori della base duale {η 1 , . . . , η n } si indiciano con indici in alto
3. le coordinate di un vettore si indiciano con indici in alto
4. le coordinate di un covettore si indiciano con indici in basso
5. si ometta il simbolo di sommatoria, se questa si riferisce a un indice che
si trova una volta un basso e una volta in alto
6. ogni qualvolta si incontri uno stesso indice in alto e in basso in una formula
si intende che si deve effettuare una somma al variare di quell’indice fra 1
e la dimensione di V
7. si dispongono gli indici in alto o in basso in modo di evitare se possibile
di dover fare una sommatoria, rispetto a un indice ripetuto due volte in
basso (o in alto); se questa situazione dovesse essere inevitabile si mostra
il simbolo di sommatoria
8. usualmente in una formula che contiene un’uguaglianza un indice non
ripetuto in basso (in alto) a sinistra dell’uguale deve comparire non ripetuto
in basso (in alto) anche a destra dell’uguale
Per quanto dietro questa notazione non ci siano fatti particolarmente rilevanti da un punto di vista scientifico21 , noi ne faremo uso nelle pagine che
seguono.
Pertanto la decomposizione di un vettore v rispetto alla base E = {e1 , . . . , en }
si scriverà
v = xj ej
(22)
21 alcuni
fisici matematici non sono d’accordo con questa opinione
47
piuttosto che
v=
n
X
xj ej
o v=
j=1
n
X
xj ej
j=1
Se E 0 = {e01 , . . . , e0n } è un’altra base avremo
v = x0i e0i
(23)
e le relazioni che danno il cambiamento di base nella forma
e0i = αij ej
o ej = βji e0i
(24)
mentre quelle che danno il cambiamento di coordinate (che si ricavano sostituendo le (24) nelle (22) e (23)) sono
xj = αij x0i
o x0i = βji xj .
(25)
Per ricollegare queste formule al nostro modo di rappresentare le matrici
cambiamento di base osserviamo che
ME 0 E (id) = βji 1 ≤ i ≤ n
1 ≤ j ≤ n
e
MEE 0 (id) = αij
1 ≤ j ≤ n
1 ≤ i ≤ n
infine il fatto che le due matrici sono una l’inversa dell’altra si rappresenta
αji βkj = δki
αji βik = δjk .
4.3
Definizione di tensore
La nozione di tensore può essere introdotta in modi diversi. Possiamo qui fare un
parallelo con la nozione di vettore (di cui comunque il tensore rappresenta una
generalizzazione). Il vettore può essere introdotto come terna (n-pla) di numeri,
come segmento orientato, come elemento di una spazio vettoriale. Similmente un
tensore può essere introdotto come un pacchetto di numeri variamente indiciati,
come un’applicazione multilineare, o come un elemento del prodotto tensoriale
di spazi vettorali.
Utilizzeremo qui l’approccio che descrivere il tensore come un’applicazione
multilineare.
Definizione 4.4 Siano V1 , . . . , Vr spazi vettoriali su K. Un’applicazione F :
V1 × . . . × Vr → K si dice multilineare se è lineare in ciascuna delle variabili.
Formalmente per ogni indice i, per ogni a, b ∈ K e per ogni v, w ∈ Vi
F (v1 , . . . , vi−1 , av + bw, vi+1 , . . . , vr ) =
aF (v1 , . . . , vi−1 , v, vi+1 , . . . , vr ) + bF (v1 , . . . , vi−1 , w, vi+1 , . . . , vr )
48
Definizione 4.5 Si dice tensore sullo spazio vettoriale V di ordine covariante
r e ordine controvariante s (o di tipo (r, s)) un’applicazione multilineare
T : V ×, . . . , ×V × V ∗ ×, . . . , ×V ∗ → K
|
{z
} |
{z
}
r
s
Esempio 4.1 Ogni covettore σ ∈ V ∗ è un tensore covariante di ordine 1, essendo un funzionale lineare su V .
Esempio 4.2 Avendo indentificato V con il suo biduale (V ∗ )∗ , anche ogni vettore v ∈ V è un tensore controvariante di ordine 1, essendo un funzionale su
V ∗.
Esempio 4.3 Ogni forma bilineare su V è un tensore covariante di ordine 2
Esempio 4.4 Il determinante, inteso come funzione delle colonne di una matrice n × n è un tensore covariante di ordine n sullo spazio vettoriale Rn .
La somma di due tensori di tipo (r, s) e il prodotto di un tensore per uno
scalare sono definiti in modo analogo a quanto fatto per i covettori
Definizione 4.6 Siano T, R tensori di tipo (r, s) e k scalare. Definiamo
(T +R)(v1 , . . . , vr , σ1 , . . . , σs ) := T (v1 , . . . , vr , σ1 , . . . , σs )+R(v1 , . . . , vr , σ1 , . . . , σs )
(kT )(v1 , . . . , vr , σ1 , . . . , σs ) := kT (v1 , . . . , vr , σ1 , . . . , σs )
L’insieme dei tensori di tipo (r, s) forma uno spazio vettoriale che indichiamo
con Tsr (V ).
4.4
Il prodotto tensoriale
Definiamo un prodotto fra tensori, che a un tensore T di tipo (r, s) e uno T 0 di
tipo (r0 , s0 ), associa un tensore T ⊗ T 0 di tipo (r + r0 , s + s0 ).
Definizione 4.7
T ⊗ T 0 : V ×, . . . , ×V × V ∗ ×, . . . , ×V ∗ → K
{z
} |
{z
}
|
r+r 0
s+s0
T ⊗ T 0 (v1 , . . . , vr , vr+1 , . . . , vr+r0 , σ1 , . . . , σs , σs+1 , . . . , σs+s0 ) :=
T (v1 , . . . , vr , σ1 , . . . , σs )T 0 (vr+1 , . . . , vr+r0 , σs+1 , . . . , σs+s0 )
Sono verifiche di routine controllare che T +T 0 è un tensore, cioè un’applicazione
multilineare.
Il prodotto tensoriale gode delle proprietà
(T + T 0 ) ⊗ T 00 = T ⊗ T ” + T 0 ⊗ T ”
49
T ⊗ (T 0 + T 00 ) = T ⊗ T 0 + T ⊗ T ”
k(T ⊗ T 0 ) = (kT ) ⊗ T 0 = T ⊗ (kT ”)
pertanto
0
r+r
⊗ : Tsr × Tsr0 → Ts+s
0
0
è bilineare.
Il prodotto tensoriale è anche associativo, cioè
(T ⊗ T 0 ) ⊗ T ” = T ⊗ (T 0 ⊗ T ”)
e pertanto possiamo omettere le parentesi e, per iterazione, definire il prodotto
tensoriale di più tensori; in tal caso ⊗ si comporta come un’applicazione multilineare.
Sia {e1 , . . . , en } una base di V , e {η 1 , . . . , η n } la base duale di V ∗ .
Calcoliamo il tensore η i1 ⊗ η i2 ⊗ . . . ⊗ η ir su una qualunque r-pla di vettori
della base di V, ej1 , ej2 , . . . , ejr . Abbiamo
η i1 ⊗ η i2 ⊗ . . . ⊗ η ir (ej1 , ej2 , . . . , ejr ) = δji11 δji22 . . . δjirr ,
che vale sempre 0, eccetto il caso in cui gli indici i1 , . . . , ir sono rispettivamente
uguali a j1 , . . . , jr , nel qual caso assume il valore 1.
Proposizione 4.2 L’insieme dei tensori {η i1 ⊗. . .⊗η ir }, al variare di i1 , . . . , ir
fra 1 e n forma una base dello spazio dei vettori covarianti di ordine r, T0r .
Dim. La dimostrazione della lineare indipendenza si fa testando la generica combinazione lineare dei tensori del nostro insieme sulla generica r-pla dei
vettori della base di V :
ai1 ,...,ir {η i1 ⊗ . . . ⊗ η ir } = 0
implica che per ogni r-pla (ej1 , . . . , ejr )
ai1 ,...,ir {η i1 ⊗ . . . ⊗ η ir }(ej1 , . . . , ejr ) = 0(ej1 , . . . , ejr ) = 0,
ma d’altra parte
ai1 ,...,ir {η i1 ⊗ . . . ⊗ η ir }(ej1 , . . . , ejr ) = ai1 ,...,ir δji11 . . . δjirr = aj1 ,...,jr ,
quindi per ogni r-pla (j1 , . . . , jr ), aj1 ,...,jr = 0.
Il fatto che {η i1 ⊗ . . . ⊗ η ir }, al variare di i1 , . . . , ir , generino tutto T0r segue
dal fatto che se T è un tensore covariante di ordine r, vale la seguente
T = T (ei1 , . . . , eir )η i1 ⊗ . . . ⊗ η ir ,
(26)
la quale pure si dimostra testandola sulla generica r-pla dei vettori della base
di V .
Dettagli omessi
50
In modo det tutto analogo, ricordando che i vettori della base di V , si comportano come funzionali sui vettori della base di V ∗ , si perviene a dimostrare
che
Proposizione 4.3 L’insieme dei tensori {ej1 ⊗. . .⊗ejs }, al variare di j1 , . . . , js
fra 1 e n forma una base dello spazio dei vettori controvarianti di ordine s, Ts0 .
e più in generale
Proposizione 4.4 L’insieme dei tensori {η i1 ⊗ . . . ⊗ η ir ⊗ ei1 ⊗ . . . ⊗ eis }, al
variare di i1 , . . . , ir e j1 , . . . , js fra 1 e n forma una base dello spazio dei vettori
con ordine di coovarianza r e e ordine di controvarianza s, Tsr .
Ne segue che
dim Tsr = nr+s .
4.5
Gli operatori come tensori di tipo (1, 1)
Denotiamo con End(V ) lo spazio vettoriale degli operatori su V . Esso ha dimensione n2 . Definiamo
Φ:
dove
End(V ) → T11 (V )
F
7→ Φ(F )
Φ(F ) : V × V ∗
(v, σ)
→
K
7
→
σ(F (v))
La bilinearità di Φ(F ) è conseguenza banale della linearità di F e di σ, il che ci
assicura che Φ(F ) è un tensore.
Proposizione 4.5 Φ è un isomorfismo canonico di spazi vettoriali
Dim. La linearità di Φ è conseguenza diretta delle definizioni.
Φ è iniettiva, infatti se Φ(F ) = 0, allora per ogni v ∈ V e per ogni σ ∈ V ∗ ,
σ(F (v)) = 0. Dal fatto che per ogni σ ∈ V , σ(F (v)) = 0, segue che F (v) = 0,
e poiché questo vale per ogni v ∈ V , allora F è l’operatore nullo.
Infine, avendo End(V ) e T11 (V ) la stessa dimensione, si conclude che Φ è
un isomorfismo, che si dice canonico, perché la sua definizione non dipende da
scelte arbitrarie, quali potrebbe essere la scelta di una base.
In matematica, quando vi è un isomorfismo canonico, si è soliti identificare
i due spazi vettoriali. Ne segue che ogni operatore lineare T : V → V viene
interpretato come un tensore con ordine di covarianza 1 e controvarianza 1 e
viceversa un tensore può essere interpretato come operatore lineare.
51
4.6
Tensori e cambiamenti di base
Siano {e1 , . . . , en }, {e01 , . . . , e0n } due basi di V e {η 1 , . . . , η n }, {η 01 , . . . , η 0n } le
rispettive basi duali.
Abbiamo già scritto le relazioni relative ai cambiamenti di base (24)
e0i = αij ej
ej = βji e0i
(27)
con
αij βjk = δik .
(28)
Consideriamo il covettore βji η j e applichiamolo al vettore e0k . Applicando le
(27) e (28) e la definizione di base duale, per cui η j (eh ) = δhj , abbiamo
βji η j (e0k ) = βji η j (αkh eh ) = αkh βji η j (eh ) = αkh βji δhj = αkh βhi = δki .
Si noti che nella formula precedente, talvolta, abbiamo dovuto cambiare il nome
degli indici al fine di evitare ripetizioni indesiderate. Poiché, d’altra parte,
η 0i (e0k ) = δki ne segue che η 0i e βji η j assumono gli stessi valori sui vettori di una
base di V , pertanto
η 0i = βji η j .
(29)
La (29) rappresenta la formula di cambiamento di base per la base duale.
Si osservi che la matrice che permette di passare dalla base {η 1 , . . . , η n } alla
base {η 01 , . . . , η 0n } è l’inversa22 di quella che occorre per passare dalla base
{e1 , . . . , en } alla base {e01 , . . . , e0n }.
Dalla (29) seguono poi le relazioni per il cabiamento di base nell’ordine
inverso
η j = αij η 0i .
(30)
Si calcolano, poi, le relazioni per i cambiamenti di coordinate; se un covettore è
rappresentato in due basi diverse da σ = si η i = s0j η 0j abbiamo
si = βij s0j
s0j = αji si
(31)
I covettori si dicono covarianti, perché le loro coordinate variano, al cambiare
della base di V , e conseguentemente al cambiare della base duale, con la matrice
di cambiamento di base di V ; mentre i vettori si dicono controvarianti, perché
le loro coordinate variano, al cambiare di base, con la matrice inversa rispetto
a quella del cambiamento di base, come mostrato in (25).
Un tensore T covariante di ordine r si scrive come combinazione lineare dei
vettori della base {η j1 ⊗ . . . ⊗ η jr } di T0r
T = tj1 ...jr η j1 ⊗ . . . ⊗ η jr
(32)
22 esattamente l’inversa se si conviene di rappresentare la base duale come un vettore colonna,
e leggere la (29) come un prodotto fra matrici (che è la scelta preferibile), e la trasposta
dell’inversa se si conviene di rappresentare la base duale come un vettore riga.
52
e come combinazione de vettori della base {η 0i1 ⊗ . . . ⊗ η 0ir }
T = t0i1 ...ir η 0i1 ⊗ . . . ⊗ η 0ir
(33)
Sostituendo la (29) nella (33) abbiamo
T = t0i1 ...ir (βji11 η j1 ) ⊗ . . . ⊗ (βjirr )η jr = t0i1 ...ir βji11 . . . βjirr η j1 ⊗ . . . ⊗ η jr
(34)
e confrontando questa con la (32) otteniamo che le coordinate dei tensori covarianti di ordine r variano al cambiare della base di V (e conseguentemete al
cambiare della base di V ∗ e di T0r ) in un verso secondo la formula
tj1 ...jr = βji11 . . . βjirr t0i1 ...ir
(35)
e nell’altro secondo la formula
t0i1 ...ir = αij11 . . . αijrr tj1 ...jr
(36)
In modo analogo un tensore controvariante T di ordine s si scrive come
combinazione lineare dei vettori delle basi {ej1 ⊗ . . . ⊗ ejs } e {e0i1 ⊗ . . . ⊗ e0is }
di Ts0
T = tj1 ...js ej1 ⊗ . . . ⊗ ejs = t0i1 ...is e0i1 ⊗ . . . ⊗ e0is
da cui le formule di cambiamento di coordinate
tj1 ...js = αij11 . . . αijss t0i1 ...is
t0i1 ...is = βji11 . . . βjiss tj1 ...js
(37)
Infine un tensore T r-volte covariante e s-volte controvariante si rappresenta
rispetto la base {η j1 ⊗ . . . ⊗ η jr ⊗ ek1 ⊗ . . . ⊗ eks } di Tsr
...ks j1
η ⊗ . . . ⊗ η jr ⊗ ek1 ⊗ . . . ⊗ eks
T = tkj11...j
r
e rispetto la base {η 0i1 ⊗ . . . ⊗ η 0ir ⊗ e0h1 ⊗ . . . ⊗ e0hs } di Tsr
1 ...hs 0i1
T = t0h
⊗ . . . ⊗ η 0ir ⊗ e0h1 ⊗ . . . ⊗ e0hs
i1 ...ir η
da cui le formule di cambiamento di coordinate
...ks
1 ...is
= αik11 . . . αikss βjh11 . . . βjhrr t0i
tkj11...j
h1 ...hr
r
(38)
jr k1 ...ks
i1
is j1
1 ...is
t0i
h1 ...hr = βk1 . . . βks αh1 . . . αhr tj1 ...jr
(39)
Si osservi come nelle coordinate (o componenti) di un tensore gli indici di
covarianza siano quelli in basso e gli indici di controvarianza siano quelli in alto.
53
4.7
Collegamenti con il calcolo differenziale
In molte applicazioni le matrici che legano due tensori sono rappresentate dalla
matrice jacobiana e dalla sua inversa. Vediamo il perché.
La prima e immediata osservazione è che se
y = Ax
è un’applicazione lineare da Rn in sé , allora A coincide con la matrice jacobiana
di questa trasformazione,
i
∂y
A=
∂xj 1 ≤ i ≤ n
1 ≤ j ≤ n
Possiamo applicare lo stesso concetto alla matrice cambiamento di coordinate
(25), per cui, posto che v si scriva v = xi ei nella base {e1 , . . . , en } e v = x0j e0j
nella base {e01 , . . . , e0n }, abbiamo
x0j =
∂x0j i
x
∂xi
xi =
∂xi 0j
x
∂x0j
(40)
Pertanto le matrici di cambiamento di coordinate utilizzate in tutte le formule sui tensori si rappresentano
i
∂x
i
αj 1 ≤ i ≤ n =
1 ≤ j ≤ n
∂x0j 1 ≤ i ≤ n
1 ≤ j ≤ n
βji
1 ≤ i ≤ n
1 ≤ j ≤ n
=
0i
∂x
∂xj
1 ≤ i ≤ n
1 ≤ j ≤ n
Le (40) hanno il vantaggio, rispetto alle (25), di evitare ogni possibile confusione fra la matrice cambiamento di coordinate e la sua inversa. Cosı̀ la formula
generale di cambiamento di base per i tensori si scrive senza possibilità di equivoci
...ks
=
tkj11...j
r
∂xk1
∂xks ∂x0h1
∂x0hr 0i1 ...is
.
.
.
.
.
.
t
∂x0i1
∂x0is ∂xj1
∂xjr h1 ...hr
(41)
∂x0is ∂xj1
∂xjr k1 ...ks
∂x0i1
.
.
.
.
.
.
t
(42)
∂xk1
∂xks ∂x0h1
∂x0hr j1 ...jr
Ma vi è una ragione più profonda nel rappresentare con la jacobiana la
matrice cambiamento di coordinate.
Ad ogni vettore v = ai ei dello spazio dei vettori applicati in un punto
∂
x0 ∈ Rn , si può associare l’operatore differenziale ai ∂x
, che ad ogni applicazione
i
f ∈ C ∞ (U ), dove U è un intorno di x0 , associa la derivata direzionale23 (nella
1 ...is
t0i
h1 ...hr =
23 dovremmo
scrivere
∂
,
∂xi |x0
ma in tutti gli operatori differenziali che seguiranno eviteremo
di mettere il simbolo di |x0 che significa calcolato in x0 perché non avremo ragione di cambiare
il punto di applicazione dei vettori.
54
direzione di v) di f in x0 :
n
X
i=1
ai
∂f
∂xi
Fatta questa identificazione fra operatori e vettori applicati, i vettori della
∂
∂
base di V , {e1 , . . . , en }, sono rappresentati dagli operatori differenziali { ∂x
1 , . . . , ∂xn }.
La formula di cambiamento di base è data ora da
∂
∂xj ∂
=
0i
∂x
∂x0i ∂xj
Anche i covettori hanno un’interessante lettura in termini di calcolo differenziale.
Il differenziale di una funzione f ∈ C ∞ (U ), nel punto x0 ∈ Rn , si indica
con df ed, applicato nel punto x0 è il funzionale lineare che a ogni vettore v
applicato in x0 ∈ Rn associa la derivata direzionale di f rispetto a v in x0 . Cioè
∂
se v = aei = ai ∂x
i
∂
∂f
(df )(v) = df (ai i ) = ai i
∂x
∂x
I differenziali delle funzioni coordinate, dxi , . . . , dxn , risultano essere i vettori
della base duale perché
∂xi
∂
= δji .
dxi ( j ) =
∂x
∂xj
Le formula di cambiamento di base per la base duale risulta coincidere con
la formula di differenziazione di funzione composta.
dx0j =
4.8
∂x0j i
dx .
∂xi
Una definizione alternativa di tensore
Le formule di cambiamento di coordinate per i tensori (41), (42) sono spesso
utilizzate per definire i tensori. In questo approccio la definizione di tensore è
seguente24
Definizione 4.8 Si dice tensore (o campo tensoriale) di tipo (r,s) un oggetto
...ks
definito da un insieme di numeri tkj11...j
in un sistema di coordinate arbitrarie
r
(x1 , . . . , xn ), la cui espressione numerica dipende dal sistema di coordinate secondo la seguente relazione: se è xk = xk (x01 , . . . , x0n ), x0j = x0j (x1 , . . . , xn ),
con x0 (x(x0 )) = x0 , vale la formula di trasformazione
∂xks ∂x0h1
∂x0hr 0i1 ...is
∂xk1
.
.
.
.
.
.
t
∂x0i1
∂x0is ∂xj1
∂xjr h1 ...hr
k1 ...ks
0
1 ...is
in cui t0i
h1 ...hr è l’espressione numerica del tensore nelle coordinate (x ) e tj1 ...jr
l’espressione numerica del tensore nelle coordinate (x); tutti gli indici variano
da 1 a n , essendo n la dimensione dello spazio considerato.
...ks
tkj11...j
=
r
24 la definizione esposta è tratta da Novikov, Dubronik, Fomenko,Geometria contemporanea
1, con qualche adattamento alle notazioni da noi usate.
55
4.8.1
La definizione di tensore data in funzione delle coordinate varia, nel suo significato, in funzione dei sistemi di coordinate ammessi. Se ad esempio siamo in
uno spazio euclideo, (spazio vettoriale di dimensione finita dotato di prodotto
scalare), è logico assumere solo riferimenti ortonormali. In questo caso le matrici
cambiamento di coordinate sono ortogonali e pertanto 25
∂x0j
∂xi
=
(43)
∂x0j
∂xi
Non vi è dunque modo di distinguere un vettore da un covettore basandosi sul
comportamento delle sue componenti al variare della base fra un insieme di basi
ortonormali. È per questo motivo che, talvolta, nell’algebra tensoriale in spazi
euclidei non si fa differenza fra vettori e covettori, fra ordine di covarianza e
ordine di controvarianza.
Chiariamo questi concetti con un esempio. Supponete che abbiate descritto
un fenomeno fisico per mezzo di tre numeri (t(1), t(2), t(3)) che dipendono dal
sistema di coordinate usato nello spazio, dove di proposito ho messo gli indici in
linea. Questa terna rappresenta un vettore, un covettore o altro? Metto l’indice
in alto o in basso? Si ha la risposta guardando come cambiano questi numeri
al cambiare del riferimento. Se, in un altro riferimento, con la stessa origine, il
fenomeno è descritto da (t0 (1), t0 (2)0 , t0 (3)) e avete
t(i) =
3
X
∂xi 0
t (j)
∂x0j
j=1
(44)
e questo vale qualunque sia il secondo riferimento scelto, allora stabilite che
si tratta di un vettore controvariante e scrivete gli indici in alto. Se, invece, in un altro riferimento, con la stessa origine, il fenomeno è descritto da
(t0 (1), t0 (2)0 , t0 (3)) e avete
3
X
∂x0j 0
t(i) =
t (j)
(45)
∂xi
j=1
e questo vale qualunque sia il secondo riferimento scelto, allora stabilite che si
tratta di un vettore covariante (o covettore) e scrivete gli indici in basso. Se,
infine, esiste un riferimento, per cui non vale (44) e un riferimento per cui non
vale (45) allora stabilite che si tratta di altro.
Ma è probabile che gli unici sistemi di riferimento rispetto ai quali possiate
(o siate interessati) a descrivere il fenomeno, siano sistemi ortogonali, in tal caso,
per la (43), non vi è differenza fra la (44) e la (45). In questo caso parlerete solo
di vettore (ovvero tensore del primo ordine) senza distinguere tra covarianza e
controvarianza.
25 si noti come nella formula l’indice in alto a sinistra è uguale all’indice in basso a destra e
l’indice in basso a sinistra è uguale all’indice in alto a destra!
56
4.8.2
Notiamo come la definizione di tensore data tramite le coordinate si presta a
essere estesa anche a cambiamenti di coordinate non lineari, infatti ogni trasformazione C ∞ biunivoca ha matrice jacobiana con determinante diverso da 0. La
cosa assume particolare importanza quando si voglia fare del calcolo tensoriale
su superficie curve (e più in gnererale su varietà).
Un approccio indipendente dalle coordinate per definire tensori su oggetti
geometrici diversi da Rn , comporta, in primo luogo la necessità di definire lo
spazio dei vettori tangenti in modo intrinseco, cioè senza ricorrere a una immersione dell’oggetto in uno spazio euclideo. Questo è compito della geometria
differenziale.
4.8.3
∂f
1
Osserviamo come la definizione di differenziale di una funzione df = ∂x
1 dx +
∂f
n
. . . + ∂xn dx e la definizione di gradiente di una funzione, che comunemente si
∂f
∂f
trova sui testi di analisi, ∇f = ∂x
corrispondano allo stesso tensore
1 , . . . , ∂xn
letto nei due diversi approcci. Del differenziale abbiamo già detto; il gradiente,
invece, è una n-pla di numeri che varia al cambiare delle coordinate secondo la
regola
∂f ∂x0j
∂f
=
i
∂x
∂x0j ∂xi
e che è dunque un covettore ai sensi dell’ultima definizione.
Nel differenziale abbiamo l’espressione della decomposizione del covettore
nella base duale, mentre nel gradiente si rappresentano solo le componenti.
Se si vuole che il gradiente risulti un vettore controvariante, bisogna utilizzare
l’isomorfismo canonico che il prodotto scalare permette di definire fra V e V ∗ .
Indichiamo i titoli di quelli che potrebbero essere i successivi argomenti di
algebra tensoriale
4.9
L’isomorfismo canonico indotto dal prodotto scalare
fra V e V ∗
4.10
La contrazione degli indici
4.11
Il prodotto esterno
4.12
Pullback di forme
57