1 Numeri e spazi vettoriali complessi

1
Numeri e spazi vettoriali complessi
1.1
Breve introduzione storica
Si è soliti introdurre i numeri complessi, partendo dal problema della risoluzione
dell’equazione
x2 = −1;
(1)
ma questo non è il motivo storico della nascita dei numeri complessi. In effetti
la risoluzione dell’equazione (1) non poteva essere considerato un problema matematico aperto, nel senso che, fin dalla nascita dei numeri reali negativi, era
ovvio che l’equazione (1) non aveva soluzioni.
La questione che ha dato l’avvio allo studio dei numeri complessi è invece collegata al problema della risoluzione dell’equazione di terzo grado. Cardano e Tartaglia avevano scoperto una formula per determinare una soluzione
dell’equazione
x3 + px + q = 0,
alla quale si può ricondurre ogni equazione di terzo grado mediante un cambiamento lineare di variabile. La formula di Cardano è la seguente
s
s
r
r
3 −q
3 −q
p3
p3
q2
q2
+
+
+
−
+ .
(2)
x=
2
4
27
2
4
27
2
3
La formula non può essere utilizzata quando il discriminante, q4 + p27 , è
minore di 0, eppure ogni equazione di terzo grado ha almeno una radice reale.
Ecco il problema matematico aperto: risolvere l’equazione cubica nel casus irriducibilis, cioè quando il discriminante è minore di 0.
Bombelli esaminò l’equazione
x3 − 15x − 4 = 0
(3)
che appartiene al casus irriducibilis e ha la radice 4. Dalla formula di Cardano
si otterrebbe
q
q
√
√
3
3
x = 2 + −121 + 2 − −121.
Bombelli dimostrò, che, attribuendo un significato matematico alla radice quadrata di −1 (la chiama più di meno), se si pone
q
√
√
3
2 + −121 = a + b −1
allora
q
3
2−
√
√
−121 = a − b −1;
per cui applicando la formula di Cardano si ottiene
√
√
x = (a + b −1) + (a − b −1) = 2a.
1
Bombelli
non conosceva un algoritmo per l’estrazione della radice cubica di
√
2 + −121, ma verificò che,√estendendo le usuali regole del calcolo algebrico a
espressioni che contenevano −1,
√
√
√
(2 + −1)3 = 2 + 11 −1 = 2 + −121,
per cui a = 2, b = 1 e x = 4.
Dunque l’introduzione dell’ entità più di meno rendeva compatibile la radice
4 dell’equazione (3) con la formula di Cardano (2). Non si poteva ancora affermare di aver risolto il casus irriducibilis, perché non √
era noto un algoritmo
per determinare la radice cubica dell’espressione a + b −1,
√ ma la utilità di
considerare, nella trattazione di problemi algebrici, l’entità −1, chiamata successivamente unità immaginaria, era pienamente dimostrata.
Soltanto due secoli più tardi,
grazie a Gauss, verrà attribuita la natura di
√
numero all’espressione a + b −1, detta numero complesso.
Per quanto in senso storico la nascita dei numeri complessi sia da ricondurre
a problemi algebrici, in queste note i numeri complessi verranno introdotti seguendo una problematica geometrica.
1.2
Le coordinate polari
Nel piano fissiamo un punto O, una semiretta r uscente da O e un verso per la
misura degli angoli orientati che hanno r come primo lato.
A ogni punto P del piano diverso da O possiamo associare due numeri: il
primo ρ rappresenta la distanza di P da O, il secondo θ la misura in radianti
dell’angolo orientato che la semiretta uscente da O e passante per P forma con
r. La coppia (ρ, θ) dà una rappresentazione del punto P in coordinate polari.
Una precisazione è necessaria sulla misura dell’angolo orientato. Senza entrare in sottili disquisizioni su cosa sia la misura di un angolo, segnaliamo che
le coppie (ρ, θ) e (ρ, θ1 ) corrispondono allo stesso punto se θ − θ1 = 2kπ, con
k ∈ Z.
Diversi approcci si trovano in letteratura, per trattare le difficoltà provenienti
dalla mancanza di corrispondenza biunivoca fra i punti del piano e l’insieme delle
coppie di numeri reali (ρ, θ). Segnalo i due principali. Il primo, quello della
geometria differenziale, prevede che vi siano infiniti sistemi di coordinate locali
di tipo polare e quindi che un punto possa essere rappresentato da infinite coppie
di numeri. Il secondo di tipo più algebrico, prevede che la misura dell’angolo
orientato sia un insieme infinito di valori, per cui le coordinate polari di un
punto sono una coppia di cui il primo elemento è un numero reale positivo e il
secondo un insieme di numeri reali che differiscono fra loro per multipli interi
di 2π. Seguendo questo secondo approccio scriveremo
p
P ≡ (ρ, Θ).
dove
Θ = {θ + 2kπ}k∈Z .
2
ρ si chiama il modulo1 di P ; Θ si chiama l’argomento2 di P .
Quando scriviamo Θ1 + Θ2 , intendiamo l’insieme ottenuto sommando ogni
numero del primo insieme con ogni numero del secondo e cioè l’insieme3
Θ1 + Θ2 := {θ1 + θ2 + 2kπ}k∈Z .
Quando applichiamo a Θ una funzione trigronometrica si intende che la applichiamo a uno qualunque dei suoi valori, senza pericolo di confusione, perché
ogni funzione trigonometrica ha 2π come periodo.
Osserviamo infine che non vengono assegnate le coordinate polari del punto
O.
Per determinare le relazioni che esistono fra coordinate polari e coordinate
cartesiane, mettiamo sul piano un sistema di riferimento cartesiano ortogonale,
dove l’origine coincide con O, l’asse positivo delle ascisse x coincide con la
semiretta r e l’asse positivo delle ordinate y, ortogonale all’asse delle ascisse
in O, sia scelto, fra i due possibili, in modo tale che l’angolo orientato xy
ˆ misuri
{ π2 + 2kπ}k∈Z .
Se P ha coordinate cartesiane
P ≡ (x, y)
e coordinate polari
p
P ≡ (ρ, Θ).
allora, da un verso
e dall’altro4
x = ρ cos(Θ)
y = ρ sin(Θ)
(4)

p

ρ
=
x2 + y 2


cos(Θ) = √ 2x 2
x +y


 sin(Θ) = √ y .
x2 +y 2
1.3
Definizione dei numeri complessi
L’introduzione delle coordinate cartesiane nel piano permette di definire una
corrispondenza biunivoca fra i punti del piano e R2 e questa corrispondenza
permette di trasportare sul piano l’operazione di somma propria dello spazio
vettoriale R2 . Per cui, se P1 ≡ (x1 , y1 ) e P2 ≡ (x2 , y2 ), poniamo5
P1 + P2 :≡ (x1 + x2 , y1 + y2 )
1 nella
terminologia antica raggio vettore.
terminologia antica anomalia
3 in questo modo si garantisce che la misura dell’angolo che si ottiene dalla giustapposizione
del secondo spigolo di un angolo orientato con il primo spigolo di un secondo angolo orientato
è uguale alla somma delle misure dei due angoli orientati.
4 evitiamo di dare un’espressione espilicita per Θ, perché bisognerebbe prima convenire sulle
definizioni delle funzioni arcoseno e arcocoseno.
5 la somma dei punti nel piano con origine fissata, può essere introdotta in modo puramente
2 nella
→
→
geometrico, con la regola del parallelogramma applicata ai vettori geometrici OP1 e OP2 .
3
Quale operazione suggeriscono le coordinate polari fra i punti del piano privato dell’origine? I moduli, essendo numeri reali positivi, hanno una struttura
naturale di gruppo se considero la moltiplicazione; mentre, per quanto riguarda
gli argomenti, ho una struttura di gruppo se considero la somma.
Combiniamo le due operazioni precedenti, il prodotto dei moduli e la somma
degli argomenti, in una nuova operazione per i punti del piano privato dell’origine,
p
p
che denotiamo provvisoriamente con ∗: posto che sia P1 ≡ (ρ1 , Θ1 ) e P2 ≡
(ρ2 , Θ2 ), definiamo
p
P1 ∗ P2 :≡ (ρ1 ρ2 , Θ1 + Θ2 ).
Questa stessa operazione, in coordinate cartesiane assume l’espressione
q
q
P1 ∗ P2 ≡( x21 + y12 x22 + y22 (cos Θ1 cos Θ2 − sin Θ1 sin Θ2 ),
q
q
x21 + y12 x22 + y22 (cos Θ1 sin Θ2 + cos Θ2 sin Θ1 ) =
(x1 x2 − y1 y2 , x1 y2 + x2 y1 )
Trasferiamo le operazioni cosı̀ introdotte in R2 ,
(x1 , y1 ) + (x2 , y2 ) := (x1 + x2 , y1 + y2 )
(x1 , y1 ) ∗ (x2 , y2 ) := (x1 x2 − y1 y2 , x1 y2 + x2 y1 ).
Si prova che (R2 , +, ∗) è campo, cioè
• è un gruppo commutativo rispetto la somma (+) con elemento neutro
(0, 0)
• gli elementi diversi da (0, 0) formano un gruppo rispetto al prodotto (∗),
con elemento neutro (1, 0)
• vale la proprietà distributiva
((x1 , y1 ) + (x2 , y2 )) ∗ (x3 , y3 ) = (x1 , y1 ) ∗ (x3 , y3 ) + (x2 , y2 ) ∗ (x3 , y3 )
Le verifiche delle proprietà sono tutte elementari; segnaliamo solo la prova
dell’esistenza dell’inversa rispetto al prodotto6 :
sia (a, b) 6= (0, 0), dobbiamo cercare (x, y) tale che
(a, b) ∗ (x, y) = (1, 0)
cioè
ax − by
bx + ay
=
=
1
0
poichè il sistema ha una e una sola soluzione, essendo a2 + b2 6= 0, l’inverso di
(a, b) esiste.
6 che
peraltro è ovvia se si pensa al prodotto in termini di coordinate polari
4
Chiameremo (R2 , +, ∗) il campo dei numeri complessi e verrà semplicemente
indicato con C; come d’uso, eviteremo di scrivere il simbolo dell’operazione
prodotto, e converremo anche che in un’espressione algebrica, in mancanza di
parentesi, l’operazione prodotto abbia priorità sull’operazione di somma.
La funzione
f: R →
C
x 7→ (x, 0)
è iniettiva e tale che
f (x + y) = f (x) + f (y)
f (xy) = f (x)f (y)
pertanto, se identifichiamo x ∈ R con (x, 0) ∈ C, possiamo considerare il campo
C come un’estensione del campo R.
C eredita da R2 anche la struttura di spazio vettoriale su R , quindi ho due
operazioni di prodotto di un numero complesso per un numero reale, quella che
c’è in ogni spazio vettoriale di moltiplicazione di un vettore per uno scalare,
e quella che deriva dal considerare ogni numero reale un particolare numero
complesso. Per fortuna le due operazioni coincidono, per cui non vi è ambiguità
nel prodotto di un numero reale per un numero complesso. La base standard di C
come spazio vettoriale su R è formata dai numeri7 (1, 0) e (0, 1), il numero (1,0)
possiamo chiamarlo 1, corrispondendo al numero reale 1 e all’unità del prodotto;
chiamiamo unità immaginaria il numero (0, 1) e indichiamola sinteticamente con
”i”.
Formando 1 e i una base di C come R-spazio vettoriale, possiamo rappresentare il numero (x, y) ∈ C nel seguente modo
(x, y) = x1 + yi = x + iy.
Abbiamo che i2 = −1; pertanto i è soluzione dell’equazione x2 = −1, ma
anche −i è soluzione, quindi la scrittura
√
i = −1,
che si trova in molto libri, è fonte di confusione, essendo equivoco il significato
√
del simbolo .
Indicheremo il generico numero complesso con la lettera z e volendo mettere
in luce la decomposizione di cui sopra scriveremo
z = x + iy.
(5)
x si chiama la parte reale di z (si indica Re(z)) e y la parte immaginaria (si
indica Im(z)). La scrittura data dalla (5) è particolarmente comoda perché il
prodotto fra due numeri complessi può essere eseguito con le usuali regole del
calcolo algebrico, sostituendo −1 ogni volta che troviamo i2 .
7 gli
elementi di C vengono chiamati numeri e non vettori
5
1.4
Alcune funzioni elementari su C
La seguente funzione si chiama coniugio ed è particolarmente importante
C
z = x + iy
→
C
7
→
z̄ := x − iy
La sua importanza deriva dal fatto che il coniugio è un isomorfismo di campi,
cioè è biunivoca e gode delle seguenti proprietà
z1 + z2 = z̄1 + z̄2
z1 z2 = z̄1 z̄2
La parte reale e la parte immaginaria di un numero complesso possono essere
definite tramite il coniugio da
C
z
→ R⊂C
z+z̄
7→
2
Im : C
z
→ R⊂C
z−z̄
7→
2i
Re :
Per il coniugio valgono le seguenti proprietà di facile verifica
• z̄¯ = z
• z + z̄ = 2Re(z)
• z − z̄ = 2iRe(z)
• z −1 = (z̄)−1 , per z 6= 0
• z̄ = z ⇔ z ∈ R
• z̄ = −z ⇔ z ∈ iR, in tal caso diremo che z è un immaginario puro.
Definiamo la funzione modulo di un numero complesso z = z+iy nel seguente
modo
p
|z| = x2 + y 2 ,
p
√
risulta |z| = Re(z)2 + Im(z)2 = z z̄. Trattandosi di numeri
√ reali positivi o
nulli, non c’è equivoco col simbolo di radice, intendendosi con x il numero reale
non negativo il cui quadrato è x. Inoltre se z è un numero reale il suo modulo
coincide col valore assoluto, per cui non c’è confusione nel simbolo usato.
Per la funzione modulo valgono le seguenti proprietà
• |z| ≥ 0 e |z| = 0 ⇔ z = 0
• |z̄| = |z|
• |Re(z)| ≤ |z|, |Im(z)| ≤ |z|, |z| ≤ |Im(z)| + |Re(z)|
6
• |z1 z2 | = |z1 ||z2 |
• |z −1 | = |z|−1 , per z 6= 0
• |z1 + z2 | ≤ |z1 | + |z2 |
• |z1 + z2 | ≥ ||z1 | − |z2 ||.
Segnaliamo la dimostrazione delle ultime due relazioni, essendo le altre immediate:
|z1 + z2 |2 = (z1 + z2 )(z1 + z2 ) = |z1 |2 + z1 z̄2 + z̄1 z2 + |z2 |2 =
|z1 |2 + z1 z̄2 + z1 z̄2 + |z2 |2 =
|z1 |2 + 2Re(z1 z̄2 ) + |z2 |2 ≤
|z1 |2 + 2|z1 z̄2 | + |z2 |2 =
|z1 |2 + 2|z1 ||z̄2 | + |z2 |2 =
|z1 |2 + 2|z1 ||z2 | + |z2 |2 =
(|z1 | + |z2 |)2 ,
similmente (passaggi abbreviati)
|z1 − z2 |2 = |z1 |2 − 2Re(z1 z̄2 ) + |z2 |2 ≥
|z1 |2 − 2|(z1 z̄2 )| + |z2 |2 =
(|z1 | − |z2 |)2 .
1.5
La rappresentazione trigoniometrica di un numero complesso
Scriviamo un numero complesso z = x + iy diverso da 0 nella forma
z = |z|(
Poiché
Re(z)
|z|
2
+
Im(z)
|z|
2
Re(z)
Im(z)
+i
).
|z|
|z|
= 1, possiamo anche scrivere
z = |z|(cos Θ + i sin Θ).
(6)
dove Θ = {θ + 2kπ}k∈Z rappresenta la misura8 dell’angolo orientato che la
semiretta uscente da 0 e passante per 1 forma con la semiretta uscente da 0
e passante per z; esso è tale che cos Θ = Re(z)
e sin Θ = Im(z)
|z|
|z| . Θ si dice
l’argomento di z. La funzione argomento è definita per tutti numeri complessi
diversi da 0 ed è un esempio di funzione a più valori.
8 è doveroso segnalare che la definizione di misura di un angolo, specie se orientato, è questione assai delicata e autorevoli matematici ritengono che questa non possa essere data in
mamiera corretta se non in un corso di analisi complessa o in un corso di teoria della misura;
purtroppo ragioni didattiche impongono anticipare le definizioni delle funzioni trigonometriche, ed anche la rappresentazione trigonometrica di un numero complesso.
7
Siano
z1 = ρ1 (cos θ1 + i sin θ1 )
z2 = ρ2 (cos θ2 + i sin θ2 ),
due numeri complessi, con θ1 , θ2 ∈ R e ρ1 , ρ2 ∈ R+ ; se z1 = z2 , allora, essendo
| cos θ + i sin θ| = 1, abbiamo
ρ1 = |ρ1 || cos θ1 + i sin θ1 | = |ρ1 (cos θ1 + i sin θ1 )| = z1 =
z2 = |ρ2 (cos θ2 + i sin θ2 )| = |ρ2 || cos θ2 + i sin θ2 | = ρ2 ,
quindi cos θ1 = cos θ2 e sin θ1 = sin θ2 . Poiché l’implicazione nell’altro verso è
ovvia, possiamo concludere che
ρ1 = ρ2
z1 = z2 ⇐⇒
(7)
∃k ∈ Z : θ1 = θ2 + 2kπ
Pertanto, se rapprensentiamo la misura di un angolo orientato con un insieme di
numeri reali Θ = {θ + 2kπ}k∈Z , un numero complesso non nullo è univocamente
determinato dalla sua rappresentazione (6). Per ogni θ ∈ Θ
z = |z|(cos θ + i sin θ)
si chiama una rappresentazione trigonometrica di z. Tornando alla (6) Θ si
chiama l’argomento di z e ogni θ ∈ Θ si chiama una determinazione dell’argomento
di z.
Siano
z1 = |z1 |(cos Θ1 + i sin Θ1 )
z2 = |z2 |(cos Θ2 + i sin Θ2 ),
si ha
z1 z2 = |z1 ||z2 |(cos(Θ1 + Θ2 ) + i sin(Θ1 + Θ2 )),
(8)
che è ovvia se si considera la ”genesi” che abbiamo presentato del prodotto di
numeri complessi, e che comunque si prova facilmente usando le formule del
coseno e del seno dell’angolo somma.
Come caso particolare dalla (8) otteniamo la formula di De Moivre
z n = |z|n (cos(nΘ) + i sin(nΘ)).
(9)
OSSERVAZIONE. Nella formula di De Moivre col simoblo nΘ intendiamo
Θ + . . . + Θ, n volte, e qunindi
nΘ = {nθ + 2kπ}k∈Z
e non nΘ = {nθ + 2knπ}k∈Z .
La formula di De Moivre permette di risolvere in C l’equazione
zn = w
8
(10)
Per w 6= 0, sia
w = |w|(cos Φ + i sin Φ),
con Φ = {φ + 2kπ}k∈Z , e sia
z = |z|(cos Θ + i sin Θ),
con Θ = {θ + 2kπ}k∈Z una soluzione di (10). Abbiamo |w| = |z|n , Φ = nΘ.
1
Da cui segue subito che |z| = |w| n , ma non possiamo scrivere Θ = Φ
n , per
l’osservazione precedente. In effetti da (10) segue
1
|z| = |w| n
∀φ ∈ Φ, ∀θ ∈ Θ, ∃k ∈ Z : φ = nθ + 2kπ
ovvero
1
|z| = |w| n
∀φ ∈ Φ, ∀θ ∈ Θ, ∃k ∈ Z : θ =
φ
n
+
2kπ
n
Pertanto ∀k ∈ Z , in numeri
1
φ 2kπ
φ 2kπ
|w| n cos
+
+ i sin
+
n
n
n
n
sono soluzioni della (10) ma non ho infinite soluzione diverse, potendo i numeri
φ
2kπ
n + n rappresentare diverse determinazioni dello stesso angolo. Sia φ ∈ Φ,
poniamo
θ0
= nφ
θ1
= nφ + 2π
n
θ2
= nφ + 2 2π
n
..
..
.
.
θn−1
=
φ
n
+ (n − 1) 2π
n
a cui corrispondono gli angoli le cui misure sono
Θ0
Θ1
Θ2
..
.
= { nφ + 2kπ}k∈Z
= { nφ + 2π
n + 2kπ}k∈Z
= { nφ + 2 2π
n + 2kπ}k∈Z
..
.
Θn−1
= { nφ + (n − 1) 2π
n + 2kπ}k∈Z ;
φ
il numero nφ + n 2π
n = n + 2π appartiene a Θ0 e non da luogo a una diversa
soluzione dell’equazione (10). Pertanto, se w =
6 0, l’equazione (10) ha n distinte
soluzioni ed esse sono date da 9
9 nella
formula che segue al posto di Θ0 , Θ1 . . . potremmo scrivere anche θ0 , θ1 . . .
9
1
z0
z1
z2
..
.
= |w| n (cos(Θ0 ) + i sin(Θ0 ))
1
= |w| n (cos(Θ1 ) + i sin(Θ1 ))
1
= |w| n (cos(Θ2 ) + i sin(Θ2 ))
..
.
zn−1
= |w| n (cos(Θn−1 ) + i sin(Θn−1 ))
1
Infine, se w = 0, la (10) ha la sola soluzione nulla.
Esempio Per trovare le soluzioni dell’equazione z 3 = 2, dobbiamo rappresentare in modo trigonometrico il numero complesso 2:
2 = 2(cos(0) + i sin(0))
pertanto le tre radici cubiche di 2 sono
z0
z1
z2
1
1
= 23
= 2 3 (cos(0) + i sin(0))
√
1
1
2π
2π
3
= 2 (cos( 3 ) + i sin( 3 )) = 2 3 (− 21 + i √23 )
1
1
3
1
4π
3
= 2 3 (cos( 4π
3 ) + i sin( 3 )) = 2 (− 2 − i 2 )
Esempio Per trovare le soluzioni dell’equazione z 4 = −4, dobbiamo rappresentare in modo trigonometrico il numero complesso -4:
−4 = 4(cos(π) + i sin(π))
pertanto le quattro radici quarte di -4 sono
z0
=
z1
=
z2
=
z3
=
1
1
2 2 (cos( π4 ) + i sin( π4 ))
1
2
2 (cos( π4
1
2 2 (cos( π4
1
2 2 (cos( π4
+
+
+
1
1
= 2 2 ( 222 + i 222 )
π
2)
+ i sin( π4 + π2 ))
π) + i sin( π4 + π))
3π
π
3π
2 ) + i sin( 4 + 2 ))
=
=
=
1
1
2
=1+i
1
2 (− 222 + i 222
1
1
1
2 2 (− 222 − i 222
1
1
1
2 2 ( 222 − i 222 )
)
= −1 + i
)
= −1 − i
=1−i
Esempio Per trovare le soluzioni dell’equazione z 2 = −i, dobbiamo rappresentare in modo trigonometrico il numero complesso i:
−i = (cos(
3π
3π
) + i sin( ))
2
2
pertanto le due radici quadrate di -i sono
z0
z1
=
=
1
√
1
3π
(cos( 3π
4 ) + i sin( 4 ))
= (− 222 + i 222 )
=
3π
(cos( 3π
4 + π) + i sin( 4 + π))
=(
−i
=
1
22
2
1
22
2
)
2
(−1 + i)
√2
2
2 (1 − i)
La formula di De Moivre (9) ci ha permesso di trovare le soluzioni di alcune
semplici equazioni polinomiali, ma non esiste una formula che utilizzi solo le
quattro operazioni e le estrazioni di radici, tipo quella di Cardano (2) che dia
le soluzioni della generica equazione polinomiale, quando il grado è maggiore
10
di 4. Ciononostante, il seguente teorema, cosı̀ importante da essere chiamato
teorema fondamentale dell’algebra, assicura che almeno una soluzione esiste.
Teorema (fondamentale dell’algebra)
Ogni polinomio in una variabile, a coefficienti complessi, non costante, ha
almeno una radice10 in C .
Le dimostrazioni puramente algebriche di questa teorema sono molto complesse;
altre più abbordabili fanno uso di strumenti di analisi matematica.
Un polinomio in una variabile si dice monico se il coefficiente del termine di
grado massimo è 1. Se un polinomio p(z) ha una radice z0 , allora è divisibile
per (z − z0 ) e, ripetendo la divisione n volte, otteniamo il seguente
Corollario Ogni polinomio, in C, non costante, di grado n, si fattorizza nel
prodotto di una costante e di n fattori di primo grado monici.
Ogni polinomio a coefficienti reali è anche un polinomio a coefficienti complessi, e come tale ammette radici complesse.
Proposizione 1.1 Sia p(x) un polinomio a coefficienti reali. Se w è una radice
di p(x) anche w̄ lo è.
Dim. Sia p(x) = an xn + an−1 xn−1 + . . . + a1 x + a0 . Se w è radice abbiamo
an wn + an−1 wn−1 + . . . + a1 w + a0 = 0,
coniugando ambo i membri, abbiamo
an wn + an−1 wn−1 + . . . + a1 w + a0 = 0̄ = 0,
da cui, considerate le proprietà della funzione coniugio e tenendo presente che i
coefficienti sono reali,
an w̄n + an−1 w̄n−1 + . . . + a1 w̄ + a0 = 0,
cioè p(w̄) = 0.
Corollario Ogni polinomio a coefficienti reali di grado dispari ha almeno
una radice reale.
1.6
Spazi vettoriali reali e spazi vettoriali complessi
Abbiamo già osservato che C è uno spazio vettoriale sul campo R di dimensione
2, essendo {1, i} una base. C è anche uno spazio vettoriale sul campo C, e in
questo caso la sua dimensione è 1, essendo ogni numero complesso non nullo
una sua base.
Uno spazio vettoriale V su C è anche uno spazio vettoriale su R , in quanto,
essendo definito il prodotto di un vettore per un numero complesso, è definito
anche il prodotto di un vettore per un numero reale poiché questo è un particolare numero complesso. Indichiamo con VR l’insieme V munito della sola
struttura di spazio vettoriale reale.
10 cioè un numero complesso dove il polinomio vale 0, per questo la radice di un polinomio
si dice anche uno zero del polinomio
11
Proposizione 1.2 Sia V uno spazio vettoriale su C. Se dim(V ) = n, allora
dim(VR ) = 2n.
Dim. Sia V = {v1 , . . . , vn } una base su C di V . Allora VR = {v1 , . . . , vn , iv1 , . . . , ivn }
è una base di V su R. Infatti, essendo V una base su C, abbiamo che ogni vettore
w si scrive
w = z1 v1 + . . . + zn vn = (x1 + iy1 )v1 + . . . (xn + iyn )vn =
x1 v1 + . . . + xn vn + y1 iv1 + . . . + yn ivn .
e quindi VR è un sistema di generatori su R di V . D’altra parte, se
a1 v1 + . . . + an vn + b1 iv1 + . . . + bn ivn = 0
è una combinazione lineare nulla degli elementi di VR , allora
(a1 + ib1 )v1 + . . . + (an + ibn )vn = 0,
è una combinazione lineare a coefficienti complessi nulla dei vettori della base
V; pertanto
(a1 + ib1 ) = . . . = (an + ibn ) = 0
da cui a1 = . . . = an = b1 = . . . = bn = 0.
Sia ora V uno spazio vettoriale reale di dimensione n, possiamo dare a V ×
V una struttura di spazio vettoriale complesso11 . Questo spazio si chiama il
complessificato di V e lo indichiamo con VC . Le operazioni di somma e prodotto
per uno scalare in VC sono definnite da
(v1 , v2 ) + (w1 , w2 ) := (v1 + w1 , v2 + w2 )
(x + iy)(v1 , v2 ) := (xv1 − yv2 , yv1 + xv2 )
Le verifiche delle proprietà sono di routine. Per quanto già visto all’inizio del
paragrafo, VC ha anche una struttura di spazio vettoriale reale, che coincide
con quella di V × V . Possiamo definire un’applicazione iniettiva da V in VC ,
che è lineare come applicazione fra spazi vettoriali reali (verifiche banali), nel
seguente modo
J : V −→
VC
v 7−→ (v, 0)
Abbiamo
(v1 , v2 ) = (v1 , 0) + i(v2 , 0),
per cui, se identifichiamo v con (v, 0), (operazione legittimata dal fatto che J è
lineare e iniettiva) possiamo scrivere
(v1 , v2 ) = v1 + iv2 .
11 V
× V ha in maniera naturale una struttura di spazio vettoriale reale di dimensione 2n.
12
Proposizione 1.3 Se dim(V ) = n, allora dim VC = n.
Dim. Basta provare che, sotto l’identificazione J, una base di V è anche
una base di VC . Sia dunque V = {v1 , . . . , vn } una base di V ; sia (v, w) ∈ C;
abbiamo
v = a1 v1 + . . . + an vn
w = b1 v1 + . . . + bn vn
da cui
(v, w) = v + iw = a1 v1 + . . . + an vn + i(b1 v1 + . . . + bn vn ) =
(a1 + ib1 )v1 + . . . + (an + ibn )vn ,
pertanto V = {v1 , . . . , vn } è un sistema di generatori di VC .
Sia ora
(a1 + ib1 )v1 + . . . + (an + ibn )vn = 0
una combinazione lineare nulla dei vettori di V, abbiamo
(a1 v1 + . . . + an vn , b1 v1 + . . . + bn vn ) =
a1 v1 + . . . + an vn + i(b1 v1 + . . . + bn vn ) =
(a1 + ib1 )v1 + . . . + (an + ibn )vn = 0 = (0, 0)
da cui
a1 v1 + . . . + an vn = b1 v1 + . . . + bn vn = 0
e, essendo {v1 , . . . , vn } linearmente indipendenti in V , concludiamo che
a1 = . . . = an = b1 = . . . = bn = 0
e che {v1 , . . . , vn } sono linearmente indipendenti in VC .
1.7
Applicazioni lineari e matrici
1.7.1
Sia F : V → W un’applicazione C-lineare fra spazi vettoriali complessi di dimensione n e m. Siano V = {v1 , . . . , vn }, W = {w1 , . . . , wm }, basi di V e
W rispettivamente. Come è noto a F possiamo associare una matrice m × n,
MW,V (F ), sinteticamente definita dalla relazione
F (V) = WMW,V (F ).
MW,V (F ) = (αij ) è una matrice a elementi complessi. Essa può essere scritta
come A + iB, dove gli elementi di A = (aij ) e B = (bij ) sono, rispettivamente, le
parti reali e le parti immaginarie degli elementi di MW,V (F ), cioè αij = aij +ibij .
13
Nel paragrafo precedente abbiamo visto che V e W , sono anche spazi vettoriali reali di dimensione 2n e 2m; per distinguerli li abbiamo chiamati VR e WR .
F è anche un’applicazione R-lineare da VR a WR .
Siano VR e WR le basi di VR e WR precedentemente definite. Vogliamo
calcolare MWR ,VR (F ).
Le colonne di MWR ,VR (F ), sono rappresentate dalle componenti dei vettori
F (v1 ), . . . , F (vn ), F (iv1 ), . . . , iF (vn ), rispetto a WR = {w1 , . . . , wm , iw1 , . . . , iwm }.
Abbiamo
F (vj ) =
m
X
αij wi =
i=1
m
X
aij wi + i
i=1
m
X
bij wi =
i=1
m
X
aij wi +
i=1
m
X
bij iwi
i=1
e
F (ivj ) = iF (vj ) = i
m
X
i=1
αij wi =
m
X
iaij wi −
i=1
m
X
bij wi =
i=1
m
X
i=1
aij iwi −
m
X
bij wi ,
i=1
da cui la matrice cercata, è rappresentata a blocchi da
A −B
MWR ,VR (F ) =
.
B A
1.7.2
Sia ora F : V → W un’applicazione lineare fra spazi vettoriali reali di dimensione n e m e siano V = {v1 , . . . , vn }, W = {w1 , . . . , wm }, basi di V e W ,
rispettivamente. Possiamo estendere F a un’applicazione FC : VC → WC , per
linearità, utilizzando il fatto che le basi V e W di di V e W sono anche basi di
VC e WC , e dunque la FC è definita sui vettori di una base di V . FC si chiama
la complessificata dell’applicazione F . Essendo FC (vj ) = F (vj ), abbiamo che
MW,V (FC ) = MW,V (F ).
Osservazione Capiterà, qualche volta, di considerare le radici complesse ( e
non reali) del polinomio caratteristico di un operatore T su uno spazio vettoriale
reale; questi numeri sono autovalori dell’operatore complessificato TC ; i rispettivi
autovettori saranno combinazioni lineari a coefficienti complessi dei vettori della
base di V e come tali elementi di VC .
14
2
Complementi di teoria degli operatori
Richiamiamo le proprietà sulla diagonalizzazione degli operatori. Sia V uno
spazio vettoriale12 su K di dimensione finita, V = {v1 , . . . , vn } una base di V e
T : V → V un operatore lineare. Indichiamo con MVV (T ), la matrice associata
a T rispetto alla base V. Ricordo che le sue colonne rappresentano, nell’ordine,
le componenti dei trasformati dei vettori della base V rispetto alla stessa base
V. Tale proprietà può essere scritta, in notazione matriciale
T (V) = VMVV (T ).


x1


Se v = x1 v1 + . . . + xn vn = Vx, con x =  ...  abbiamo
xn
T (v) = T (Vx) = T (V)x = VMVV (T )x,
da cui se poniamo T (v) =: Vy, ne segue che
y = MVV (T )x
che possiamo considerare la rappresentazione in coordinate dell’operatore T .
L’operatore T si dice diagonalizzabile se esiste una base W per cui MWW (T )
è diagonale, questo accade se e soltanto se esiste una base di autovettori13 .
Ricordiamo che due matrici A, B ∈ Mnn (K) si dicono simili se esiste G ∈
GLn (K) tale che
B = G−1 AG.
Essendo
−1
MVV (T ) = MWV
(Id)MWW (T )MWV (Id),
dove MWV (Id) è la matrice cambiamento di base, abbiamo che T è diagonalizzabile se e solo se MVV (T ) è simile a una matrice diagonale.
La procedura per determinare se T è diagonalizzabile prevede di calcolare, in
primo luogo gli autovalori di T (che coincidono, qualunque sia la base V, con gli
autovalori di MVV (T )), tramite la ricerca delle radici del polinomio caratteristico
PT (λ) = det(MVV (T ) − λI).
λ è un autovalore se e solo se è radice del polinomio caratteristico. Per ogni autovalore λ, si definisce l’autospazio Vλ , come l’insieme degli autovettori associati
a λ con l’aggiunto del vettore nullo; si definisce poi la molteplicità geometrica
di λ come la dimensione di Vλ . Il criterio di diagonalizzabilità stabilisce che
T è diagonalizzabile se e solo se la somma delle molteplicità geometriche degli autovalori di T è uguale alla dimensione di V . Infine è da segnalare che
la molteplicità geometrica di un autovalore λ̃ è sempre minore o uguale della
molteplicità algebrica di λ̃, cioè dell’esponente con cui si trova il fattore λ − λ̃
nella decomposizione in fattori irriducibili del polinomio caratteristico PT (λ).
12 indichiamo
13 ricordo
genericamente con K un campo, nel nostro corso K è sempre R o C
che un vettore x non nullo si dice un autovettore relativo all’autovalore λ ∈ K, se
T (x) = λx.
15
2.1
Classificazione di matrici, operatori, applicazioni lineari
La relazione di similitudine fra matrici quadrate è di equivalenza. I matematici
si pongono, dunque, il problema di classificare le matrici modulo la relazione di
similitudine, cioè classificare le classi di equivalenza.
Se T è un operatore e A = MWW (T ) è la matrice associata a T rispetto la
base W, allora la classe di equivalenza di A rappresenta l’insieme delle matrici
con cui possiamo vedere rappresentato T rispetto basi diverse. Infatti, sia B
simile a A, esiste quindi G ∈ GLn (K) tale che
B = G−1 AG.
Poniamo
V = WG,
abbiamo che V è una base di V e G = MWV (Id), per cui
−1
B = MWV
(Id)MWW (T )MWV (Id) = MVV (T ).
Questo non è il solo motivo per cui è importante classificare le matrici modulo
similitudine. La classificazione delle matrici modulo similitudine permette anche
di classificare gli operatori modulo automorfismi. Vediamo cosa si intende con
questa affermazione.
Siano T e F due operatori sullo spazio vettoriale V . Supponiamo che esista
un automorfismo14 su V , φ, tale che
φ ◦ F = T ◦ φ.
(11)
È facile vedere che questa è una relazione di equivalenza fra operatori: si
suole dire che F e T sono equivalenti modulo automorfismi. Quando F e T sono
equivalenti modulo automorfismi, allora hanno le stesse proprietà algebriche, per
esempio hanno lo stesso rango, stessi autovalori, stesse molteplicità algebriche e
geometriche; inoltre se W = ker(F ) allora φ(W ) = ker(T ) e in generale tramite φ
o φ−1 è possibile passare da sottospazi significativi per T agli analoghi sottospazi
per F .
Da (11) segue
F = φ−1 ◦ T ◦ φ
che in coordinate, rispetto a una base a una base V, di V , si rappresenta
−1
MVV (F ) = MVV
(φ)MVV (T )MVV (φ),
per cui matrici associate, rispetto la stessa base, a operatori equivalenti sono
simili.
Viceversa, sia la matrice A simile a MVV (T ), esiste quindi G ∈ GL(K) tale
che A = G−1 MVV (T )G. Sia φ : V → V definita15 da
φ(V) = VG,
14 un
operatore su V invertibile
lineare è definita quando siano dati i suoi valori sui vettori di una base
15 un’applicazione
16
abbiamo che φ è invertibile e MVV (φ) = G, per cui, posto
F := φ−1 ◦ T ◦ φ,
abbiamo che F è equivalente a T modulo automorfismi e
−1
MVV (F ) = MVV
(φ)MVV (T )MVV (φ) = G−1 MVV (T )G = A.
Concludendo possiamo affermare che la classe di equivalenza di matrici quadrate rispetto la relazione di similitudine rappresenta l’insieme delle matrici associate,rispetto a una stessa base, a una classe di operatori equivalenti modulo
automorfismi.
Pertanto la classificazione delle matrici modulo similitudine permette anche
di classificare gli operatori modulo automorfismi.
Il modo più semplice per classificare un insieme di classi di equivalenza è
quello di individuare all’interno di ogni classe un suo elemento16 con caratteristiche specifiche che verrà chiamata forma canonica.
La teoria della diagonalizzazione degli operatori (o delle matrici) permette
di classificare gli operatori diagonalizzabili. Abbiamo infatti che
Proposizione 2.1 Due matrici diagonali sono simili se e solo se sulla diagonale troviamo gli stessi elementi e con la stessa molteplicità, disposti eventualmente in ordine diverso.
Dim. Se le matrici diagonali A e B sono simili, allora hanno lo stesso
polinomio caratteristico, quindi gli stessi autovalori con le stesse molteplicità
algebriche. Poiché gli elementi della diagonale di una matrice diagonale sono
gli autovalori della matrice ripetuti tante volte quanto è la loro molteplicità
algebrica, e gli autovalori con le loro molteplicità sono invarianti per similitudine,
A e B hanno sulla diagonale gli stessi numeri (e, se ripetuti, li incontriamo lo
stesso numero di volte, salvo in un diverso ordine).
Viceversa proviamo che due matrici diagonali con diagonali uguali, salvo
l’ordine degli elementi, sono simili. Poiché ogni permutazione dell’ordine degli
elementi della diagonale può essere ottenuta con una sequenza di scambi, possiamo limitarci a considerare a due matrici diagonali A e B che differiscono solo
per lo scambio di due elementi sulla diagonale. Siano




A=


a1
0
0
..
.
0
a2
0
..
.
0
0
a3
..
.
...
...
...
..
.
0
0
0
..
.
0
0
0
...
an











B=


a2
0
0
..
.
0
a1
0
..
.
0
0
a3
..
.
...
...
...
..
.
0
0
0
..
.
0
0
0
...
an







Sia inoltre C ottenta dalla matrice unità cambiando le prime due colonne,
16 o
un limitato gruppo di elementi
17
cioè




C=


0 1 0
1 0 0
0 0 1
.. .. ..
. . .
0 0 0

... 0
... 0 

... 0 

.. 
..
. . 
... 1
Abbiamo che C è ortogonale e quindi C −1 = C t = C e facilmente si verifica che
A = C −1 BC.
Prima di progredire nello studio che ci porterà a classificare tutte le matrici
modulo similitudine, osserviamo come l’analogo problema di classificazione delle
applicazioni lineari fra due spazi vettoriali diversi, modulo automorfismi dei due
spazi vettoriali, sia semplice. Questa classificazione è conseguenza del seguente,
importante teorema
Proposizione 2.2 (teorema nullità + rango17 )
Sia F : V → W un’applicazione lineare. Abbiamo che
dim(ker F ) + dim(F (V )) = dim V
Dim. Sia {v1 , . . . , vs } una base di ker(F ) e completiamola a una base di V ,
V = {v1 , . . . , vs , vs+1 , . . . , vn }.
Se proviamo che {F (vs+1 ), . . . , F (vn )} è una base di F (V ) abbbiamo provato
il teorema.
• span{F (vs+1 ), . . . , F (vn )} = F (V ).
Sia w ∈ F (V ), esiste v ∈ V tale che F (v) = w.
v = a1 v1 + . . . + as vs + as+1 vs+1 + . . . + an vn ,
quindi, per la linearità di F , e poiché i primi s vettori di V stanno in
ker(F ),
w = F (v) =
a1 F (v1 ) + . . . + as F (vs ) + as+1 F (vs+1 ) + . . . + an F (vn ) =
as+1 F (vs+1 ) + . . . + an F (vn ).
• {F (vs+1 ), . . . , F (vn )} sono linearmente indipendenti.
17 si dice nullità la dimensione del nucleo di un’applicazione lineare, si dice rango la dimensione dell’immagine
18
Sia as+1 F (vs+1 ) + . . . + an F (vn ) = 0, una combinazione lineare nulla.
Abbiamo
0 = as+1 F (vs+1 ) + . . . + an F (vn ) =
F (as+1 vs+1 + . . . + an vn ).
Per cui as+1 vs+1 + . . . + an vn ∈ ker(F );questo vettore è quindi combinazione lineare dei vettori della base di ker(F ). Esistono a1 , . . . , as tali
che
as+1 vs+1 + . . . + an vn = a1 v1 + . . . + as vs ,
e pertanto
−a1 v1 − . . . − as vs + as+1 vs+1 + . . . + an vn = 0
rappresenta una combinazione lineare nulla dei vettori della base di V . Ne
segue che tutti i coefficenti e in particolare as+1 . . . + an sono nulli.
Vediamo come utilizzare la dimostrazione del teorema per classificare le applicazioni lineari fra due spazi vettoriali diversi modulo automorfismi.
Completiamo la base {F (vs+1 ), . . . , F (vn )} di F(V) in una base W di W ,
aggiundendo opportunamente k vettori, w1 , . . . , wk , con k = m − (n − s).
W = {F (vs+1 ), . . . , F (vn ), w1 , . . . , wk }.
La matrice associata a F rispetto

0 ...
 0 ...

 ..
..
 .
.

0
.
.
.
MWV (F ) = 

 0 ...

 .
..
 ..
.
le basi V e W è
0
0
..
.
0
0
..
.
0 ... 0
1
0
..
.
0 ...
1 ...
.. . .
.
.
0 0 ...
0 0 ...
.. ..
..
. .
.
0 0 ...
0
0
..
.
1
0
..
.




 
0 Ir
=

0 0




0
dove Ir è la matrice unità di dimensione uguale al rango di F .
Poiché due matrici che rappresentano la stessa applicazione lineare rispetto a
basi diverse hanno lo stesso rango, possiamo concludere che troviamo nella classe
di equivalenza di un applicazione lineare F fra spazi diversi modulo automorfismi
(dello spazio di partenza e di arrivo), tutte e sole le applicazioni che hanno lo
stesso rango di F . Quindi il rango classifica le applicazioni lineari.
19
2.2
Triangolarizzazione degli operatori
Il fatto fondamentale che distingue la teoria degli operatori in campo comlesso da
quella in campo reale è che in C un operatore ha sempre almeno un autovalore,
perché il polinomio caratteristico ha almeno una radice.
Definizione 2.1 Una matrice quadrata A = (aij ) si dice triagolare superiore
se aij = 0 per i > j.
Proposizione 2.3 Ogni operatore T su uno spazio vettoriale complesso V è
triangolarizzabile, cioè esiste una base V per cui la matrice associata MVV (T )
è triangolare superiore.
Dim. La dimostrazione è per induzione sulla dimensione di V . Per gli spazi di
dimensione 1 la proposizione è banale. Assumiamo che ogni operatore su uno
spazio vettoriale complesso di dimensione n − 1 sia triangolarizzabile.
Sia λ1 un autovalore di T (esiste perchè siamo su uno spazio vettoriale complesso) e sia v1 un suo autovettore. Completiamo v1 fino a una base di V . Sia
questa V = {v1 , v2 , . . . , vn }. La matrice associata a T , rispetto alla base V, ha
la forma


λ1 a12 . . . a1n
 0 a22 . . . a2n  λ1 B


MVV (T ) =  .
=
.

..
..
..
0 A
 ..
.
.
. 
0 an2 . . . ann
Sia W = span{v2 , . . . , vn }. Sia P la proiezione da V in W definita da
P :V
v = a1 v1 + a2 v2 + . . . + an vn
−→
7−→
W
a2 v2 + . . . + an vn
L’applicazione18 P ◦ T|W : W → W è un operatore su uno spazio vettoriale
di dimensione n − 1, che rispetto alla base {v2 , . . . , vn } di W ha, come matrice
associata, la matrice A. Per ipotesi induttiva esiste una base W = {w2 , . . . , wn }
di W , rispetto la quale la matrice associata a T , MWW (P ◦ T|W ), è triangolare
superiore.
U = {v1 , w2 , . . . , wn } è una base di V e la matrice assocata a T rispetto U
è
λ1
D
MU U (T ) =
0 MWW (P ◦ T|W )
dove D è un non precisato vettore riga, infatti tutte le componenti, esclusa la
prima, dei vettori T (w2 ), . . . , T (wn ), rispetto alla base U, sono uguali alle
componenti dei vettori P ◦ T|W (w2 ), . . . , P ◦ T|W (wn ), rispetto alla base W.
MU U (T ) è triangolare superiore.
18 conT
|W
intendiamo la restrizione di T al sottospazio W
20
Definizione 2.2 Sia T un operatore su uno spazio vettoriale reale o complesso,
definiamo spettro di T l’insieme delle radici complesse del polinomio caratteristico.
Per un operatore T su uno spazio vettoriale reale V , lo spettro19 coincide con
l’insieme degli degli autovalori dell’estensione TC di T al complessificato VC .
Si osservi che la proposizione (2.3) non è vera in campo reale, in quanto ogni
operatore triangolarizzabile ha almeno un autovettore (il primo vettore di una
base che lo triangolarizza), mentre esistono operatori privi di autovettori, quali,
2
ad esempio, le rotazioni nello spazio vettoriale VO
, di angolo diverso da 0 e π.
Comunque vale la seguente
Proposizione 2.4 Un operatore T su uno spazio vettoriale reale V , con lo
spettro tutto reale, è triangolarizzabile.
la cui dimostrazione è simile alla precedente, poiché nella prova è intervenuta
l’ipotesi che il campo sia complesso, solo per provare l’esistenza di un autovettore. Bisogna osservare anche che, se T ha lo spettro tutto reale, pure P ◦ T|W
ha lo spettro tutto reale.
2.3
Somma e somma diretta di sottospazi
Definizione 2.3 Siano U e W due sottospazi dello spazio vettoriale V , l’insieme
U + W := {v ∈ V |v = u + w,
u∈U
w ∈ W}
si dice la somma di U e W .
È facile provare che U +W è un sottospazio vettoriale di V . Anche l’intersezione
dei due sottospazi, U ∩ W , è un sossospazio vettoriale di V . Il seguente teorema
lega la dimensione della somma di sue sottospazi con la dimensione della loro
intersezione.
Proposizione 2.5 (teorema di Grassmann)
Siano U e W due sottospazi vettoriali di V , abbiamo
dim U + dim W = dim(U ∩ W ) + dim(U + W ).
Dim. Siano {v1 , . . . , vr } una base di U ∩ W . U ∩ W è, sia un sottospazio
di U , sia un sottospazio di W . Completiamo la base di U ∩ W fino a ottenere
basi di U e di W . Siano rispettivamente
{v1 , . . . , vr , u1 , . . . , us } una base di U ,
{v1 , . . . , vr , w1 , . . . , wt } una base di W . Abbiamo che dim U = r + s, dim W =
19 alcuni autori intendono con spettro di un operatore reale l’insieme delle radici reali del
polinomio caratteristico
21
r + t. Ci basta provare che dim(U + W ) = r + s + t, per poter concludere di
aver dimostrato il teorema. Proviamo quindi che
{v1 , . . . , vr , u1 , . . . , us , w1 , . . . , wt }
è una base di U + W .
• span{v1 , . . . , vr , u1 , . . . , us , w1 , . . . , wt } = U + W.
Sia u + w un generico vettore di U + W .
u = a1 v1 + . . . + ar vr + b1 u1 + . . . + bs us
w = c1 v1 + . . . + cr vr + d1 w1 + . . . + dt wt .
segue
u+w = (a1 +c1 )v1 +. . .+(ar +cr )vr +b1 u1 +. . .+bs us +d1 w1 +. . .+dt wt .
• v1 , . . . , vr , u1 , . . . , us , w1 , . . . , wt sono linearmente indipendenti.
Sia
a1 v1 + . . . + ar vr + b1 u1 + . . . + bs us + c1 w1 + . . . + ct wt = 0
(12)
una loro combinazione lineare nulla. Il vettore w := c1 w1 + . . . + ct wt
appartiene a W , ma appartiene anche a U , perché
w = −(a1 v1 + . . . + ar vr + b1 u1 + . . . + bs us ) ∈ U,
quindi w ∈ U ∩ W. Pertanto w ∈ U ∩ W e quindi w = d1 v1 + . . . + dr vr
e sostituendo in (12) otteniamo
(a1 + d1 )v1 + . . . + (ar + dr )vr + b1 u1 + . . . + bs us = 0,
che, essendo una combinazione lineare dei vettori della base di U , può
essere nulla solo se
(a1 + d1 ) = . . . = (ar + dr ) = b1 = . . . = bs = 0.
Utilizziamo il fatto che b1 = . . . = bs = 0 nella (12); otteniamo
a1 v1 + . . . + ar vr + c1 w1 + . . . + cs wt = 0,
che, essendo una combinazione lineare dei vettori di una base di W , può
essere nulla solo se
a1 = . . . = ar = c1 = . . . = cr = 0.
Dunque i coefficienti della (12) sono necessariamente tutti nulli.
22
Definizione 2.4 La somma di due sottospazi U e W dello spazio vettoriale V
si dice diretta se U ∩ W = {0}; in tal caso la somma si scrive U ⊕ W
Per il teorema di Grassmann dim(U ⊕ W ) = dim U + dim W .
Vale la seguente
Proposizione 2.6 Ogni vettore v ∈ U ⊕ W si scrive in uno e un sol modo
come somma, v = u + w, di un vettore u ∈ U e di un vettore w ∈ W .
Dim. Supponiamo che il vettore v ∈ U ⊕ W si possa scrivere in due modi
come somma di un vettore che sta in U e un vettore che sta in W .
v = u1 + w1 = u2 + w2 ,
u1 , u2 ∈ U,
w1 , w2 ∈ W ;
abbiamo che il vettore u1 − u2 = w2 − w1 appartiene sia a U che a W . Dunque
u1 − u2 = w2 − w1 = 0, perché U ∩ W = {0}. Da qui u1 = u2 e w1 = w2 .
La definizione di somma diretta si estende al caso della sommna di un numero
finito di sottospazi nel modo seguente
Definizione 2.5 La somma dei sottospazi W1 , . . . , Wr si dice diretta (e si scrive
W1 ⊕ . . . ⊕ Wr ) se ogni vettore v ∈ W1 + . . . + Wr è somma in uno e un sol
modo di r vettori, v1 , . . . , vr , con v1 ∈ W1 , . . . , vr ∈ Wr .
Proposizione 2.7
dim(W1 ⊕ . . . ⊕ Wr ) = dim W1 + . . . + dim Wr
Dim. Siano W1 . . . Wr r basi, rispettivamente di W1 , . . . , Wr . La loro
unione, W, è una base di W1 ⊕ . . . ⊕ Wr , infatti
• W genera W1 ⊕ . . . ⊕ Wr perché ogni vettore di W1 ⊕ . . . ⊕ Wr è somma
di r vettori, w1 ∈ W1 , . . . , wr ∈ Wr , ciascuno dei quali è combinazione
lineare dei vettori delle basi dei rispettivi spazi.
• W è un insieme di vettori linearmente indipendenti, perché , se vi fosse
una combinazione lineare non banale dei vettori di W, avremmo che il
vettore nullo, oltre a scriversi come 0 + . . . + 0 si scrive anche in un modo
diverso come somma di r vettori, w1 ∈ W1 , . . . , wr ∈ Wr .
2.4
I teorema di riduzione
Definizione 2.6 Sia T un operatore sullo spazio vettoriale V . Un sottospazio
W , di V , si dice T -invariante (o invariante per T o anche T-stabile) se T (W ) ⊆
W.
23
Se T è diagonalizzabile e V = {v1 , . . . , vn } è una base che diagonalizza T
allora span{v1 }, . . . , span{vn } sono spazi T -invarianti e
V = span{v1 } ⊕ . . . ⊕ span{vn },
anzi è facile vedere che T è diagonalizzabile se e solo se V è somma diretta di
n sottospazi T -invarianti di dimensione 1. È pertanto naturale ricercare per gli
operatori non diagonalizzabili la decomposizione di V in una somma diretta con
il maggior numero di sottospazi T -invarianti.
Con questo obiettivo in mente, introciamo la seguente:
Definizione 2.7 Sia λ un autovalore di T , v ∈ V si dice una radice per T di
ordine m relativa all’autovalore λ, se
(T − λId)m (v) = 0
e m è il più piccolo numero naturale per cui vale tale proprietà.
Gli autovalori sono radici di ordine 1.
Proposizione 2.8 L’insieme delle radici di T relative all’autovalore λ è un
sottospazio vettoriale che indichiamo con R(T, λ).
Dim. Sia v ∈ R(T, λ); esiste m ∈ N tale che (T − λId)m (v) = 0; ne segue che
(T − λId)m (kv) = k(T − λId)m (v) = 0, dunque kv ∈ R(T, λ).
Siano v1 , v2 ∈ R(T, λ); esistono m1 , m2 ∈ N tali che (T − λId)m1 (v1 ) = 0 e
(T − λId)m2 (v2 ) = 0; ne segue
(T − λId)max(m1 ,m2 ) (v1 + v2 ) =
(T − λId)max(m1 ,m2 ) (v1 ) + (T − λId)max(m1 ,m2 ) (v2 ) = 0
Proposizione 2.9 R(T, λ) è T -invariante.
Dim. Sia v ∈ R(T, λ). Esiste m ∈ N tale che (T − λId)m (v) = 0. Anche
(T − λId)m+1 (v) = 0. Quindi
0 = (T − λId)m+1 (v) = (T − λId)m ((T − λId)(v)) =
(T − λId)m (T (v) − λv) =
m
(T − λId) (T (v)) − λ(T − λId)m (v) =
(T − λId)m (T (v)).
Quindi anche T (v) è una radice relativa a λ.
Teorema (I Teorema di riduzione)
24
Sia T : V → V un operatore sullo spazio vettoriale complesso di dimensione
finita V . Siano λ1 , . . . , λk i suoi autovalori. Allora
V = R(T, λ1 ) ⊕ . . . ⊕ R(T, λk )
Omettiamo la dimostrazione del teorema20 , ma cerchiamo di saperne di più
sul sottospazio delle radici.
T|R(T,λ) ha il solo autovalore λ, perché se avesse anche un diverso autovalore
µ, un autovettore di T|R(T,λ) relativo a µ, sarebbe anche autovettore di T e
quindi apparterrebbe a R(T, µ) contro al fatto che R(T, λ) ∩ R(T, µ) = 0.
Ne segue che la dimensione di R(T, λ) è uguale alla molteplicità algebrica di
λ.
Consideriamo una base Vλ di R(T, λ) che triangolarizza T|R(T,λ) ; sulla diagonale di MVλ Vλ (T|R(T,λ) ) troviamo gli autovalori, pertanto


λ a12 . . . a1n
 0 λ . . . a2n 


MVλ Vλ (T|R(T,λ) ) =  .
..
..  .
..
 ..
.
.
. 
0
0
...
λ
Poiché ogni sottospazio è Id-invariante, abbiamo
Proposizione 2.10 R(T, λ) è (T − µId)-invariante, qualunque sia µ, in particolare è (T − λId)-invariante.
Rispetto la base Vλ indicata sopra abbiamo


λ−µ
a12
. . . a1n
 0
λ − µ . . . a2n 


MVλ Vλ ((T − µId)|R(T,λ) ) = 
.
..
..
..
..


.
.
.
.
0
0
...
λ−µ
Definizione 2.8 Un operatore T su V si dice nilpotente se esiste m ∈ N tale
che T m = 0 ( cioè T m (v) = 0 per ogni v ∈ V ); si dice nilpotente di ordine m
se m è il più piccolo indice tale che T m = 0.
Proposizione 2.11 Sia λ un autovalore dell’operatore T sullo spazio di dimensione finita V . (T − λId)|R(T,λ) : R(T, λ) → R(T, λ) è nilpotente.
Dim. Rispetto alla base Vλ di R(T, λ) , che triangolarizza

0 a12 . . . . . .
 0 0 a23 . . .


..
..
..
MVλ Vλ ((T − λId)|R(T,λ) ) =  ...
.
.
.

 0 0
... 0
0 0
... 0
(T − λId),

a1n

a2n


..

.

an−1 n 
0
20 può essere trovata sul libro di Ciliberto Algebra lineare, oppure sulle vecchie note del
Corso di Complementi di Algebra lineare
25
è una matrice triangolare superiore con diagonale principale nulla. Il quadrato
di questa matrice ha nulla anche la diagonale immediatamente a destra della
diagonale principale:


0 0 ∗ ... ∗ ∗
 0 0 0 ... ∗ ∗ 


 .. .. . . . .
.. .. 


.
.
.
.
.
.
,
(MVλ Vλ ((T − λId)|R(T,λ) ))2 = 


.
.. 0 ∗ 
 0 0 0


 0 0 0 ... 0 0 
0 0 0 ... 0 0
dove al posto degli ∗ vi sono numeri non meglio precisati. Ogni successiva
potenza determina un’ulteriore diagonale nulla, per cui (T − λId)|R(T,λ) è nilpotente e l’ordine di nilpotenza è, al più, uguale alla molteplicità algebrica di
λ.
Osserviamo che l’ordine di nilpotenza di (T − λId)|R(T,λ) è uguale al più
piccolo m tale che ker(T − λId)m+1 = ker(T − λId)m . Ciò deriva dal fatto che,
se
ker(T − λId)m+1 = ker(T − λId)m
allora per ogni k ∈ N
ker(T − λId)m+k = ker(T − λId)m ;
infatti sia v ∈ ker(T − λId)m+k , abbiamo
0 = (T − λId)m+k (v) = (T − λId)m+1 ((T − λId)k−1 (v)) =
(T − λId)m ((T − λId)k−1 (v)) =
(T − λId)m+k−1 (v)
Iterando il procedimento k volte, otteniamo (T −λId)m (v) = 0, cioè v ∈ ker(T −
λId)m .
2.5
Il II teorema di riduzione
Il primo teorema di riduzione mostra una prima decomposizione di V in somma
diretta di sottospazi T -invarianti. Dobbiamo chiederci se un sottospazio delle
radici possa essere, a sua volta, somma diretta di sottospazi T -invarianti.
Un sottospazio W di R(T, λ) è T -invariante se e solo se è (T −λId)-invariante.
Possiamo quindi limitarci a cercare sottospazi di R(T, λ), (T − λId)-invarianti.
Il vantaggio sta nel fatto che (T − λId)|R(T,λ) è un operatore nilpotente.
Introduciamo la seguente
26
Definizione 2.9 Sia G un operatore sullo spazio vettoriale V di dimensione n,
G si dice ciclico se esiste una base, V = {v1 , . . . , vn }, detta base ciclica, tale
che
G(v1 ) = 0
G(v2 ) = v1
..
.
G(vn ) = vn−1
È immediato verificare che ogni operatore ciclico è nilpotente. La matrice
associata all’operatore ciclico G rispetto una base ciclica ha la forma


0 1 0 ... 0
 0 0 1 ... 0 



..  .
..
Jn :=  ... ...
.
. 


 0 0 0 ... 1 
0 0 0 ... 0
0 è il solo autovalore di un operatore ciclico G, con molteplicità algebrica
n e molteplicità geometrica 1. Pertanto l’autospazio relativo all’autovalore 0 è
span(v1 ).
Per gli operatori nilpotenti vale il II teorema di riduzione, di cui omettiamo
la dimostrazione.
Teorema (II Teorema di riduzione)
Sia G un operatore nilpotente sullo spazio vettoriale V . Esistono sottospazi
G-invarianti W1 , . . . , Wk tali che
V = W1 ⊕ . . . ⊕ Wk
e la restrizione, G|Wi , di G a ogni sottospazio Wi , è un operatore ciclico.
Applicando il II teorema di riduzione all’operatore
(T − λId)|R(T,λ) : R(T, λ) → R(T, λ)
e, ricordando che un sottospazio (T − λId)-invariante è anche T -invariante, abbiamo che
R(T, λ) = W1 ⊕ . . . ⊕ Wk ,
(13)
dove i sottospazi Wi sono T -invarianti e gli operatori (T − λId)|Wi sono ciclici.
Chiamiamo sottospazio di Jordan relativo all’autovalore λ dell’operatore T,
un sottospazio W ⊆ V per cui (T − λId)|W è ciclico, e base di Jordan una base
di W ciclica per (T − λId)|W .
Sia V = {v1 , . . . , vr } una base di Jordan di W . Poiché la matrice associata
a (T − λId)|W è


0 1 0 0 ... 0
 0 0 1 0 ... 0 


 0 0 0 1 ... 0 


Jr =  . . .
(14)
..  ,
..
 .. .. ..
. . 


 0 0 0 0 ... 1 
0 0 0 0 ... 0
27
la matrice associata a T |W rispetto a

λ 1
 0 λ

 .. ..
 . .
Jr (λ) = 
 . .
 .. ..

 0 0
0 0
V è
0
1
..
.
...
...
..
.
0
0
..
..
.
...
...
0
0
0
0
..
.
..
.
1
λ
.
λ
0





.




(15)
La matrice Jr (λ) si chiama blocco di Jordan di ordine r relativo a λ o λ-blocco
di Jordan di ordine r.
Sia Vi = {vi1 , . . . , vir(i) } una base di Jordan di Wi ; dalla (13) segue che
∪ki=1 Vi è una base di R(T, λ) e rispetto a questa base l’operatore T |R(T,λ) è
rappresentato da una matrice avente sulla diagonale k blocchi di Jordan. Essa
ha la forma
r(1)
z







































λ
r(2)
}|
1
0
..
.
λ
0
0
0
0
..
..
.
.
...
...
{ z
0
0
0
..
.
0
..
.
λ
0
1
λ
0
λ
r(k)
}|
1
0
..
.
λ
0
0
0
0
..
..
.
.
...
...
{
0
0
0
..
.
λ
0
0
..
.
1
λ
z
0
..
.
..
.
..
.
0
λ
}|
1
0
..
.
λ
0
0
0
0
..
..
.
.
...
...
{

0
0
0
..
.
0
..
.
λ
0
1
λ



















;


















dove i singoli blocchi di Jordan hanno ordine uguale alla dimensione dei Wi ;
nel caso che un blocco abbia dimesione 1 allora è formato dal solo autovalore.
Come si vede, si tratta di una matrice con tutti zeri eccetto che sulla diagonale
dove troviamo l’autovalore λ e sulla prima parallela destra della diagonale dove
troviamo una sequenza di 1 e 0, che servono a individuare i blocchi di Jordan.
28
2.6
Forma canonica di Jordan
Combiniamo il I e il II teorema di riduzione.
Per ognuno dei sottospazi delle radici esiste una decomposizione in sottospazi
di Jordan, quindi V è somma diretta di sottospazi di Jordan, che ricordo sono T invarianti. Prendendo una base di Jordan per ciascuno dei sottospazi di Jordan
e facendone l’unione, ottengo una base W di V, rispetto la quale la matrice
associata a T ha lungo la diagonale blocchi di Jordan relativi ai vari autovalori
di T . Supponiamo che sia si il numero dei (λi )-blocchi di Jordan che trovo sulla
diagonale; la matrice associata a T rispetto W può essere schematizzata nella
seguente nella matrice a bloccchi, dove i blocchi non rappresentati sono tutti
nulli e dove l’indice che numera i blocchi di Jordan è indicato fra parentesi per
non confonderlo con l’indice che mostra (quando è scritto) l’ordine del blocco
di Jordan.


J(1) (λ1 )


..


.




J(s1 ) (λ1 )




..


.
.

(16)
MWW (T ) = 

.
..






J(1) (λk )




..


.
J(sk ) (λk )
Definizione 2.10 Una matrice che è nulla, salvo avere lungo la diagonale blocchi di Jordan si dice una forma canonica di Jordan.
Da quanto sopra detto abbiamo
Proposizione 2.12 Per ogni operatore T su uno spazio vettoriale complesso
di dimensione finita esiste una base rispetto la quale la matrice associata è una
forma canonica di Jordan
Poiché ogni matrice complessa definisce un operatore su Cn , vi è un equivalente della proposizione precedente in termini di matrici.
Proposizione 2.13 Ogni matrice quadrata complessa è simile in C a una forma
canonica di Jordan.
Si osservi che i sottospazi delle radici sono univocamente determinati dall’operatore
T ; non cosı̀ i sottospazi di Jordan. Se consideriamo ad esempio l’operatore nullo
su V , questo ha un solo autovalore, lo zero, a cui corrisponde come sottospazio
delle radici lo stesso spazio V . Ogni sottospazio di dimensione 1 è un sottospazio di Jordan, ed esistono infinite decomposizioni di V in somma diretta di
sottospazi di Jordan.
29
Sono invece univocamente determinati da T , sia il loro numero sia le loro
dimensioni21 , e la prova di questa affermazione seguirà dall’algoritmo che serve
a calcolare la forma canonica di Jordan dell’operatore T .
Cominciamo col calcolare il rango delle potenze di (Jr (λ) − λIr ). Da (14) e
(15) abbiamo che Jr (λ) − λIr = Jr e quindi
rk(Jr (λ) − λIr ) = r − 1.

0
0
..
.




J2r = 
 0

 0
0
0
0
..
.
1
0
..
.
0
0
0
0
0
0

0 ... 0
1 ... 0 

.. 
..
. . 

0 ... 1 

0 ... 0 
0 ... 0
dunque
rk(Jr (λ) − λIr )2 = r − 2.
Ogni volta che si alza di uno l’esponente di Jr , la diagonale degli uni si sposta
di un posto verso destra e verso l’alto cosicché il rango scende di uno. Pertanto
r − h se h ≤ r
h
rk(Jr (λ) − λIr ) =
(17)
0
se h ≥ r
a cui diamo un senso anche per h = 0, convenendo che, per ogni matrice quadrata non nulla A, A0 = I.
Se µ 6= λ, indipendentemente dal valore di h,
rk(Jr (µ) − λIr )h = r.
Valutiamo ora come varia il rango di (T − λId)h al crescere di h. Sia W una
base rispetto la quale la matrice associata a T sia in forma canonica di Jordan;
con le notazioni della (16) abbiamo
rk(T − λId)h = rk((MWW (T ) − λIn )h =
si
k X
X
rk(J(j) (λi ) − λIr(i,j) )h ,
i=1 j=1
dove r(i, j) è l’ordine di J(j) (λi ).
Se λi 6= λ, il rango di (J(j) (λi ) − λI)h non varia al crescere di h, mentre, per
la (17), se λi = λ, al crescere di 1 dell’esponente h, il rango di (J(j) (λi ) − λI)h
diminuisce di 1, purché (J(j) (λi ) − λI)h non sia già diventata la matrice nulla,
nel qual caso il rango non può ulteriormente diminuire al crescere di h. Pertanto
rk(T − λId)h−1 − rk(T − λId)h
21 questo
giustifica la parola canonica che si dà alla forma di Jordan
30
(18)
rappresenta il numero dei λ-blocchi di Jordan con ordine maggiore o uguale a
h.
Ne segue la seguente
Proposizione 2.14 Sia ρ(T, λ, h) il numero del λ-blocchi di Jordan di ordine
h, che si trovano in una forma canonica di Jordan associata all’operatore T .
Vale
ρ(T, λ, h) = rk(T − λId)h−1 − 2rk(T − λId)h + rk(T − λId)h+1
(19)
Dim. Dalla (18) segue subito
ρ(T, λ, h) = (rk(T − λId)h−1 − rk(T − λId)h ) −
(rk(T − λId)h − rk(T − λId)h+1 )
da cui la tesi.
La formula (19) permette di calcolare ρ(T, λ, h) direttamente da T , senza
dover determinare una base rispetto la quale la matrice associata a T sia una
forma canonica di Jordan, quindi i numeri ρ(T, λ, h) non dipendono dalla base
usata per rappresentare T in forma canonica di Jordan. Da ciò ne deriva
Teorema(della riduzione a forma canonica di Jordan)
Sia T un operatore sullo spazio vettoriale complesso di dimensione finita V .
Esiste una base W rispetto la quale la matrice associata a T è una forma canonica di Jordan, la quale è univocamente determinata da T , salvo l’ordine con
cui compaiono i blocchi di Jordan sulla diagonale di MWW (T ).
Gli invarianti ρ(T, λ, h) servono anche a classificare le matrici quadrate complesse rispetto la relazione di similitudine. Sia A ∈ Mnn (C) e sia TA : Cn → Cn
l’operatore che definito da T (x) = Ax. Indichiamo con ρ(A, λ, h) := ρ(TA , λ, h).
Abbiamo che
Proposizione 2.15 Due matrici A, B ∈ Mnn (C) sono simili se e solo se
1. hanno gli stessi autovalori
2. ρ(A, λ, h) = ρ(B, λ, h), per ogni autovalore λ e per ogni naturale h minore
o uguale della moltepliciyà algebrica di λ.
Dim. Due matrici simili rappresentano lo stesso operatore rispetto basi diverse
quindi hanno gli stessi autovalori e gli stessi ρ(−, λ, h); viceversa se, A e B hanno
gli stessi autovalori e ρ(A, λ, h) = ρ(B, λ, h), per ogni λ e per ogni h, allora sono
simili alla stessa forma canonica di Jordan, quindi simili fra loro.
31
Similmente, gli invarianti ρ(T, λ, h) sono sufficienti a classificare anche gli
operatori modulo automorfismi nel senso che
due operatori T e T 0 sono equivalenti modulo automorfismi e hanno quindi
le stesse proprietà algebriche22 , se e solo se hanno gli stessi autovalori e hanno
uguali gli invarianti ρ(T, λ, h), ρ(T 0 , λ, h).
Un’ulteriore osservazione è che la decomposizione di V in somma diretta di
sottospazi T -invarianti, data dalla riduzione a forma canonica di Jordan, non è
ulteriormente migliorabile nel senso che non esiste un’altra decomposizoione di V
in un maggior numero di sottospazi T -invarianti, perché altrimenti la restrizione
di T a ciascuno di questi sottospazi sarebbe, a sua volta, riducibile a forma
canonica di Jordan e complessivamente ritroverei due decomposizioni di T a
forma canonica di Jordan con diversi valori per ρ(T, λ, h), contro l’unicità.
Che dire infine della classificazione delle matrici quadrate reali a meno di
similitudine? La teoria della riduzione a forma canonica di Jordan risolve anche
questo problema. Vale infatti
Proposizione 2.16 Due matrici quadrate reali A, B ∈ M nn (R) sono simili se
e solo se sono simili come matrici complesse. Cioè
∃M ∈ GLn (R),
A = M −1 BM ⇐⇒ ∃C ∈ GLn (C),
A = C −1 BC.
Dim. L’implicazione =⇒ è banale. Viceversa. Sia C ∈ Mnn (C) tale
A = C −1 BC.
Segue
CA = BC
da cui, coniugando e tenendo presente che che A e B sono reali
C̄A = B C̄,
e quindi
BC + B C̄
CA + C̄A
=
= BRe(C)
2
2
CA + C̄A
BC + B C̄
Im(C)A =
=
= BIm(C).
2i
2i
Non possiamo concludere che A e B sono simili come matrici reali perché, pur
essendo Re(C) e Im(C) matrici reali, non sappiamo se sono invertibili. Poiché
anche ogni combinazione lineare aReC + bImC è tale che
Re(C)A =
(aReC + bImC)A = B(aReC + bImC),
dobbiamo chiederci se esistono a, b ∈ R tali che (aReC + bImC) è invertibile.
Scegliamo a = 1 e osserviamo che
det(ReC + bImC)
22 vedi
paragrafo (2.1)
32
è un polinomio in b, a coefficienti reali, non identicamente nullo, in quanto
calcolato sul numero complesso i assume il valore det C 6= 0. Esiste dunque
almeno un numero reale b̃ (ne esistono infiniti) tale che
det(ReC + b̃ImC) 6= 0.
Sia M = (ReC + b̃ImC), ho M ∈ GLn (R) e A = M −1 BM .
Interpretando il risultato precedente in termini di operatori, abbiamo che lo
spettro e gli invarianti ρ(TC , λ, h) sono sufficienti a classificare anche gli operatori
su uno spazio vettoriale reale a meno di automorfismi:
due operatori T e T 0 sullo spazio vettoriale reale V sonno equivalenti a meno
di automorfismi, e hanno quindi le stesse ”proprietà algebriche”23 se e solo se
hanno lo stesso spettro e i loro complessificati hanno gli invarianti ρ(TC , λ, h) e
ρ(TC0 , λ, h) uguali.
2.7
Un esempio di calcolo della forma canonica di Jordan
Sia T l’operatore che
T : C4
x
dove

0
0
1
0
0
−λ
1
0
0
1
−λ
0
1
 0
A=
 0
0


PT (λ) = det 

1−λ
0
0
0
−→ C4
7−→ Ax
0
1
0
0

1
0 

1 
1

1
0 
 = (1 − λ)3 (1 + λ).
1 
1−λ
Ho due autovalori λ1 = 1 di molteplicità algebrica 3 e λ2 = −1 di molteplicità
algebrica 1. Da ciò segue che necessariamente ρ(T, λ2 , 1) = 1 e non serve calcolare altro per l’autovalore λ2 . Calcoliamo ora ρ(T, λ1 , 1), ρ(T, λ1 , 2) e ρ(T, λ1 , 3).
Determiniamo


0 0
0 1
 0 −1 1 0 

rk(T − λ1 I4 ) = rk 
 0 1 −1 1  = 2
0 0
0 0


0 0
0 0
 0 2 −2 0 

rk(T − λ1 I4 )2 = rk 
 0 −2 2 0  = 1
0 0
0 0
23 vedi
paragrafo (2.1)
33
rk(T − λ1 I4 )3 = 1.
Per l’ultimo rango non è necessario fare calcoli, perché la molteplicità algebrica
di λ1 è 3 e dunque rk(T − λ1 I4 )3 = dim(C4 ) − 3 = 1. E’ anche inutile calcolare
rk(T −λ1 I4 )4 , perché all’aumentare dell’esponente oltre la molteplicità algebrica
il rango non scende più.
Dalla (19) abbiamo
ρ(T, λ1 , 1) = 4 − 2 · 2 + 1 = 1
ρ(T, λ1 , 2) = 2 − 2 · 1 + 1 = 1
ρ(T, λ1 , 3) = 1 − 2 · 1 + 1 = 0
Esiste una base W per cui la matrice associata a T rispetto a W è


1 1 0 0
 0 1 0 0 

MWW (T ) = 
 0 0 1 0 .
0 0 0 −1
34
3
Forme bilineari e forme sesquilineari
3.1
Definizioni
Sia V uno spazio vettoriale su K .
Definizione 3.1 Un’applicazione B : V × V → K si dice bilineare se
1. B(v + w, z) = B(v, z) + B(w, z)
2. B(kv, w) = kB(v, w)
3. B(v, w + z) = B(v, w) + B(v, z)
4. B(v, kw) = kB(v, w)
La forma si dice inoltre simmetrica se B(v, w) = B(w, v) e antisimmetrica ( o
alternante) se B(v, w) = −B(w, v).
Sia V uno spazio vettoriale su C .
Definizione 3.2 Un’applicazione H : V × V → C si dice sesquilineare se
1. H(v + w, z) = H(v, z) + H(w, z)
2. H(kv, w) = kH(v, w)
3. H(v, w + z) = H(v, w) + H(v, z)
4. H(v, kw) = k̄H(v, w)
La forma si dice inoltre hermitiana se H(v, w) = H(w, v) e antihermitiana se
H(v, w) = −H(w, v)
Le proprietà 1 e 2 segnalano che B (H) è lineare nella prima variabile, le
proprietà 3 e 4 segnalano che B è lineare (H antilineare) nella seconda variabile.
Proposizione 3.1 Ogni forma bilineare (sesquilineare) è somma di una forma
simmetrica e una antisimmetrica (hermitiana e antihermitiana).
Dim.
B(v, w) + B(w, v) B(v, w) − B(w, v)
+
(20)
2
2
Il primo addendo è una forma bilineare simmetrica, S(B), il secondo è una forma
bilineare antisimmtrica, A(B).
B(v, w) =
H(v, w) =
H(v, w) + H(w, v) H(v, w) − H(w, v)
+
2
2
(21)
Il primo addendo è una forma hermitiana il secondo è una forma antihermitiana.
35
A ogni forma bilineare B(v, w) si può associare una forma quadratica Q :
V → K, definita da
Q(v) = B(v, v).
Per ogni forma quadratica vale
Q(kv) = k 2 Q(v)
Q(v + w) = Q(v) + Q(w) + B(v, w) + B(w, v).
Se la forma è simmetrica allora
Q(v + w) − Q(v) − Q(w)
.
(22)
2
Molte forme bilineari definiscono la stessa forma quadratica ma fra di loro ve
ne è una sola simmetrica; infatti B e S(B) generano la stessa forma quadratica,
il che garantisce che nell’insieme delle forme bilineari che generano la stessa
forma quadratica ve ne è una simmetrica, e d’altra parte per la (22) questa è
univocamente determinata da Q.
In modo analogo a quanto visto sopra, a una forma sesquilineare H(v, w) si
associa la forma H-quadratica QH : V → C, definita da
B(v, w) =
QH (v) = H(v, v).
Per ogni forma H-quadratica vale
2
QH (kv) = |k| QH (v)
QH (v + w) = QH (v) + QH (w) + H(v, w) + H(w, v),
da cui se la forma H è hermitiana si ha
H(v, w) = ReH(v, w) + iImH(v, w) =
QH (v + iw) − QH (v) − QH (w)
QH (v + w) − QH (v) − QH (w)
+i
.
(23)
2
2
Osserviamo che la forma H-quadratica associata a una forma hermitiana
è reale, nel senso che assume solo valori reali, infatti h(v, v) = h(v, v) ∈ R.
(Analogamente la forma H-quadratica associata a una forma antihermitiana è
immaginaria pura.)
Vi è corrispondenza biunivoca fra le forme hermitiane e le forme H-quadratiche
reali, infatti dalla (21) segue che fra tutte le forme sesquilineari che definiscono
una forma H-quadratica reale ve ne è una hermitiana e d’altra parte una forma
hermitiana che definisce una forma H-quadratica reale QH può essere ricostruita
a partire da QH , per la (23), ed è quindi univocamente determinata.
Esempio 3.1 Sia A ∈ Mnn (K) l’applicazione
B : Kn × Kn
(x, y)
→
K
7→ xt Ay
è una forma bilineare in Kn . La forma B è simmetrica se e solo se A è simmetrica.
36
Definizione 3.3 Una matrice A ∈ Mnn (C) si dice hermitiana se A = Āt .
Esempio 3.2 Sia A ∈ Mnn (C), l’applicazione
H : C n × Cn
(x, y)
→
C
7→ xt Aȳ
è una forma sesquilineare in Cn . La forma H è hermitiana se e solo se A è
hermitiana.
3.2
Matrici associate a forme bilineari e sesquilineari
Sia B : V × V → K una forma bilineare e sia H : V × V → C una forma
sesquilineare; (si intende che nel primo caso V è uno spazio vettoriale su K , nel
secondo uno spazio vettoriale su C .) Sia V = {v1 , . . . , vn } una base di V .
Definiamo
MV (B) := (B(vi , vj ))1 ≤ i ≤ n
MV (H) := (H(vi , vj ))1 ≤ i ≤ n .
1 ≤ j ≤ n
1 ≤ j ≤ n
Siamo in grado, adesso,Pdi rappresentarePin coordinate la forma bilineare
n
n
(sesquilineare). Siano v = i=1 xi vi e w = j=1 yj vj ,


n
n
X
X
B(v, w) = B 
xi vi ,
yj vj  =
i=1
n
X
xi yj B(vi , vj ) =
i,j=1
n
X
j=1
xi yj MV (B)ij = xt MV (B)y.
i,j=1
t
dove x = (x1 , . . . , xn ) e y = (y1 , . . . , yn )t . Similmente


n
n
X
X
H(v, w) = H 
xi vi ,
yj vj  =
i=1
n
X
i,j=1
xi ȳj H(vi , vj ) =
n
X
j=1
xi ȳj MV (H)ij = xt MV (H)ȳ.
i,j=1
La rappresentazione in coordinate rispetto alla base V della forma quadratica
Q associata alla forma bilineare B è il seguente polinomio omogeneo di secondo
grado, nelle coordinate x1 , . . . , xn del vettore v:
Q(v) = B(v, v) = xt MV (B)x =
n X
n
X
xi xj B(vi , vj ),
i=1 j=1
e nel caso in cui la forma bilineare B sia la forma bilineare simmetrica associata
alla forma quadratica Q, posso scrivere
37
Q(v) =
n
X
Q(vi )x2i
+2
i=1
n
n
X
X
B(vi , vj )xi xj .
i=1 j=i+1
Per cui, se il polinomio omogeneo di secondo grado
n
X
aii x2i +
n
n
X
X
i=1
aij xi xj
i=1 j=i+1
rappresenta la forma quadratica Q, rispetto la base V, la matrice che rappresenta
la forma bilineare simmetrica24 B associata alla forma quadratica Q, rispetto
la stessa base, è


a11 a212 . . . a21n
a
a
2n 
 12 a22 . . .
2
 2

MV (B) = 
.
.
.
 ... ...
. ... 
a1n
a2n
. . . ann
2
2
Nel caso di una forma hermitiana H la rappresentazione in coordinate della
forma H-quadratica associata è data da
QH (v) =
n
n X
X
i=1 j=1
xi xj H(vi , vj ) =
n
X
QH (vi )|xi |2 +2
n
n
X
X
Re(H(vi , vj )xi x̄j ).
i=1 j=i+1
i=1
La matrice associata a una forma bilineare (sesquilineare) dipende dalla base.
Vediamo le relazioni che sussistono fra due matrici associate alla stessa forma
rispetto due basi diverse. Sia V 0 = {v10 , . . . ,P
vn0 } un’altra base P
di V . Nella nuova
n
n
base i vettori v, w si rappresentano v = i=1 x0i vi0 e w = j=1 yj0 vj0 . Dalle
formule di cambiamento di coordinate abbiamo
x = MVV 0 (id)x0
y = MVV 0 (id)y0
Da cui
B(v, w) = xt MV (B)y =
(MVV 0 (id)x0 )t MV (B)MVV 0 (id)y0 =
t
0
x0t MVV
0 (id)MV (B)MVV 0 (id)y
d’altra parte
B(v, w) = x0t MV 0 (B)y0
pertanto
t
0
x0t MV 0 (B)y0 = x0t MVV
0 (id)MV (B)MVV 0 (id)y
che, valendo per ogni x0 e y0 , implica
t
MV 0 (B) = MVV
0 (id)MV (B)MVV 0 (id).
24 in
qualche libro tale forma si chiama forma polare associata alla forma quadratica
38
Analogamente, nel caso sesquilineare, otteniamo
t
MV 0 (H) = MVV
0 (id)MV (H)MVV 0 (id).
Definizione 3.4 Due matrici A, B ∈ Mnn (K) si dicono congruenti se esiste
una matrice M ∈ GLn (K) tale che
A = M t BM.
Definizione 3.5 Due matrici A, B ∈ Mnn (C) si dicono H-congruenti se esiste
una matrice M ∈ GLn (C) tale che
A = M t B M̄ .
Le relazioni di congruenza e H-congruenza sono di equivalenza. Verifica per
esercizio.
Abbiamo dunque provato che
Proposizione 3.2 Le matrici associate alla stessa forma bilineare (sesquilineare) rispetto a due basi diverse sono congruenti (H-congruenti).
La definizione di H-congruenza (3.5) è spesso presentata con la condizione
A = M̄ t BM , che è del tutto equivalente, perché se M soddisfa la condizione
della (3.5), allora M̄ soddisfa la variante su esposta.
Proposizione 3.3 Il rango della matrice associata a una forma bilineare (sesquilineare) non dipende dalla base scelta.
Dim. Moltiplicando una matrice per una matrice invertibile non si altera il
rango e del resto il rango non viene alterato dalle operazioni di trasposizione e
di coniugio di una matrice.
Proposizione 3.4 Il determinante di una matrice associata a una forma hermitiana è reale.
Dim. La matrice associata a una forma hermitiana è una matrice hermitiana,
cioè A = Āt . Da cui
det(A) = det(Āt ) = det(At ) = det(A).
Definizione 3.6 Se il rango di una forma bilineare (o sesquilineare) è minore
della dimesione di V allora la forma si dice degenere.
Proposizione 3.5 Una forma bilineare B è non degenere se e solo se
∀v 6= 0
∃w
B(v, w) 6= 0
(o, equivalentemente, ∀w 6= 0 ∃v B(v, w) 6= 0.
Stessa cosa per una forma sesquilineare H.
39
(24)
Dim. La forma B in coordinate, rispetto a una base V, si rappresenta xt Ay,
dove x e y sono vettori colonna che rappresentano le coordinate di v e w ed
A = MV (B). B è non degenere se e solo se det(A) 6= 0.
• B non degenere ⇒ (24)
Da v 6= 0 segue x 6= 0 e questo implica rk(xt ) = 1; poiché il prodotto per
una matrice invertibile non altera il rango, abbiamo rk(xt A) = 1; quindi
(xt A) non è il vettore riga nullo e avrà una sua componente diversa da
zero. Sia per semplicità la prima componente diversa da zero, allora il
vettore y che ha la prima componente uguale a 1 e tutte le altre nulle è
tale che xtAy 6= 0. Posto w = Vy, abbiamo B(v, w) 6= 0.
• (24) ⇒ B non degenere
Se vale la (24), allora per ogni x 6= 0, esiste y tale che xt Ay 6= 0; pertanto,
per ogni x 6= 0, xt A 6= 0 ed trasponendo per ogni x 6= 0, At x 6= 0 . Il
che significa che il sistema At x = 0 ha solo la soluzione banale e questo è
possibile se e solo se det(A) 6= 0. Dunque B è non degenere.
3.3
Forme bilineari simmetriche e forme hermitiane
Le definizione che seguono vengono enunciate per una forma bilineare simmetrica, ma valgono, sostituendo H a B, anche per una forma hermitiana.
La scelta di una forma bilineare simmetrica B (hermitiana H) permette di
introdurre la nozione di perpendicolarità nello spazio vettoriale V .
Definizione 3.7 Siano v, w ∈ V . v si dice ortogonale a w (si scrive v ⊥ w),
se B(v, w) = 0.
Definizione 3.8 Sia S ⊂ V un sottoinsieme. Si definisce
S ⊥ := {v ∈ V |B(v, w) = 0, ∀w ∈ S}.
É facile verificare che S ⊥ è un sottospazio vettoriale.
Definizione 3.9 Siano U, W, ⊂ V sottospazi. Si dice che U è perpendicolare a
W ( U ⊥ W ) se U ⊂ W ⊥ .
É immediato verificare che U ⊥ W ⇔ W ⊥ U . Il vettore nullo è ortogonale
a ogni vettore dello spazio e se la forma è non degenere esso è l’unico vettore
ortogonale a tutti i vettori di V .
Definizione 3.10 Un vettore v ∈ V si dice isotropo se B(v, v) = Q(v) = 0
(H(v, v) = QH (v) = 0).
40
Il vettore nullo è un vettore isotropo e se la forma è degenere ci sono molti vettori
isotropi, ma anche nel caso di forme bilineari non degeneri possono esistere
vettori isotropi. Per esempio, per
B : C×C
(x, y)
il vettore
1
i
è isotropo. Ed anche per
B : R×R
(x, y)
il vettore
1
0
→ C
7
→
xt y
→
R 0 1
7→ xt
y
1 0
è isotropo.
Definizione 3.11 Sia v non isotropo. Si definisce il coefficiente di Fourier di
w rispetto v, lo scalare
B(w, v)
,
av (w) :=
B(v, v)
analoga definizione per una forma hermitiana H
av (w) :=
H(w, v)
.
H(v, v)
Si ha
B(v, w − av (w)v) = B(v, w) −
B(w, v)
B(v, v) = 0.
B(v, v)
Analogamente per una forma hermitiana
H(v, w − av (w)v) = H(v, w) −
H(w, v)
H(v, v)
H(v, v) = 0.
Da cui, sia nel caso bilineare simmetrico sia nel caso hermitiano, w − av (w)v ∈
{v}⊥ . Poiché , w = av (w)v + (w − av (w)v), e i soli vettori che appartengono
al proprio ortogonale sono i vettori isotropi, possiamo concludere che, se v è un
vettore non isotropo,
V = span{v} ⊕ v⊥ .
(25)
Definizione 3.12 Una base {v1 , . . . , vn } si dice ortogonale se B(vi , vj ) = 0,
(H(vi , vj ) = 0) ogni qual volta i 6= j.
Ne segue che la matrice associata a una forma bilineare (hermitiana) rispetto
una base ortogonale è diagonale.
Prima di provare che esistono basi ortogonali, dimostriamo il seguente
Lemma Ogni forma bilineare B (hermitiana H) non nulla ha almeno un vettore
non isotropo.
41
Dim. Poiché B (H) è non nulla, esistono v, w ∈ V , tali che B(v, w) 6= 0
(H(v, w) 6= 0). Nel caso bilineare simmetrico per la (22) possiamo concludere
che almeno uno fra i tre vettori v, w, v+w, è non isotropo. Nel caso hermitiano
per la (23) possiamo concludere che almeno uno fra i quattro vettori v, w, v+w,
v + iw è non isotropo.
Proposizione 3.6 Sia B (H) una forma bilineare simmetrica (hermitiana).
Esiste una base ortogonale.
Dim. La dimostrazione per induzione non presenta differenze fra il caso simmetrico da quello hermitiano.
Se B è la forma nulla allora ogni base è ortogonale. Se B non è identicamente nulla, procediamo per induzione sulla dimensione di V . Se dim V = 1 la
proposizione è banale.
Assumiamo l’esistenza di una base ortogonale per ogni spazio vettoriale V
di dimensione n − 1. Sia v1 un vettore non isotropo(esiste per il lemma). Per
la (25)
V = span{v1 } ⊕ v1⊥ .
ovviamente B|v1⊥ è ancora bilineare simmetrica. Sia {v2 , . . . , vn } una base ortogonale di v1⊥ ; essa esiste perché dim(v1⊥ ) = n − 1. È facile verificare che
{v1 , v2 , . . . , vn } è una base ortogonnale di V .
Il teorema precedente mostra che per una forma bilineare o hermitiana,
esiste sempre una base rispetto la quale la matrice associata è diagonale. Ci
domandiamo se non sia possibile migliorare ulteriormente il risultato.
Trattiamo prima il caso di una forma B bilineare simmetrica sul campo C.
Proposizione 3.7 Sia B una forma bilineare simmetrica su uno spazio vettoriale complesso V di rango r. Esiste una base V, tale che
Ir 0
MV (B) =
0 0
Dim. Per la proposizione (3.6) sia V 0 = {v10 , . . . , vn0 } una base tale che la
matrice associata MV (B) sia diagonale. Poiché il rango è r, salvo un cambiamento dell’ordine dei vettori della base, posso supporre che i primi r elementi
della diagonale a11 , . . . , arr siano non nulli, mentre tutti gli altri sono 0. Abbiamo dunque che
B(v10 , v10 ) = a11 , . . . , B(vr0 , vr0 ) = arr ,
0
0
B(vr+1
, vr+1
) = 0, . . . , B(vn0 , vn0 ) = 0,
B(vi0 , vj0 ) = 0
42
per i 6= j
Se poniamo
vi =
√1 v0
aii i
vi0
1≤i≤r
r+1≤i≤n
√
dove aii è una delle due radici quadrate di aii , abbiamo che V = {v1 , . . . , vn }
è una base, perché ottenuta da V 0 tramite una matrice invertibile, e che MV (B)
è diagonale con
B(v1 , v1 ) = 1, . . . , B(vr , vr ) = 1, B(vr+1 , vr+1 ) = 0, . . . , B(vn , vn ) = 0.
Poiché sappiamo che il rango è un invariante delle forme bilineari simmetriche, seguendo gli stessi ragionamenti fatti per gli operatori, possiamo concludere
che due forme bilineari simmetriche complesse sono equivalenti, a meno di automorfismi di V, se e solo se hanno lo stesso rango e che quindi il rango classifica
le forme bilineari simmetriche complesse25 .
Poiché due matrici simmetriche complesse, rappresentano la stessa forma
bilineare rispetto basi diverse se e solo se sono congruenti, possimao concludere
che due matrici simmetriche complesse sono congruenti, se e solo se hanno lo
stesso rango.
Nel caso di una forma bilineare simmetrica reale, non possiamo arrivare allo
stesso risultato perché non sempre esiste la radice quadrata di un numero reale.
Abbiamo comunque l’importante
Proposizione 3.8 (Teorema di Sylvester)
Sia B una forma bilineare simmetrica su uno spazio vettoriale reale V di rango
r. Esistono numeri interi p, q, con p + q = r, e una base V, tale che


Ip
0
0
MV (B) =  0 −Iq 0 
0
0
0
Inoltre i numeri p, q, non dipendono dalla base, ma solo dalla forma.
Dim. Anche questa volta dalla proposizione (3.6), e salvo un riordinamento
dell’ordine dei vettori, sappiamo che esiste una base V 0 = {v10 , . . . , vn0 } tale che
la matrice associata MV (B) è diagonale, con i primi p termini della diagonale,
a11 , . . . , app , positivi, i secondi q termini, ap+1 p+1 , . . . , arr , negativi e i restanti
nulli. Abbiamo dunque che
B(v10 , v10 ) = a11 , . . . , B(vr0 , vr0 ) = arr ,
0
0
B(vr+1
, vr+1
) = 0, . . . , B(vn0 , vn0 ) = 0,
B(vi0 , vj0 ) = 0
25 ed
anche le forme quadratiche complesse
43
per i 6= j.
Se poniamo
vi =



√1 v0
aii i
√ 1
v0
−aii i
0
vi
1≤i≤p
p+1≤i≤r
r+1≤i≤n
abbiamo che V = {v1 , . . . , vn } è una base, perché ottenuta da V 0 tramite una
matrice invertibile, e che MV (B) è diagonale con
B(v1 , v1 ) = 1, . . . , B(vp , vp ) = 1
B(vp+1 , vp+1 ) = −1, . . . , B(vr , vr ) = −1
B(vr+1 , vr+1 ) = 0, . . . , B(vn , vn ) = 0.
Resta da provare che la coppia p, q non dipende dalla base. Sia pertanto V 00 =
{v100 , . . . , vn00 } un’altra base tale che
B(v100 , v100 ) = 1, . . . , B(vt00 , vt00 ) = 1
00
00
B(vt+1
, vt+1
) = −1, . . . , B(vr00 , vr00 ) = −1
00
00
B(vr+1
, vr+1
) = 0, . . . , B(vn00 , vn00 ) = 0
00
con p 6= t e supponiamo che t < p. Sia U = span{v1 , . . . vp } e W = span{vt+1
, . . . vn00 }.
Dal teorema di Grassmann abbiamo
dim U + dim W = dim(U ∩ W ) + dim(U + W )
p + (n − t) = dim(U ∩ W ) + dim(U + W ) ≤ dim(U ∩ W ) + n
1 ≤ p − t ≤ dim(U ∩ W ).
Per cui esiste un vettore non nullo v ∈ U ∩ W . Poiché v ∈ U ,
v = a1 v1 + . . . + ap vp ,
con a1 , . . . , ap non tutti nulli; e poiché v ∈ W ,
00
v = bt+1 vt+1
+ . . . + bn vn00 .
Dalla prima abbiamo
B(v, v) = a21 B(v1 , v1 ) + . . . + a2p B(vp , vp ) = a21 + . . . + a2p > 0
Mentre dalla seconda
B(v, v) = b2t+1 B(vt+1 , vt+1 ) + . . . + b2n B(vn , vn ) = −b2t+1 − . . . − b2t+r ≤ 0.
questo è assurdo e l’assurdo nasce dall’aver supposto t ≤ p.
44
Nel caso hermitiano abbiamo un teorema perfettamente analogo al teorema
di Sylvester. Anche la dimostrazione è identica, perché gli elementi della diagonale di una matrice hermitiana sono tutti reali.
Definizione 3.13 Si dice segnatura della forma bilineare simmetrica B (o della
forma hermitiana H) la coppia (p, q), corrispondente al numero dei termini
positivi e negativi che si trovano sulla diagonale di una matrice associata a B
(H), rispetto una base ortogonale.
La segnatura è dunque un invariante della forma bilineare simmetrica (hermitiana) e da una parte classifica le forme simmetriche reali (hermitiane) a meno
di automorfismi di V, e dall’altra classifica le matrici simmetriche reali (hermitiane) rispetto la relazione di congruenza (H-congruenza), nel senso che due
matrici sono congruenti (H-congruenti) se e solo se hanno la stessa segnatura.
Più spesso si parla di segnatura di una forma quadratica, riferendosi alla
segnatura della forma bilineare simmetrica associata.
Definizione 3.14 Una forma quadratica (hermitiana) di rango r su uno spazio
vettoriale V di dimensione n prende il seguente nome a seconda della segnatura
(n, 0)
definita positiva
(0, n)
definita negativa
(r, 0) con r < n
semidefinita positiva
(0, r) con r < n
semidefinita negativa
(p, q) con p > 0 e q > 0 indefinita
La ragione dei nomi delle forme quadratiche è dovuta al fatto che una forma
Q è definita positiva se e solo se Q(v) ≥ 0 e Q(v) = 0 ⇔ v = 0.
3.4
Prodotti scalari e prodotti hermitiani
Definizione 3.15 Una forma bilineare simmetrica con forma quadratica associata definita positiva su uno spazio vettoriale reale V si dice un prodotto scalare.
Definizione 3.16 Una forma hermitiana definita positiva su uno spazio vettoriale complesso V si dice un prodotto hermitano.
Supporremo nel seguito sempre definito un prodotto scalare o un prodotto hermitiano, che indicheremo, per ricordarci che è definito positivo, con
< v, w > .
Definizione 3.17 Si dice modulo (o norma) di un vettore v il numero
√
kvk := < v, v >
Proposizione 3.9 (Disuguaglianza di Schwartz)
| < v, w > | ≤ kvkkwk
e vale l’uguaglianza se e solo se v e w sono linearmente dipendenti.
45
Dim. Diamo la dimostrazione nel caso del prodotto hermitiano che presenta
qualche maggiore difficoltà. Se w = 0 il teorema è banale. Per ogni a, b ∈ C,
abbiamo
0 ≤ < av + bw, av + bw >= aākvk2 + bb̄kwk2 + 2Re(ab̄ < v, w >),
(26)
se poniamo a = kwk2 e b = − < v, w >, otteniamo
0 ≤ kwk4 kvk2 + | < v, w > |2 kwk2 + 2Re(−kwk2 | < v, w > |2 ) =
kwk4 kvk2 − | < v, w > |2 kwk2
da cui, dividendo per kwk2 e passando alla radice quadrata, otteniamo la disuguaglianza.
Infine se vale l’uguale ho che
0 =< kwk2 v− < v, w > w, kwk2 v− < v, w > w >
da cui, essendo il prodotto definito positivo, segue che kwk2 v− < v, w > w
è una combinazione lineare nulla non banale di v e w, quindi v e w sono
linearmente dipendenti. Viceversa, se v e w sono uno un multiplo dell’altro,
l’uguaglianza è di immediata verifica.
Dalla disuguaglianza di Schwartz, tanto nel caso reale quanto in quello hermitiano, seguono le seguenti proprietà
1. kvk ≥ 0,
kvk = 0 ⇐⇒ v = 0
2. kkvk = |k|kvk
3. kv + wk ≤ kvk + kwk
La dimostrazione delle prime due è banale, la terza nel caso hermitiano segue
da
kv + wk2 = kvk2 + 2Re < v, w > +kwk2 ≤
kvk2 + 2| < v, w > | + kwk2 ≤
kvk2 + 2kvkkwk + kwk2 =
(kvk + kwk)2 ,
e in maniera simile nel caso reale.
Uno spazio vettoriale dove vi sia una funzione norma, kvk, che soddisfi le tre
proprietà di cui sopra, si dice spazio normato. In uno spazio normato è possibile
definire una funzione distanza d, tramite
d(v, w) := kv − wk;
in effetti d soddisfa le proprietà
46
1. d(v, w) ≥ 0 e d(v, w) = 0 ⇐⇒ v = w
2. d(v, w) = d(w, v)
3. d(v, w) ≤ d(v, z) + d(z, w).
Pertanto, l’introduzione di un prodotto scalare o hermitiano in uno spazio vettoriale arricchisce la sua struttura facendolo diventare anche uno spazio
metrico.
3.5
Operatori ortogonali e unitari
Sia V uno spazio vettoriale di dimensione finita su C (su R) dove sia definita
un prodotto hermitiano (un prodotto scalare) .
Definizione 3.18 Un operatore T : V → V si dice unitario (ortogonale) se
< T (v), T (w) >=< v, w > .
Nelle proposizioni che seguono si faranno le dimostrazioni per il caso unitario,
ottenedosi le dimostrazioni del caso ortogonale in maniera del tutto simile, il
più delle volte , semplicemente omettendo il simbolo del coniugio.
Definizione 3.19 Una matrice A ∈ Mnn (C) si dice unitaria se At Ā = I ( o
equivalentemente AĀt = I)
Proposizione 3.10 Un operatore unitario (ortogonale) gode delle seguenti proprietà
1. conserva il modulo di un vettore
2. conserva la distanza di due vettori
3. trasforma basi ortonormali in basi ortonormali
4. è invertibile
5. la matrice associata all’operatore, rispetto a una base ortonormale, è ortogonale se l’operatore è ortogonale e unitaria se l’operatore è unitario.
Dim. Le proprietà 1), 2) e 3) sono immediata conseguenza della definizione. T
è invertibile perché è iniettivo, infatti T (v) = 0 implica
0 =< T (v), T (v) >=< v, v >
e questo implica v = 0. Infine proviamo l’ultima
Pn proprietà. Sia V = {v1 , . . . , vn }
una base ortonormale di V . Sia T (vi ) = k=1 aki vk , per cui la matrice associata a T , rispetto la base V, è
MV (T ) = (aki ) 1 ≤ k ≤ n .
1 ≤ i ≤ n
47
Abbiamo
δij =< vi , vj >=< T (vi ), T (vj ) >=
n
n
X
X
<
aki vk ,
ahj vh >=
k=1
n
X
k=1
aki
h=1
n
X
āhj < vk , vh >=
h=1
n
X
aki
k=1
n
X
n
X
aki ākj =
k=1
āhj δkh =
h=1
n
X
atik ākj
k=1
dove atik sono gli elementi della matrice trasposta (MV (T ))t ; pertanto
(MV (T ))t (MV (T )) = I,
cioè MV (T ) è una matrice unitaria.
Proposizione 3.11 Se λ è autovalore di un operatore unitario T (ortogonale),
allora |λ| = 1 (λ = ±1).
Dim. Sia v un autovettore relativo all’autovalore λ, abbiamo
< v, v >=< T (v), T (v) >=< λv, λv >= λλ̄ < v, v >,
da cui, essendo v 6= 0, segue la tesi.
Proposizione 3.12 Autovettori relativi a autovalori distinti di un operatore
unitario T (ortogonale) sono ortogonali fra loro
Dim. Siano v e w due autovettori relativi agli autovalori λ e µ, con λ 6= µ.
Abbiamo
< v, w >=< T (v), T (w) >=< λv, µw >= λµ̄ < v, w > .
Da cui, o λµ̄ = 1 o < v, w >= 0. Poiché, per la proposizione precedente,
µµ̄ = 1, non può essere anche λµ̄ = 1, altrimenti λ = µ. Dunque < v, w >= 0.
La seguente proposizione è vera per gli operatori unitari, ma non per gli
operatori ortogonali.
48
Proposizione 3.13 Sia T un operatore unitario. Esiste una base ortonormale
che diagonalizza T .
Dim. Dobbiamo determinare l’esistenza di una base ortonormale di autovettori.
La dimostrazione è per induzione sulla dimensione di V . Se dim V = 1 , il fatto
è banale. Supponiamo di averlo provato per gli spazi vettoriali di dimensione
n − 1 e apprestiamoci a dimostrarlo per gli spazi vettoriali di dimensione n.
Sia λ un autovalore di T ; esso esiste perché siamo sul campo C. Sia v1 un
autovettore unitario, relativo a λ.
Sia w ∈ v1⊥ , abbiamo
0 =< v1 , w >=< T (v1 ), T (w) >=< λv1 , T (w) >= λ < v1 , T (w) >= 0,
da cui, essendo λ 6= 0, segue che < v1 , T (w) >= 0. Dunque T (v1⊥ ) ⊆ v1⊥ .
Naturalmente
T|v1⊥ : v1⊥ → v1⊥
è ancora unitario e opera su uno spazio di dimensione n − 1: Per l’ipotesi
induttiva, esiste una base ortonormale di autovettori per T|v1⊥ , {v2 , . . . , vn }.
Risulta dunque che {v1 , v2 , . . . , vn } è una base ortonormale di autovettori di T .
3.6
Operatori simmetrici, teorema spettrale
Sia V uno spazio vettoriale di dimensione finita su R (su C) dove sia definito
un prodotto scalare (prodotto hermitiano) .
Definizione 3.20 Un operatore T : V → V si dice simmetrico (hermitiano)26
se
< T (v), w >=< v, T (w) >
Proposizione 3.14 La matrice associata a un operatore simmetrico (hermitiano), rispetto a una base ortogonale, è simmetrica (hermitiana).
Dim. Dimostrazione per un operatore
Pn hermitiano. Sia V = {v1 , . . . , vn } una
base ortonormale di V . Sia T (vi ) = k=1 aki vk , per cui la matrice associata a
T , rispetto la base V è
MV (T ) = (aki ) 1 ≤ k ≤ n .
1 ≤ i ≤ n
Abbiamo
< T (vi ), vj >=<
n
X
k=1
aki vk , vj >=
n
X
aki < vk , vj >=
k=1
n
X
aki δkj = aji ,
k=1
26 tali operatori vengono anche chiamati autoaggiunti, infatti si definisce aggiunto di un
operatore T un operatore G tale che
< T (v), w >=< v, G(w) >;
la teoria mostra che per ogni operatore T esiste uno e un solo aggiunto G.
49
similmente
< vi , T (vj ) >=< vi ,
n
X
akj vk >=
k=1
n
X
ākj < vi , vk >=
k=1
n
X
ākj δik = āij .
k=1
Poiché < T (vi ), vj >=< vi , T (vj ) >, abbiamo che aji = āij , da cui MV (T ) =
MV (T )t . Per un operatore simmetrico stessa prova senza il coniugio.
Premettiamo il seguente lemma alla dimostrazione del teorema spettrale.
Lemma Lo spettro di un operatore simmetrico (hermitiano) è totalmente reale;
ovvero il polinomio caratteristico dell’operatore si decompone nel prodotto di n
fattori lineari reali.
Dim. Esprimiamo l’operatore in termini di coordinate rispetto una base ortonormale. Sia V = {v1 , . . . , vn } una base ortonormale di V e sia MV (T ) la
matrice associata. Sia λ un autovalore complesso di MV (T ) e x un corrispondente autovettore27 di Cn . Abbiamo
MV (T )x = λx,
(27)
e, coniugando ambo i membri,
MV (T )x̄ = λ̄x̄.
Utilizzando ora la condizione che, MV (T ) è reale simmetrica nel caso dell’operatore
simmetrico, ovvero che MV (T ) è hermitiana nel caso di un operatore hermitiano,
otteniamo in ogni caso
MV (T )t x̄ = λ̄x̄,
quindi, moltiplicando a sinistra per xt
xt MV (T )t x̄ = xt λ̄x̄,
da cui,posto x = (x1 , . . . , xn ), utilizzando la (27), otteniamo
λ̄
n
X
x̄i xi = λ̄xt x̄ = xt MV (T )t x̄ = (MV (T )x)t x̄ = (λx)t x̄ = λ
i=1
n
X
x̄i xi .
i=1
Pn
Essendo x 6= 0, abbiamo i=1 x̄i xi 6= 0 e quindi λ = λ̄, cioè λ ∈ R. Pertanto
ogni autovalore di MV (T ) complesso è reale e dunque il polinomio caratteristico di MV (T ), che è uguale al polinomio caratteristico di T , si decompone nel
prodotto di fattori lineari reali.
Si osservi che di conseguenza il polinomio caratteristico di un operatore
hermitiano è reale.
27 nel caso T sia un operatore simmetrico, x rappresenta le componenti rispetto la base V,
di un autovettore relativo a λ dell’operatore complessificato TC .
50
Siamo ora in grado di dimostrare il teorema più importante di questo capitolo.
Proposizione 3.15 (Teorema spettrale — versione per gli operatori) Sia T un
operatore simmetrico (o hermitiano). Esiste una base ortonormale che diagonalizza T .
Dim. Dobbiamo determinare l’esistenza di una base ortonormale di autovettori.
La dimostrazione è per induzione sulla dimensione di V . Se dim V = 1 , il fatto
è banale. Supponiamo di aver provato il teorema per gli spazi di dimensione
n − 1 e apprestiamoci a dimostrarlo per gli spazi di dimensione n. Sia λ un
autovalore di T ; esso esiste per il lemma. Sia v1 un suo autovettore unitario.
Sia w ∈ v1⊥ , abbiamo
< v1 , T (w) >=< T (v1 ), w >=< λv1 , w >= λ < v1 , w >= 0.
Pertanto T (v1⊥ ) ⊆ v1⊥ . Naturalmente T|v1⊥ : v1⊥ → v1⊥ è ancora simmetrico
(hermitiano) e opera su uno spazio di dimensione n − 1. Per l’ipotesi induttiva, esiste una base ortonormale di autovettori per T|v1⊥ , {v2 , . . . , vn }. Risulta
dunque che {v1 , v2 , . . . , vn } è una base ortonormale di autovettori di T .
Il teorema spettrale ammette anche diverse letture se lo si esprime in termini
di matrici o in termini di forme bilineari. La versione per le matrici si ottiene
considerando che ogni matrice simmetrica A (hermitiana) definisce un’operatore
simmetrico (hermitiano) T : Rn → Rn (T : Cn → Cn ): l’operatore che mappa
x in Ax.
Proposizione 3.16 (Teorema spettrale — versione per le matrici) Sia A una
matrice simmetrica ( hermitiana). Esiste una matrice M ortogonale (unitaria)
che diagonalizza A, cioè tale che M −1 AM è diagonale.
Se M è ortogonale e M −1 AM è diagonale, allora anche M t AM è diagonale,
quindi la matrice simmetrica A non solo è simile ma è anche congruente a
una matrice diagonale. Se M è hermitiana e M −1 AM è diagonale, abbiamo
che M̄ t AM è diagonale, e ponendo N = M̄ , abbiamo che N t AN̄ è diagonale;
quindi la matrice hermitiana A non solo è simile ma è anche H-congruente a
una matrice diagonale.
Come conseguenza della osservazione precedente otteniamo che se (p, q) è
la segnatura di una matrice simmetrica (hermitiana), allora p rappresenta il
numero degli autovalori positivi e q rappresenta il numero degli autovalori negativi, contati entrambi con la dovuta molteplicità. Dalla stessa osservazione
segue anche la versione del teorema spettrale per le forme bilineari.
Proposizione 3.17 (Teorema spettrale — versione per le forme bilineari) Sia
B una forma bilinerare simmetrica (H una forma hermitiana). Esiste una base
ortonormale che diagonalizza B (H).
51
Quest’ultimo enuciato può essre cosı̀ riletto: se su uno spazio vettoriale V
sono date due forme bilinerai simmetriche (hermitiane) di cui una sia definita
positiva, allora esiste una base che diagonalizza entrambe.
52
4
Tensori
In tutto il capitolo supponiamo che V sia uno spazio vettoriale di dimensione n
sullo R , per quanto le considerazioni che si faranno valgono in genere anche su
C.
4.1
Spazio duale
Definizione 4.1 Un’applicazione lineare da σ : V → R si chiama funzionale
(lineare) o covettore.
La somma di due funzionali e il prodotto di un funzionale per una costante sono
definite da
(σ1 + σ2 )(v) := σ1 (v) + σ2 (v)
(kσ)(v) := k(σ(v))
Sono verifiche di routine controllare che la somma di due funzionali è un funzionale e che il prodotto di un funzionale per una costante è ancora un funzionale.
L’insieme di tutti i funzionali è uno spazio vettoriale rispetto le operazioni di
somma e prodotto per una costante, definite sopra (anche queste sono verifiche
di routine).
Come ogni applicazione lineare, un funzionale resta univocamente definito
quando si assegnino i valori che assume sui vettori di una base.
Definizione 4.2 Lo spazio vettoriale dei funzionali lineari su V si chiama spazio duale e si indica con V ∗ .
Proposizione 4.1 Se V ha dimensione finita, allora dim V ∗ = dim V .
Dim. Sia {e1 , . . . , en } una base di V , sia η i per 1 ≤ i ≤ n il funzionale su V
definito da
η i (ej ) = δji .
dove δji è la funzione ”delta di Kronecker”, che vale 1 se i = j e vale 0 se i 6= j.
{η 1 , . . . , η n } è una base di V ∗ . Infatti
1. sono linearmente indipendenti, perché da
n
X
ai η i = 0
i=1
segue che, applicando il funzionale a un qualunque vettore ej della base
di V , da un lato
n
X
ai η i (ej ) = 0(ej ) = 0
i=1
e dall’altro
n
X
i
ai η (ej ) =
i=1
n
X
ai δji = aj .
i=1
Da cui necessariamente aj = 0 per ogni j;
53
2. generano tutto V ∗ , perché , per ogni funzionale σ ∈ V ∗ , si ha
σ=
n
X
(σ(ei ))η i ,
i=1
infatti per dimostrare l’uguaglianza dei due funzionali basta verificarla sui
vettori di una base; cosı̀ facendo abbiamo per ogni ej
n
X
i=1
(σ(ei )η i )(ej ) =
n
X
σ(ei )η i (ej ) =
i=1
n
X
σ(ei )δji = σ(ej ).
i=1
Definizione 4.3 La base {η 1 , . . . , η n } di V ∗ si dice base duale della base {e1 , . . . , en }
di V .
Avendo V e V ∗ la stessa dimensione sono spazi vettoriali isomorfi, ma non vi è
un modo canonico di associare un funzionale a un vettore 28 , con ciò intendo dire
che bisogna ricorrere a un arbitraria scelta delle basi per definire un isomorfismo.
Notiamo invece che è possibile definire un isomorfismo canonico fra V e lo
spazio biduale (V ∗ )∗ . Definiamo
Φ : V → (V ∗ )∗
v 7→ Φ(v)
dove
Φ(v) : V ∗ → R
σ 7→ σ(v).
Lasciamo al lettore la verifica che Φ(v) è effettivamente un funzionale lineare su
V ∗ e che la Φ cosı̀ definita è lineare (basta applicare le definizioni); dimostriamo
invece che Φ è iniettiva. Se Φ(v) = 0, allora per ogni σ ∈ V ∗ , Φ(v)(σ) = 0;
cioè, per ogni σ ∈ V ∗ , σ(v) = 0 e questo è possibile solo se v = 0, infatti per
ogni v 6= 0 posso completare v in una base e considerare il funzionale che su v
assume il valore 1 e su tutti gli altri vettori della base il valore 0. Concludiamo
che Φ è un isomorfismo, perché V e (V ∗ )∗ hanno la stessa dimensione.
Come si vede per definire Φ non si è fatto uso di scelte di basi. Poiché ogni
vettore si comporta come un funzionale sullo spazio dei funzionali, identificando
v con Φ(v), possiamo concludere che non solo i covettori sono funzionali sullo
spazio dei vettori, ma anche i vettori sono funzionali sullo spazio dei covettori.
28 a meno che non si aumenti la struttura di V , introducendo un prodotto scalare, ma
discuteremo di considerazioni di questo tipo più avanti.
54
4.2
Convenzione di Einstein
La convenzione di Einstein è una convenzione che semplifica la notazione. Essa
prevede che:
1. i vettori di una base dello spazio vettoriale V , {e1 , . . . , en } si indiciano
con indici in basso,
2. i vettori della base duale {η 1 , . . . , η n } si indiciano con indici in alto,
3. le coordinate di un vettore si indiciano con indici in alto,
4. le coordinate di un covettore si indiciano con indici in basso,
5. si ometta il simbolo di sommatoria, se questa si riferisce a un indice che
si trova una volta un basso e una volta in alto,
6. ogni qualvolta si incontri uno stesso indice in alto e in basso in un prodotto
si intende che si deve effettuare una somma al variare di quell’indice fra 1
e la dimensione di V ,
7. si dispongono gli indici in alto o in basso in modo di evitare se possibile
di dover fare una sommatoria, rispetto a un indice ripetuto due volte in
basso (o in alto); se questa situazione dovesse essere inevitabile si mostra
esplicitamente il simbolo e l’indice di sommatoria,
8. usualmente in una formula che contiene un’uguaglianza un indice non ripetuto in basso (in alto) a sinistra dell’uguale deve comparire non ripetuto
in basso (in alto) anche a destra dell’uguale
Per quanto alcuni ritengano che dietro questa notazione non ci siano fatti
particolarmente rilevanti da un punto di vista scientifico29 , noi ne faremo uso
nelle pagine che seguono.
Pertanto la decomposizione di un vettore v rispetto alla base E = {e1 , . . . , en }
si scriverà
v = xj ej
(28)
piuttosto che
v=
n
X
xj ej
o v=
n
X
xj ej
j=1
j=1
Se E 0 = {e01 , . . . , e0n } è un’altra base avremo
v = x0i e0i
(29)
e le relazioni che danno il cambiamento di base nella forma
e0i = αij ej
29 ma
o ej = βji e0i
molti fisici matematici non sono d’accordo con questa opinione
55
(30)
mentre quelle che danno il cambiamento di coordinate (che si ricavano sostituendo le (30) nelle (28) e (29)) sono
xj = αij x0i
o x0i = βji xj .
(31)
Per ricollegare queste formule al nostro modo di rappresentare le matrici
cambiamento di base, osserviamo che
ME 0 E (id) = βji 1 ≤ i ≤ n
1 ≤ j ≤ n
e
MEE 0 (id) = αij
1 ≤ j ≤ n
1 ≤ i ≤ n
.
Infine il fatto che le due matrici sono una l’inversa dell’altra si rappresenta
αji βkj = δki
αji βik = δjk .
4.3
Definizione di tensore
La nozione di tensore può essere introdotta in modi diversi. Possiamo qui fare un
parallelo con la nozione di vettore (di cui comunque il tensore rappresenta una
generalizzazione). Il vettore può essere introdotto come terna (n-pla) di numeri,
come segmento orientato, come elemento di uno spazio vettoriale. Similmente un
tensore può essere introdotto come un pacchetto di numeri variamente indiciati,
come un’applicazione multilineare, o come un elemento del prodotto tensoriale
di spazi vettorali.
Utilizzeremo qui l’approccio che descrivere il tensore come un’applicazione
multilineare.
Definizione 4.4 Siano V1 , . . . , Vr spazi vettoriali su R. Un’applicazione F :
V1 × . . . × Vr → R si dice multilineare se è lineare in ciascuna delle variabili.
Formalmente per ogni indice i, per ogni a, b ∈ R e per ogni v, w ∈ Vi
F (v1 , . . . , vi−1 , av + bw, vi+1 , . . . , vr ) =
aF (v1 , . . . , vi−1 , v, vi+1 , . . . , vr ) + bF (v1 , . . . , vi−1 , w, vi+1 , . . . , vr )
Definizione 4.5 Si dice tensore sullo spazio vettoriale V di ordine covariante
r e ordine controvariante s (o di tipo (r, s)) un’applicazione multilineare
T : V ×, . . . , ×V × V ∗ ×, . . . , ×V ∗ → R
|
{z
} |
{z
}
r
Esempio 4.1 Ogni covettore σ ∈ V
sendo un funzionale lineare su V .
s
∗
è un tensore covariante di ordine 1, es-
56
Esempio 4.2 Avendo indentificato V con il suo biduale (V ∗ )∗ , anche ogni vettore v ∈ V è un tensore controvariante di ordine 1, essendo un funzionale su
V ∗.
Esempio 4.3 Ogni forma bilineare su V è un tensore covariante di ordine 2.
Esempio 4.4 Il determinante, inteso come funzione delle colonne di una matrice n × n è un tensore covariante di ordine n sullo spazio vettoriale Rn .
La somma di due tensori di tipo (r, s) e il prodotto di un tensore per uno
scalare sono definiti in modo analogo a quanto fatto per i covettori:
Definizione 4.6 Siano T, R tensori di tipo (r, s) e k scalare. Definiamo
(T +R)(v1 , . . . , vr , σ1 , . . . , σs ) := T (v1 , . . . , vr , σ1 , . . . , σs )+R(v1 , . . . , vr , σ1 , . . . , σs )
(kT )(v1 , . . . , vr , σ1 , . . . , σs ) := kT (v1 , . . . , vr , σ1 , . . . , σs ).
È verifica di routine che T + R e kT sono ancora tensori. È altrettanto verifica
di routine che l’insieme dei tensori di tipo (r, s) forma uno spazio vettoriale
rispetto le operazioni sopra definite. Lo indichiamo con Tsr (V ).
4.4
Il prodotto tensoriale
Definiamo un prodotto fra tensori, che a un tensore T di tipo (r, s) e uno T 0 di
tipo (r0 , s0 ), associa un tensore T ⊗ T 0 di tipo (r + r0 , s + s0 ).
Definizione 4.7
T ⊗ T 0 : V ×, . . . , ×V × V ∗ ×, . . . , ×V ∗ → K
{z
} |
{z
}
|
r+r 0
s+s0
T ⊗ T 0 (v1 , . . . , vr , vr+1 , . . . , vr+r0 , σ1 , . . . , σs , σs+1 , . . . , σs+s0 ) :=
T (v1 , . . . , vr , σ1 , . . . , σs )T 0 (vr+1 , . . . , vr+r0 , σs+1 , . . . , σs+s0 )
Sono verifiche di routine controllare che T +T 0 è un tensore, cioè un’applicazione
multilineare.
Il prodotto tensoriale gode delle proprietà
(T + T 0 ) ⊗ T 00 = T ⊗ T ” + T 0 ⊗ T ”
T ⊗ (T 0 + T 00 ) = T ⊗ T 0 + T ⊗ T ”
k(T ⊗ T 0 ) = (kT ) ⊗ T 0 = T ⊗ (kT ”)
pertanto
0
r+r
⊗ : Tsr × Tsr0 → Ts+s
0
è bilineare.
57
0
Il prodotto tensoriale è anche associativo, cioè
(T ⊗ T 0 ) ⊗ T ” = T ⊗ (T 0 ⊗ T ”)
e pertanto possiamo omettere le parentesi in un prodotto di tre tensori e, per
iterazione, definire anche il prodotto tensoriale di un numero maggiore di tensori;
in tal caso ⊗ si comporta come un’applicazione multilineare.
Sia {e1 , . . . , en } una base di V , e {η 1 , . . . , η n } la base duale di V ∗ .
Calcoliamo il tensore η i1 ⊗ η i2 ⊗ . . . ⊗ η ir su una qualunque r-pla di vettori
della base di V, ej1 , ej2 , . . . , ejr . Abbiamo
η i1 ⊗ η i2 ⊗ . . . ⊗ η ir (ej1 , ej2 , . . . , ejr ) = δji11 δji22 . . . δjirr ,
questo numero vale sempre 0, eccetto il caso in cui gli indici i1 , . . . , ir siano
rispettivamente uguali a j1 , . . . , jr , nel qual caso assume il valore 1.
Proposizione 4.2 L’insieme dei tensori {η i1 ⊗. . .⊗η ir }, al variare di i1 , . . . , ir
fra 1 e n forma una base dello spazio dei vettori covarianti di ordine r, T0r .
Dim. La dimostrazione della lineare indipendenza si fa testando la generica combinazione lineare dei tensori del nostro insieme sulla generica r-pla dei
vettori della base di V :
ai1 ,...,ir {η i1 ⊗ . . . ⊗ η ir } = 0
implica che per ogni r-pla (ej1 , . . . , ejr )
ai1 ,...,ir {η i1 ⊗ . . . ⊗ η ir }(ej1 , . . . , ejr ) = 0(ej1 , . . . , ejr ) = 0,
ma d’altra parte
ai1 ,...,ir {η i1 ⊗ . . . ⊗ η ir }(ej1 , . . . , ejr ) = ai1 ,...,ir δji11 . . . δjirr = aj1 ,...,jr ,
quindi per ogni r-pla (j1 , . . . , jr ), aj1 ,...,jr = 0.
Il fatto che {η i1 ⊗ . . . ⊗ η ir }, al variare di i1 , . . . , ir , generino tutto T0r segue
dal fatto che per ogni un tensore covariante di ordine r, T , vale la seguente
T = T (ei1 , . . . , eir )η i1 ⊗ . . . ⊗ η ir ,
(32)
la quale pure si dimostra testandola sulla generica r-pla dei vettori della base
di V , (ej1 , . . . , ejr ). Infatti
T (ei1 , . . . , eir )η i1 ⊗ . . . ⊗ η ir (ej1 , . . . , ejr ) =
T (ei1 , . . . , eir )δji11 δji22 . . . δjirr , =
T (ej1 , . . . , ejr )
58
In modo del tutto analogo, ricordando che i vettori della base di V , si comportano come funzionali sui vettori della base di V ∗ , si perviene a dimostrare
che
Proposizione 4.3 L’insieme dei tensori {ej1 ⊗. . .⊗ejs }, al variare di j1 , . . . , js
fra 1 e n forma una base dello spazio dei vettori controvarianti di ordine s, Ts0 .
e più in generale
Proposizione 4.4 L’insieme dei tensori {η i1 ⊗ . . . ⊗ η ir ⊗ ei1 ⊗ . . . ⊗ eis }, al
variare di i1 , . . . , ir e j1 , . . . , js fra 1 e n forma una base dello spazio dei vettori
con ordine di coovarianza r e e ordine di controvarianza s, Tsr .
Ne segue che
dim Tsr = nr+s .
4.5
Gli operatori come tensori di tipo (1, 1)
Denotiamo con End(V ) lo spazio vettoriale degli operatori su V . Esso ha dimensione n2 . Definiamo
Φ:
dove
End(V ) → T11 (V )
F
7→ Φ(F )
Φ(F ) : V × V ∗
(v, σ)
→
K
7
→
σ(F (v))
La bilinearità di Φ(F ) è conseguenza banale della linearità di F e di σ, il che ci
assicura che Φ(F ) è un tensore.
Proposizione 4.5 Φ è un isomorfismo canonico di spazi vettoriali
Dim. La linearità di Φ è conseguenza diretta delle definizioni.
Φ è iniettiva, infatti se Φ(F ) = 0, allora per ogni v ∈ V e per ogni σ ∈ V ∗ ,
σ(F (v)) = 0. Dal fatto che per ogni σ ∈ V , σ(F (v)) = 0, segue che F (v) = 0,
e poiché questo vale per ogni v ∈ V , allora F è l’operatore nullo.
Infine, avendo End(V ) e T11 (V ) la stessa dimensione, si conclude che Φ è
un isomorfismo, che si dice canonico, perché la sua definizione non dipende da
scelte arbitrarie, quali potrebbe essere la scelta di una base.
In matematica, quando vi è un isomorfismo canonico, si è soliti identificare
i due spazi vettoriali. Ne segue che ogni operatore lineare T : V → V viene
interpretato come un tensore con ordine di covarianza 1 e controvarianza 1 e
viceversa un tensore di tipo 1-1 può essere interpretato come operatore lineare.
59
4.6
Tensori e cambiamenti di base
Siano {e1 , . . . , en }, {e01 , . . . , e0n } due basi di V e {η 1 , . . . , η n }, {η 01 , . . . , η 0n } le
rispettive basi duali.
Abbiamo già scritto le relazioni relative ai cambiamenti di base (30)
e0i = αij ej
ej = βji e0i
(33)
con
αij βjk = δik .
(34)
Consideriamo il covettore βji η j e applichiamolo al vettore e0k . Applicando le
(33) e (34) e la definizione di base duale, per cui η j (eh ) = δhj , abbiamo
βji η j (e0k ) = βji η j (αkh eh ) = αkh βji η j (eh ) = αkh βji δhj = αkh βhi = δki .
Poiché, d’altra parte, η 0i (e0k ) = δki ne segue che η 0i e βji η j assumono gli stessi
valori sui vettori di una base di V , pertanto
η 0i = βji η j .
(35)
La (35) rappresenta la formula di cambiamento di base per la base duale30 .
Si osservi che la matrice che permette di passare dalla base {η 1 , . . . , η n } alla
base {η 01 , . . . , η 0n } è l’inversa31 di quella che occorre per passare dalla base
{e1 , . . . , en } alla base {e01 , . . . , e0n }.
Dalla (35) seguono poi le relazioni per il cabiamento di base nell’ordine
inverso
η j = αij η 0i .
(36)
Si calcolano, poi, le relazioni per i cambiamenti di coordinate; se un covettore è
rappresentato in due basi diverse da σ = si η i = s0j η 0j abbiamo
si = βij s0j
s0j = αji si
(37)
I covettori si dicono covarianti, perché le loro coordinate variano, al cambiare
della base di V , e conseguentemente al cambiare della base duale, con la matrice
di cambiamento di base di V ; mentre i vettori si dicono controvarianti, perché
le loro coordinate variano, al cambiare di base, con la matrice inversa rispetto
a quella del cambiamento di base, come mostrato in (31).
Si scriva un tensore T covariante di ordine r come combinazione lineare dei
vettori della base {η j1 ⊗ . . . ⊗ η jr } di T0r
T = tj1 ...jr η j1 ⊗ . . . ⊗ η jr
(38)
30 Si noti come nelle sostituzioni effettuate per dimostrare la formula (35), talvolta, abbiamo
dovuto cambiare il nome degli indici al fine di evitare ripetizioni indesiderate.
31 esattamente l’inversa se si conviene di rappresentare la base duale come un vettore colonna,
e leggere la (35) come un prodotto fra matrici (che è la scelta preferibile), e la trasposta
dell’inversa se si conviene di rappresentare la base duale come un vettore riga.
60
e come combinazione de vettori della base {η 0i1 ⊗ . . . ⊗ η 0ir }
T = t0i1 ...ir η 0i1 ⊗ . . . ⊗ η 0ir .
(39)
Sostituendo la (35) nella (39) abbiamo
T = t0i1 ...ir (βji11 η j1 ) ⊗ . . . ⊗ (βjirr )η jr = t0i1 ...ir βji11 . . . βjirr η j1 ⊗ . . . ⊗ η jr
(40)
e confrontando questa con la (38) otteniamo che le coordinate dei tensori covarianti di ordine r variano al cambiare della base di V (e conseguentemete al
cambiare della base di V ∗ ) in un verso secondo la formula
tj1 ...jr = βji11 . . . βjirr t0i1 ...ir
(41)
e nell’altro secondo la formula
t0i1 ...ir = αij11 . . . αijrr tj1 ...jr
(42)
In modo analogo se si scrive un tensore controvariante T di ordine s come
combinazione lineare dei vettori delle basi {ej1 ⊗ . . . ⊗ ejs } e {e0i1 ⊗ . . . ⊗ e0is }
di Ts0 :
T = tj1 ...js ej1 ⊗ . . . ⊗ ejs = t0i1 ...is e0i1 ⊗ . . . ⊗ e0is ,
otteniamo le formule di cambiamento delle coordinate di un tensore controvariante
tj1 ...js = αij11 . . . αijss t0i1 ...is
t0i1 ...is = βji11 . . . βjiss tj1 ...js
(43)
Infine un tensore T r-volte covariante e s-volte controvariante si rappresenta
rispetto la base {η j1 ⊗ . . . ⊗ η jr ⊗ ek1 ⊗ . . . ⊗ eks } di Tsr
...ks j1
T = tkj11...j
η ⊗ . . . ⊗ η jr ⊗ ek1 ⊗ . . . ⊗ eks
r
e rispetto la base {η 0i1 ⊗ . . . ⊗ η 0ir ⊗ e0h1 ⊗ . . . ⊗ e0hs } di Tsr
1 ...hs 0i1
⊗ . . . ⊗ η 0ir ⊗ e0h1 ⊗ . . . ⊗ e0hs
T = t0h
i1 ...ir η
da cui le formule di cambiamento di coordinate di un tensore misto di tipo (r, s),
...ks
1 ...is
tkj11...j
= αik11 . . . αikss βjh11 . . . βjhrr t0i
h1 ...hr
r
(44)
jr k1 ...ks
i1
is j1
1 ...is
t0i
h1 ...hr = βk1 . . . βks αh1 . . . αhr tj1 ...jr
(45)
Si osservi come nelle coordinate (o componenti) di un tensore gli indici di
covarianza siano quelli in basso e gli indici di controvarianza siano quelli in alto.
61
4.7
Collegamenti con il calcolo differenziale
In molte applicazioni le matrici che intervengono nel calcolo tensoriale sono la
matrice jacobiana e la sua inversa. Vediamo il perché.
La prima e immediata osservazione è che se
y = Ax
è un’applicazione lineare da Rn in sé , allora A coincide con la matrice jacobiana
di questa applicazione,
i
∂y
A=
∂xj 1 ≤ i ≤ n
1 ≤ j ≤ n
Possiamo applicare lo stesso concetto alla matrice cambiamento di coordinate
(31), per cui, posto che v si scriva v = xi ei nella base {e1 , . . . , en } e v = x0j e0j
nella base {e01 , . . . , e0n }, abbiamo
x0j =
∂x0j i
x
∂xi
xi =
∂xi 0j
x
∂x0j
(46)
Pertanto le matrici di cambiamento di coordinate utilizzate in tutte le formule sui tensori possono essere sostituite dalla matrice jacobiana e la sua inversa:
i
∂x
αji 1 ≤ i ≤ n =
1 ≤ j ≤ n
∂x0j 1 ≤ i ≤ n
1 ≤ j ≤ n
βji
1 ≤ i ≤ n
1 ≤ j ≤ n
=
0i
∂x
∂xj
.
1 ≤ i ≤ n
1 ≤ j ≤ n
Le (46) hanno il vantaggio, rispetto alle (31), di evitare ogni possibile confusione fra la matrice cambiamento di coordinate e la sua inversa. Cosı̀ la formula
generale di cambiamento di base per i tensori si scrive senza possibilità di equivoci
...ks
tkj11...j
=
r
∂xk1
∂xks ∂x0h1
∂x0hr 0i1 ...is
.
.
.
.
.
.
t
∂x0i1
∂x0is ∂xj1
∂xjr h1 ...hr
(47)
∂x0i1
∂x0is ∂xj1
∂xjr k1 ...ks
.
.
.
.
.
.
t
(48)
k
k
0h
∂x 1
∂x s ∂x 1
∂x0hr j1 ...jr
Ma vi è una ragione più profonda nel rappresentare con la jacobiana la
matrice cambiamento di coordinate.
Ad ogni vettore v = ai ei dello spazio dei vettori applicati in un punto
∂
x0 ∈ Rn , si può associare l’operatore differenziale ai ∂x
i , che ad ogni applicazione
∞
f ∈ C (U ), dove U è un intorno di x0 , associa la derivata direzionale32 (nella
1 ...is
t0i
h1 ...hr =
32 dovremmo
scrivere
∂
,
∂xi |x0
ma in tutti gli operatori differenziali che seguiranno eviteremo
di mettere il simbolo di |x0 che significa calcolato in x0 perché non avremo ragione di cambiare
il punto di applicazione dei vettori.
62
direzione di v) di f in x0 ,
n
X
ai
i=1
∂f
.
∂xi
Adottata questa identificazione fra operatori e vettori applicati, i vettori
della base di V , {e1 , . . . , en }, sono rappresentati dagli operatori differenziali
∂
∂
{ ∂x
1 , . . . , ∂xn }.
∂
∂xj
Conveniamo che, nelle espressioni del tipo ∂x
i o ∂xi , gli indici delle variabili
che si trovano sotto la linea di frazione siano da considerarsi indici in basso. La
formula di cambiamento di base è data ora da
∂xj ∂
∂
=
.
∂x0i
∂x0i ∂xj
Anche i covettori hanno un’interessante lettura in termini di calcolo differenziale.
Il differenziale di una funzione f ∈ C ∞ (U ), nel punto x0 ∈ Rn , si indica
con df|x0 (ma noi scriveremo semplicemente df ) ed è definito come il funzionale
lineare che a ogni vettore v applicato in x0 ∈ Rn associa la derivata direzionale
∂
di f rispetto a v in x0 . Cioè se v = ai ei = ai ∂x
i
(df )(v) = df (ai
∂
∂f
) = ai i
i
∂x
∂x
I differenziali delle funzioni coordinate, dxi , . . . , dxn , risultano essere i vettori
della base duale, perché
∂xi
∂
= δji .
dxi ( j ) =
∂x
∂xj
Le formula di cambiamento di base per la base duale risulta coincidere con
la formula di differenziazione di funzione composta.
dx0j =
4.8
∂x0j i
dx .
∂xi
Una definizione alternativa di tensore
Le formule di cambiamento di coordinate per i tensori (47), (48) sono spesso
utilizzate per definire i tensori. In questo approccio la definizione di tensore è
seguente33
Definizione 4.8 Si dice tensore (o campo tensoriale) di tipo (r,s) un oggetto
...ks
definito da un insieme di numeri tkj11...j
in un sistema di coordinate arbitrarie
r
1
n
(x , . . . , x ), la cui espressione numerica dipende dal sistema di coordinate secondo la seguente relazione: se è xk = xk (x01 , . . . , x0n ), x0j = x0j (x1 , . . . , xn ),
con x0 (x(x0 )) = x0 , vale la formula di trasformazione
33 la definizione esposta è tratta da Novikov, Dubronik, Fomenko,Geometria contemporanea
1, con qualche adattamento alle notazioni da noi usate.
63
...ks
=
tkj11...j
r
∂xk1
∂xks ∂x0h1
∂x0hr 0i1 ...is
. . . 0is
...
t
0i
j
1
1
∂x
∂x ∂x
∂xjr h1 ...hr
k1 ...ks
0
1 ...is
in cui t0i
h1 ...hr è l’espressione numerica del tensore nelle coordinate (x ) e tj1 ...jr
l’espressione numerica del tensore nelle coordinate (x); tutti gli indici variano
da 1 a n , essendo n la dimensione dello spazio considerato.
4.8.1
La definizione di tensore data in funzione delle coordinate varia, nel suo significato, in funzione dei sistemi di coordinate ammessi. Se ad esempio siamo in
uno spazio euclideo, (spazio vettoriale di dimensione finita dotato di prodotto
scalare), è logico assumere solo riferimenti ortonormali. In questo caso le matrici
cambiamento di coordinate sono ortogonali e pertanto 34
∂x0j
∂xi
=
(49)
∂x0j
∂xi
Non vi è dunque modo di distinguere un vettore da un covettore basandosi sul
comportamento delle sue componenti al variare della base fra un insieme di basi
ortonormali. È per questo motivo che, talvolta, nell’algebra tensoriale in spazi
euclidei non si fa differenza fra vettori e covettori, fra ordine di covarianza e
ordine di controvarianza.
Chiariamo questi concetti con un esempio. Supponete che abbiate descritto
un fenomeno fisico per mezzo di tre numeri (t(1), t(2), t(3)) che dipendono dal
sistema di coordinate usato nello spazio, dove di proposito ho messo gli indici in
linea. Questa terna rappresenta un vettore, un covettore o altro? Metto l’indice
in alto o in basso? Si ha la risposta guardando come cambiano questi numeri
al cambiare del riferimento. Se, in un altro riferimento, con la stessa origine, il
fenomeno è descritto da (t0 (1), t0 (2)0 , t0 (3)) e avete
t(i) =
3
X
∂xi 0
t (j)
∂x0j
j=1
(50)
e questo vale qualunque sia il secondo riferimento scelto, allora stabilite che
si tratta di un vettore controvariante e scrivete gli indici in alto. Se, invece, in un altro riferimento, con la stessa origine, il fenomeno è descritto da
(t0 (1), t0 (2)0 , t0 (3)) e avete
3
X
∂x0j 0
t(i) =
t (j)
(51)
∂xi
j=1
e questo vale qualunque sia il secondo riferimento scelto, allora stabilite che si
tratta di un vettore covariante (o covettore) e scrivete gli indici in basso. Se,
34 si noti come nella formula l’indice in alto a sinistra è uguale all’indice in basso a destra e
l’indice in basso a sinistra è uguale all’indice in alto a destra!
64
infine, esiste un riferimento, per cui non vale (50) e un riferimento per cui non
vale (51) allora stabilite che si tratta di altro.
Ma è probabile che gli unici sistemi di riferimento rispetto ai quali possiate
(o siate interessati) a descrivere il fenomeno, siano sistemi ortogonali, in tal caso,
per la (49), non vi è differenza fra la (50) e la (51). In questo caso parlerete solo
di vettore (ovvero tensore del primo ordine) senza distinguere tra covarianza e
controvarianza.
4.8.2
Notiamo come la definizione di tensore data tramite le coordinate, che utilizza
la matrice jacobiana, si presta a essere estesa anche a cambiamenti di coordinate
non lineari, purché abbiano siano di classe almeno C 1 e con matrice jacobiana
non nulla. È il caso delle coordinate polari: se vogliamo esprimere in coordinate
polari un tensore sullo spazio vettoriale dei vettori applicati in un punto P del
piano diverso dall’origine, dovremo utilizzare, per passare dalla rappresentazione
in coordinate cartesiane a quella in coodinate polari, la matrice jacobiana delle
formule di cambiamento di coordinate (4).
La cosa assume particolare importanza quando si voglia fare del calcolo tensoriale su superficie curve (e più in genererale su varietà differenziali). In questo
caso le funzioni di cambiamento di coordinate fra diversi sistemi di coordinate
locali sono generalmente non lineari.
Un approccio indipendente dalle coordinate per definire tensori su oggetti
geometrici diversi da Rn , le varietà differenziali, comporta, in primo luogo la
necessità di definire lo spazio dei vettori tangenti in modo intrinseco, cioè senza
ricorrere a un’immersione dell’oggetto in uno spazio euclideo. In tale contesto si
utilizzano come definizione dei vettori applicati in un punto (i cosiddetti vettori
tangenti) gli operatori differenziali, che soddisfano la regola di Leibnitz quando
sono applicati a un prodotto di funzioni. La geometria differenziale si occupa
dello sviluppo di questi concetti.
4.8.3
∂f
1
Osserviamo come la definizione di differenziale di una funzione df = ∂x
1 dx +
∂f
. . . + ∂xn dxn e la definizione di gradiente
di una funzione, che comunemente
∂f
∂f
si trova sui testi di analisi, ∇f = ∂x
, corrispondano allo stesso
1 , . . . , ∂xn
tensore letto nei due diversi approcci: applicazione lineare o insieme indiciato
di numeri. Del differenziale abbiamo già detto; il gradiente, invece, è una n-pla
di numeri che varia al cambiare delle coordinate secondo la regola
∂f
∂f ∂x0j
=
∂xi
∂x0j ∂xi
e che è dunque un covettore ai sensi dell’ultima definizione.
Nel differenziale abbiamo l’espressione della decomposizione del covettore
nella base duale, mentre nel gradiente si rappresentano solo le componenti.
65
In genere si richiede che il gradiente risulti un vettore controvariante e non
un vettore covariante; la cosa non presenta inconvenienti se si utilizzano esclusivamente riferimenti ortonormali, ma dobbiamo apportare una correzione alla
definizione di gradiente se vogliamo esprimerlo anche in altre ccordinate.
Indichiamo i titoli di quelli che potrebbero essere i successivi argomenti di
algebra tensoriale
4.9
L’isomorfismo canonico indotto dal prodotto scalare
fra V e V ∗
4.10
La contrazione degli indici
4.11
Il prodotto esterno
4.12
Pullback dei tensori covarianti
66