Teoria della relativit`a ristretta. Parte seconda: particella in campo

Capitolo 6
Teoria della relatività ristretta.
Parte seconda: particella in
campo elettromagnetico
(trattazione covariante)
6.1
Le equazioni di Maxwell e i potenziali elettromagnetici
Nel capitolo precedente abbiamo discusso in maniera elementare (seguendo sostanzialmente la esposizione divulgativa di Einstein) la cinematica relativistica,
mostrando in particolare come il principio di costanza della velocità della luce
conduce a postulare che lo spaziotempo è munito di un opportuno prodotto scalare
pseudoeuclideo. Abbiamo poi mostrato come questa geometrizzazione dello spaziotempo induca spontaneamente (attraverso il principio di Hamilton dell’azione
stazionaria) a fornire una espressione per la lagrangiana della particella libera, la
cui conseguenza più rilevante è che esiste per ogni particella una energia a riposo,
data dalla celebre formula di Einstein E = mc2 . Questi argomenti corrispondono sostanzialmente a quelli discussi nell’articolo del 1905 di Einstein: la cinematica nella prima parte (paragrafi da 1 a 5), la dinamica nell’ultimo paragrafo, il
decimo.1 )
Nel presente capitolo ci occupiamo invece, almeno parzialmente, dell’analogo
della seconda parte dell’articolo originario di Einstein (paragrafi dal 6 al 9), che è
dedicata all’elettrodinamica. La trattazione viene qui svolta a due livelli. In una
1 Si osservi però che la trattazione della dinamica da parte di Einstein è alquanto diversa da quella
che è stata svolta qui, seguendo Planck e Levi–Civita. Si noti in particolare che la relazione E = mc2
viene data da Einstein non nell’originario articolo del 1905, dal titolo L’elettrodinamica dei corpi
in movimento, ma in una brevissima nota successiva, dal titolo L’inerzia di un corpo dipende dal
suo contenuto di energia?, in cui si fa un uso essenziale delle proprietà del campo elettromagnetico,
anziché della pura dinamica di una particella.
257
258
Andrea Carati e Luigi Galgani
prima parte la trattazione viene svolta a livello “elementare”, ovvero senza fare ricorso al calcolo tensoriale, come d’altra parte avviene nella trattazione di Einstein.
Preliminarmente, verranno forniti dei richiami sulle equazioni di Maxwell in modo
da costruire un ponte con la trattazione familiare allo studente dai corsi di Fisica
Generale.
In una seconda parte le equazioni di Maxwell e le equazioni di moto per una
particella in campo elettromagnetico vengono poi discusse con i metodi del calcolo
tensoriale (che Einstein utilizzò in una fase successiva, quando ne ebbe bisogno per
formulare la relatività generale). È ovvio che questa trattazione richiederebbe dunque un lungo excursus di tipo geometrico sul calcolo tensoriale, che nel presente
corso non abbiamo la possibilità di svolgere in maniera completa. Si deve dunque
compiere un difficile compromesso. Siamo fiduciosi che la scelta qui compiuta
possa risultare positiva.
6.1.1
Le equazioni di Maxwell (con sorgenti assegnate)
Le equazioni di Maxwell (1873) costituiscono un miracolo della storia della fisica,
sı̀ da fare esclamare enfaticamente a Boltzmann, citando il Faust di Goethe: “War
es ein Gott welcher diese Zeichen schrieb ?” (Fu un Dio che scrisse queste righe
?). Esse compendiano in linea di principio tutto l’elettromagnetismo. In particolare, il termine descrivente la “corrente di spostamento”, introdotto da Maxwell
per puri motivi di consistenza interna della teoria, fa sı̀ che le equazioni prevedano
l’esistenza di onde elettromagnetiche nel vuoto, che si propagano esattamente con
la velocità della luce c, sicché l’ottica stessa viene ridotta a fenomeno elettromagnetico. La propagazione di onde elettromagnetiche con frequenze di gran lunga
inferiori a quelle ottiche venne successivamente osservata da Hertz (su suggerimento di Helmholtz), e questo fatto diede poi origine a tutte le applicazioni che
ben conosciamo: la radio, la televisione...2
È noto che in elettromagnetismo si considerano quattro campi descritti dai vettori E, D, B, H, che però nel vuoto si riducono a due soli, perché si ha D = E,
B = H. Noi ci limiteremo alle equazioni nel vuoto, e faremo riferimento ai campi E ed H che chiameremo semplicemente campo elettrico e campo magnetico. Si
ammette che l’azione ponderomotrice dei campi (cioè l’azione meccanica, la forza,
esercitata sulla materia) sia data dalla forza di Lorentz
v
F(em) = e(E + × H)
c
(6.1.1)
su una particella di carica “e” e velocità v; inversamente, la distinzione tra campo
elettrico E e campo magnetico H è proprio la circostanza che il primo agisce anche
su una particella ferma, mentre il secondo produce una forza proporzionale alla velocità della particella,3 e dunque non agisce su una particella ferma. Proprio questa
2I
lavori di Hertz sono riprodotti in un volume della Dover.
per particelle non dotate di momento magnetico intrinseco.
3 Almeno
259
Meccanica Razionale 1: Teoria della relatività, parte seconda
circostanza mostra che la distinzione tra campo elettrico e campo magnetico (ovvero il corrispondente spezzamento della forza di Lorentz) è relativa e non assoluta
(cioè dipende dal sistema di riferimento). Su questo punto importante ritorneremo
più sotto, mostrando che i campi E ed H costituiscono una unità (Tensore di Faraday, di ordine 2 ed emisimmetrico) nello spaziotempo, nello stesso senso in cui
costituisce una unità un vettore in IRn , che è un oggetto assoluto, ovvero indipendente dalla base eventualmente scelta (mentre le componenti del vettore non sono
assolute, ma dipendono dalla base). Ma per ora procediamo in maniera elementare.
Le equazioni di Maxwell nel vuoto hanno la forma (usiamo il sistema CGS
elettromagnetico, forse poco familiare allo studente, ma la scelta delle unità è del
tutto irrilevante)
div H = 0
1 ∂H
= 0
rot E +
c ∂t
div E = ρ
1 ∂E
rot H −
= j/c ,
c ∂t
(6.1.2)
(6.1.3)
dove ρ = ρ(t, x), j = j(t, x) sono la densità di carica e la densità di corrente, che si
pensano assegnate funzioni di (t, x) (materia data o assegnata, come si usa dire),
mentre c è la velocità della luce nel vuoto.4 Le prime due equazioni si dicono
costituire la coppia omogenea (non hanno secondi membri), mentre le altre due
costituiscono la coppia non omogenea, o con sorgenti. Come si vede, si tratta di
equazioni lineari nei campi, sicché vale il principio di sovrapposizione (che è un
teorema): “i campi generati da (ρ1 + ρ2 , j1 + j2 ) sono la somma dei campi creati da
(ρ1 , j1 ) e da (ρ2 , j2 )”.
Osservazione Come detto sopra, abbiamo qui usato il sistema CGS
elettromagnetico, comune a tutti i grandi trattati di fisica teorica, come tipicamente il classico testo di Landau e Lifshitz. L’elemento più
caratteristico è forse il fatto che tale sistema fa intervenire nelle equazioni di Maxwell la velocità della luce c, mentre nelle equazioni scritte
nella forma probabilmente nota agli studenti5 intervengono la costante dielettrica ε0 e la permeabilità magnetica µ0 del vuoto. Questa
4 Dal punto di vista mnemonico, è semplicissimo ricordare in quale modo c figuri nelle equazioni.
Dove appare il tempo t, lı̀ c’è sempre c, in maniera che appaia la formazione ct (sicché si potrebbe
prendere come variabile in luogo del tempo la quantità τ = ct). Per questo motivo avviene anche
che la velocità v appare sempre nella forma v/c (si pensi v come la derivata della posizione di una
particella rispetto al tempo), e lo stesso avviene per la corrente o la densità di corrente (perché la
densità di corrente dovuta a una particella è proporzionale alla sua velocità).
5 Ovvero, div B = 0 , rot E + ∂B = 0 , div D = ρ , rot H = j + ∂D , B = µ H , D = ε E. Si veda
0
0
∂t
∂t
ad esempio R. Becker, Electromagnetic fields and interactions, Dover (New York, 1964), Sez. 53,
pag. 257.
260
Andrea Carati e Luigi Galgani
introduzione di c è resa possibile dal fatto che la quantità 1/(µ0 ε0 ) ha
le dimensioni di una velocità al quadrato, e il suo valore risulta essere proprio c2 , una circostanza questa che era nota prima di Maxwell,
e che faceva già presagire che l’elettricità e il magnetismo potessere essere connessi anche con l’ottica. Ciò è proprio vero. Infatti,
le equazioni di Maxwell costituiscono anzitutto una generalizzazione
delle equazioni che riassumono l’elettrostatica e la magnetostatica al
caso di campi dipendenti dal tempo, in modo da includere la legge di
induzione di Faraday. Maxwell però aggiunge nella seconda equazione inomogenea un opportuno termine (la “corrente di spostamento”
1 ∂E
c ∂t ), il quale ha la conseguenza che si hanno onde elettromagnetiche
che, nel vuoto, si propagano proprio con velocità c, la stessa della
luce, sicché anche l’ottica viene incorportata nell’elettromagnetismo.
Questi fatti vengono richiamati qui sotto.
Cominciamo con l’osservare che l’elettrostatica e la magnetostatica si ottengono dalle equazioni di Maxwell come casi particolari statici (in cui cioè ∂H
∂t = 0,
∂ρ
∂j
∂E
∂t = 0, ∂t = 0, ∂t = 0). Infatti in tal caso le equazioni (6.1.2) e (6.1.3), opportunamente redistribuite, si riducono alle due coppie (con ρ e j indipendenti dal
tempo)
rot E = 0
div E = ρ elettrostatica
div H = 0
rot H = j/c magnetostatica.
Ricordiamo che in elettrostatica e in magnetostatica si introducono rispettivamente il potenziale scalare Φ (rot E = 0 ⇒ ∃Φ : E = −grad Φ) e il potenziale
vettore A (rot H = 0 ⇒ ∃A : H = rot A), entrambi non definiti univocamente (si
può scegliere A in modo che div A = 0; si veda più sotto), e dunque l’elettrostatica
è compendiata nell’equazione6
−∆Φ = ρ
e la magnetostatica nell’equazione7
−∆A = j/c .
Nella sostanza, l’elettrostatica nel vuoto (e nello spazio infinito – altrimenti si
hanno problemi di condizioni al contorno) si riduce alla legge di Coulomb, e la
6 Si
introduce l’operatore “laplaciano” ∆ := div grad = ∂xx + ∂yy + ∂zz in coordinate cartesiane
∂2
∂
ortogonali. Qui si è usata la notazione ∂x = ∂x
, ∂2xy = ∂x∂y
e cosı̀ via.
7 Si ricordi l’identità rot rot = grad div − ∆, su cui diremo qualcosa più sotto.
261
Meccanica Razionale 1: Teoria della relatività, parte seconda
magnetostatica nel vuoto si riduce alla Legge di Biot e Savart, che può leggersi
dall’equazione rot H = j/c mediante il teorema di Stokes.
Nel caso generale (non statico) si passa alle equazioni di Maxwell cambiando
l’equazione rot E = 0 nell’equazione rot E + 1c ∂H
∂t = 0, che traduce in termini differenziali la legge di induzione di Faraday (una variazione di campo magnetico produce un certo ben definito campo elettrico). Si pensi all’analogia con rot H = j/c.
∂H
Qui si ha rot E = − 1c ∂H
∂t : quindi, se è assegnato ∂t , questo campo svolge un ruolo
analogo a quello svolto da j nell’equazione di Biot e Savart, e quindi produce un
certo campo elettrico E analogo al campo magnetico H di Biot e Savart creato da
j.
Infine, nel passaggio all’elettromagnetismo
si cambia anche l’equazione rot H =
∂E
1
j/c nell’equazione rot H = c j + ∂t che si legge nel modo seguente: una variazione di campo elettrico produce un campo magnetico esattamente (a parte un segno) come nella legge di Faraday una variazione di campo magnetico produce un
campo elettrico. In altri termini, 1c ∂E
∂t agisce come una corrente elettrica e viene
detto corrente di spostamento8 . Proprio questo termine, introdotto da Maxwell per
pure ragioni teoriche, fa sı̀ che esistano le onde elettromagnetiche nel vuoto (l’analoga proprietà in presenza di materia verrà dimostrata più sotto facendo uso dei
potenziali elettromagnetici). Si ha infatti la
Proposizione 1 In assenza di materia (ρ = 0, j = 0) i campi E, H soddisfano nel
vuoto l’equazione di d’Alembert9
E = 0,
H = 0
=
1 ∂2
−∆ .
2
2
c ∂t
Dimostrazione.
Si prende il rotore della seconda equazione omogenea (6.1.2), ottenendo rot rot E = − 1c ∂t∂ rot H (si scambiano ∂t∂ e rot
per il teorema di Schwartz). Si sostituisce poi rot H prendendolo dalla seconda equazione inomogenea (6.1.3) (ma con j = 0); usando
2
rot rot = grad div − ∆ e anche div E = 0, si ottiene −∆E = − c12 ∂∂tE2 .
Analogamente si trova l’equazione per H prendendo il rotore della
seconda equazione inomogenea (con j = 0).
Q.E.D.
Resta ora da capire di dove venga la necessità di aggiungere il termine con la
corrente di spostamento nella seconda equazione inomogenea. Ciò è dovuto al
fatto che si richiede, come nella meccanica dei sistemi materiali, che la densità di
carica ρ e la densità di corrente j soddisfino l’equazione di continuità
∂ρ
+ div j = 0 .
∂t
8 Perché
1 ∂D
c ∂t ,
(6.1.4)
e il vettore D veniva chiamato “spostamento”
elettrico.
9 L’operatore viene chiamato “quadratello” oppure “dalembertiano”.
in effetti si dovrebbe considerare
262
Andrea Carati e Luigi Galgani
Ora, in magnetostatica, prendendo la divergenza nell’equazione rot H = j/c, in
virtù dell’identità div rot = 0 si trova div j = 0. Se invece, seguendo Maxwell,
∂
poniamo rot H − 1c ∂E
∂t = j/c, abbiamo div j = − ∂t div E, e dall’equazione div E = ρ
otteniamo l’equazione di continuità.
Dal punto di vista matematico, si avrebbe l’interessante problema di studiare
il problema di Cauchy per i campi, e l’ancor più interessante problema di studiare
vari problemi al contorno; ma di questi problemi qui non ci occupiamo.
Osservazione. Il principio di relatività e le equazioni di Maxwell:
non assolutezza della distinzione tra campo elettrico e campo magnetico. Come introduzione al problema dell’applicazione del principio di relatività all’elettromagnetismo, può essere utile considerare
il seguente semplice esempio. Vogliamo determinare i campi elettrico e magnetico prodotti da un filo contenente una densità di carica ρ
(uniforme e indipendente dal tempo), anzitutto rispetto a un sistema
inerziale K solidale col filo, e poi rispetto a un altro sistema inerziale
K 0 , in moto rispetto a K lungo la direzionde del filo.
Naturalmente stiamo ammettendo, conformemente al principio di relatività, che in tutti i sistemi inerziali valgano le equazioni di Maxwell in cui figuri la medesima costante c. Anzi è proprio questa la
formulazione pregnante di quello che avevamo chiamato principio di
costanza della velocità della luce, principio che nel capitolo precedente avevamo applicato in una forma ridotta (costanza della velocità
di propagazione dei raggi di luce, anziché costanza della velocità di
propagazione delle onde elettromagnetiche o, meglio ancora, anziché
invarianza in forma delle equazioni di Maxwell). Infatti il problema
che si poneva prima del 1905 era come dovessero cambiare le equazioni dell’elettromagnetismo al cambiare del sistema di riferimento,
cioè passando da un supposto sistema privilegiato (in quiete rispetto
all’etere) a ogni altro sistema traslante di moto uniforme rispetto a
quello. Invece secondo il principio di relatività tutti i sistemi inerziali
sono equivalenti anche rispetto alle equazioni di Maxwell, che devono mantenere la stessa forma in ogni sistema inerziale (e contenere la
medesima costante c).
Il problema di come debbano trasformarsi i campi verrà discusso in
un prossimo paragrafo. Qui, come esercizio preliminare, vogliamo
restringerci a mettere in luce come il principio di relatività nel senso suddetto comporti che la distinzione tra campo elettrico e campo
magnetico non sia assoluta, ma dipenda dal particolare sistema di
riferimento considerato.
Nell’esempio che stiamo discutendo, ci si riduce a considerare le equazioni statiche, e quelle inomogenee danno
div E = ρ,
rot H = j/c .
Meccanica Razionale 1: Teoria della relatività, parte seconda
263
Nel sistema “fisso (o stazionario)” (ovvero solidale con il filo), si ha
una certa densità di carica, mentre la densità di corrente è nulla, j = 0.
Dunque si ha un certo campo elettrico E 6= 0, mentre il campo magnetico è nullo, H = 0 Ma, se osserviamo il filo da un sistema di riferimento inerziale K 0 in moto rispetto al filo stesso, il filo appare come
contenente cariche in moto uniforme. Dunque per il sistema “mobile”
si ha una certa densità di carica ρ0 6= 0 che potremmo calcolare, mentre per la densità di corrente sappiamo che essa è certamente diversa
da quella del sistema “fisso”, perché è nonnulla, j0 6= 0. In conseguenza, secondo la legge di Biot–Savart per il sistema “mobile” si ha un
certo campo magnetico nonnullo H 6= 0. Dunque nel primo sistema si
ha E 6= 0, H = 0 mentre nel secondo si ha H 6= 0. In conclusione, mentre nel primo sistema, solidale col filo, si ha solo campo elettrico, nel
sistema mobile rispetto al filo si ha invece anche un campo magnetico.
La distinzione tra campo elettrico e campo magnetico non è assoluta,
ma dipende dal sistema di riferimento.
In un prossimo paragrafo mostreremo che questo fatto corrisponde al
fatto cha anche la distinzione tra densità di carica e densità di corrente
non è assoluta, ma dipende dal sistema di riferimento, analogamente a
quanto avviene per le componenti di un vettore al variare del sistema
di riferimento: il vettore è una quantità assoluta, indipendente dal
sistema di riferimento, mentre ne dipendono le componenti (la prima
componente di un vettore può essere nulla in un sistema e non in un
altro). In particolare, il principio di relatività permette di ottenere
nell’esempio sopra considerato (in cui si ha ρ 6= 0 e j = 0) le densità
ρ0 e j0 e vedremo che si trova ρ0 = γρ, jx 0 = −γρ, jy0 = jz0 = 0.
Osservazione: Il problema della self force e l’equazione di Abraham–
Lorentz–Dirac. Facciamo qui un ultimo commento, riguardante il
problema della autointerazione delle particelle cariche attraverso il
campo elettromagnetico da esse prodotto. Osserviamo anzitutto che,
se si hanno delle particelle cariche, ad esse vengono associate certe
densità di carica e di corrente, e dunque le particelle “creano”, come
sorgenti nelle equazioni di Maxwell inomogenee, certi campi elettromagnetici. Ma d’altra parte le particelle subiscono (attraverso la forza di Lorentz) anche delle forze dovute ai campi, e quindi in qualche
modo anche una forza dovuta ai campi creati da esse stesse. È questo
il cosiddetto problema dell’autocampo, o della self force. Si capisce
cosı̀ come nel discutere il moto di particelle in campi elettromagnetici si distingue allora tra una trattazione semplificata e una trattazione generale. Il problema semplificato consiste nello studiare il moto
di particelle con campi assegnati. È questa l’approssimazione in cui
si pensa che i campi assegnati siano talmente intensi da non essere sostanzialmente modificati dai campi creati dalle particelle stesse.
264
Andrea Carati e Luigi Galgani
Ed è questa proprio l’approssimazione (campi dati) in cui lavoreremo
sotto.
Ma il problema più difficile è invece quello in cui si studia il moto delle particelle quando si tenga conto anche dei campi creati dalle particelle stesse (problema della self force). Questo problema fu affrontato
attorno al 1903 da Abraham e Lorentz e poi in ambito relativistico,
nel 1938, da Dirac.10 Si giunge in tal modo alla cosiddetta equazione
di Abraham–Lorentz–Dirac, di cui non abbiamo qui il tempo di occuparci. Facciamo solo osservare che a tale equazione sono associati
problemi di principio a tutt’oggi non ancora completamente risolti,
neanche nel corrispondente problema quantistico (si veda Feynman,
Manuale di Fisica, vol II cap. 27). Si pensi che la lagrangiana e la
hamiltoniana classiche per il sistema costituito dal campo elettromagnetico e da cariche puntiformi sono state scritte solo pochissimi anni
fa.11
6.1.2
I potenziali elettromagnetici
Un obiettivo centrale che ci poniamo in questo capitolo è quello di scrivere la
lagrangiana, la hamiltoniana e l’azione hamiltoniana di una particella in un campo
elettromagnetico assegnato (mentre nel capitolo precedente avevamo studiato la
particella libera). Per affrontare tale problema avremo però bisogno dei potenziali
elettromagnetici, che ora ci apprestiamo ad introdurre.
Proposizione 2 Si considerino le equazioni di Maxwell omogenee (6.1.2) ed inomogenee (6.1.3). Allora si ha:
i) Le equazioni di Maxwell omogenee (6.1.2) si traducono nella seguente proprietà: esistono un potenziale scalare Φ e un potenziale vettore A, che forniscono
i campi E, H mediante le relazioni
H = rot A
1 ∂A
.
(6.1.5)
c ∂t
ii) I potenziali Φ, A non sono univocamente determinati, e l’arbitrarietà è regolata nel modo seguente: dati dei potenziali buoni Φ, A, ogni altra coppia di
potenziali buoni Φ0 , A0 , si ottiene mediante le relazioni
E = −grad Φ −
A0 = A + grad χ
1 ∂χ
Φ0 = Φ −
c ∂t
10 P.A.M.
(6.1.6)
Dirac, Classical theory of radiating electrons, Proc. Royal Soc. (London) A 167, 148–
168 (1938). Si noti che questo fondamentale lavoro di Dirac, concepito e sviluppato in ambito completamente classico, venne scritto circa 10 anni dopo la formulazione dell’elettrodinamica quantistica
!
11 Si veda M. Marino, Classical electrodynamics of point charges, Annals of Physics 301, 85
(2002).
265
Meccanica Razionale 1: Teoria della relatività, parte seconda
attraverso una funzione χ(t, x) arbitraria. Quando si compie uan scelta si usa dire
che è stato scelto un “gauge”. In particolare, i potenziali possono essere scelti in
maniera di soddisfare la cosiddetta “condizione di Lorentz” (gauge di Lorentz)
div A +
1 ∂Φ
=0
c ∂t
(6.1.7)
oppure la condizione (gauge di Coulomb)
div A = 0 .
(6.1.8)
iii) In termini dei potenziali, le equazioni di Maxwell inomogenee (6.1.3) prendono, nel gauge di Lorentz, la forma delle equazioni delle onde con sorgenti,
precisamente
Φ = ρ
A = j/c .
Dimostrazione.
(6.1.9)
La dimostrazione procede nel modo seguente.
i) Le formule che esprimono i campi attraverso i potenziali sono una
immediata conseguenza delle equazioni di Maxwell omogenee (6.1.2),
quando si ricordino le proprietà che un campo solenoidale (ovvero
con divergenza nulla) può sempre esprimersi come il rotore di un opportuno campo vettoriale, e che un campo irrotazionale (ovvero con
rotore nullo) può sempre esprimersi come il gradiente di un opportuno
campo scalare12 . Dunque dalla prima equazione div H = 0 segue che
esiste un campo vettoriale A tale che H = rot A, che è la prima delle
(6.1.5). Si sostituisce allora nella seconda equazione omogenea, che
diviene (scambiando rot con ∂t∂ )
1 ∂A
rot E +
= 0,
c ∂t
e dunque esiste un campo scalare Φ tale che si ha E+ 1c ∂A
∂t = −grad Φ,
ovvero la seconda delle (6.1.5).
ii,a) È ovvio che i potenziali non siano univocamente definiti, perché
se A va bene, allora va bene anche A0 dato da
A0 = A + grad χ
con un arbitraria χ (perché rot grad χ = 0, sicché rot A0 = rot A). Ogni
scelta della funzione χ si dice costituire la scelta di un “gauge”. Tuttavia, si richiede che, al variare della scelta di χ (al variare del gauge),
12 Ammettiamo qui di essere in un dominio opportuno:
va bene ad esempio il caso in cui il dominio
è tutto IR3 . La dimostrazione di questi fatti è banalissima quando si usi la trasformata di Fourier.
Questo verrà esposto in un’appendice attualmente non ancora scritta.
266
Andrea Carati e Luigi Galgani
non variino i campi,13 e ciò già avviene per H perché H = rot A =
rot A0 . Ma nel passaggio da A ad A0 , nella formula data, ovvero la
seconda delle (6.1.5), varierebbe E, e quindi occorre controbilanciare la variazione di A con una opportuna variazione di Φ in modo da
ottenere che E non cambi. È immediato constatare che l’appropriata
scelta è V 0 = Φ − 1c ∂χ
∂t . Quindi l’arbitrarietà dei potenziali è regolata
dalla relazione (6.1.6) con una funzione χ arbitraria.
ii,b) Mostriamo ora come mai è possibile soddisfare la condizione di
Lorentz. Assegnati dei potenziali A, Φ, sia
f (t, x) := div A +
1 ∂Φ
6= 0
c ∂t
0
e ricerchiamo un’opportuna χ in modo che sia div A0 + 1c ∂Φ
∂t = 0. Ma
si ha, in virtù delle (6.1.6),
div A0 +
1 ∂Φ0
1 ∂Φ
1 ∂2 χ
= div A +
+ ∆χ − 2 2 = f (t, x) − χ .
c ∂t
c ∂t
c ∂t
Dunque la condizione di Lorentz è soddisfatta se si sceglie χ in modo
che sia
χ = f
con f assegnata, ed è ben noto che ciò è sempre possibile14 . In modo
analogo si dimostra che si può sodisfare la condizione di Coulomb.
iii) Veniamo infine alle equazioni delle onde per i potenziali, come immediata traduzione delle equazioni di Maxwell inomogenee nel gauge
di Lorentz. Dalla prima equazione inomogenea div E = ρ, introducendo E in termini di potenziale, si ha
1
1∂
ρ = div E = −div (grad Φ + Ȧ) = −∆Φ −
div A ,
c
c ∂t
sicché, usando la condizione di Lorentz, si trova
ρ = −∆Φ +
1 ∂2 Φ
= Φ.
c2 ∂t 2
13 In altri termini, si ammette che i campi siano “oggetti fisici”, vale a dire osservabili, e quindi
ben definiti come funzioni di t ed x. I potenziali invece, essendo non univocamente determinati,
vengono considerati come strumenti “nonfisici”, aventi una pura utilità matematica. In realtà, questo
atteggiamento tradizionale verso i potenziali è parso scosso dopo la scoperta del cosiddetto “effetto
Aharonov–Bohm”, che a prima vista sembrerebbe comportare che si debba attribuire significato fisico
ai potenziali. Ciò tuttavia non è vero. Rimandiamo la discussione ad una appendice (non ancora
scritta).
14 Anche questo fatto è ovvio quando si usa la traformata di Fourier.
267
Meccanica Razionale 1: Teoria della relatività, parte seconda
Analogamente, introducendo i potenziali nella seconda equazione inomogenea, si ha
1
1
1
j/c = rot H − Ė = rot rot A + (grad Φ̇ + Ä) =
c
c
c
1
1
= grad div A − ∆A + grad Φ̇ + 2 Ä =
c
c
1
= A + grad (div A + Φ̇) = A
c
in virtù della condizione di Lorentz.
6.2
Q.E.D.
Equazioni di moto di una particella in campo elettromagnetico; lagrangiana, hamiltoniana ed azione.
Trattazione elementare in forma tridimensionale
Abbiamo già detto che in ambito non relativistico si ammette che la forza agente
su una particella carica (di carica e) è la forza elettromagnetica di Lorentz F(em)
definita dalla (6.1.1), ovvero
v
F(em) = e E + × H .
c
Si deve a K. Schwarzschild15 la seguente osservazione:
Proposizione 3 La forza di Lorentz ammette un potenziale generalizzato (o potenziale elettromagnetico o potenziale elettrocinetico) V (em) definito in termini dei
potenziali Φ ed A da
v V (em) = e Φ − · A ,
c
nel senso che si ha
1 (em)
d ∂V (em) ∂V (em)
F
=
−
.
e
dt ∂v
∂x
Dimostrazione. La dimostrazione che ora riportiamo, del tutto tradizionale, è un po’ macchinosa; essa diventerà invece banalissima
quando disporremo del formalismo tensoriale nello spaziotempo. Restando per ora nel formalismo tridimensionale, osserviamo che si ha
15 Lo
stesso cui si deve la scoperta del campo gravitazionale “creato” da una particella puntiforme
nell’ambito della relatività generale. Questo risuktato venne illustrato in due famosi lavori scritti nel
1916 nell’ospedale di guerra di Brno, dove Schwarzschild morı̀ poco dopo.
268
Andrea Carati e Luigi Galgani
∂V (em)
∂v
= −A/c, e dunque16
d ∂V (em)
1 ∂A
=−
+ (v · grad)A .
dt ∂v
c ∂t
D’altra parte si ha
∂ (em)
1
V
≡ gradV (em) = grad Φ − grad(v · A) ,
∂x
c
ovvero
∂iV (em) = ∂i ∑ Φ − vk ∂i Ak
k
(abbiamo denotato ∂i ≡
∂
∂xi ).
Si usa infine l’identità17 sicché
1 ∂A v
v
d ∂V (em) ∂V (em)
−
= −grad Φ −
+ × rot A = E + × H .
dt ∂v
∂x
c ∂t
c
c
Q.E.D.
Ora, già in ambito non relativistico era ben noto che è possibile scrivere le
equazioni di moto di una particella in forma lagrangiana anche se si è in presenza
di forze Q dipendenti dalla velocità, purché tali forze Q ammettano un potenziale
generalizzato V , nel senso che si abbia
Q=
d ∂V ∂V
−
.
dt ∂v ∂x
Infatti, dalla formula del binomio lagrangiano già sappiamo che l’equazione ma =
F con F = −gradV0 può scriversi nella forma
d ∂L0 ∂L0
−
=0
dt ∂v
∂x
con
L0 = T −V0
(T = 21 mv2 ). Dunque, se si considera l’equazione
ma = F + Q
usa, come al solito ddtf = ∂∂tf + (grad f ) · ẋ se f = f (t, x) e si ammette x = x(t) sicché si
introduce la funzione f˜(t) := f (t, x(t)). Per un abuso di linguaggio si denota poi f˜ ≡ f . Nel nostro
caso, invece di f si ha il vettore A e si considera separatamente ogni componente Ai di A. Per
semplicità di notazione scriviamo (grad Ai ) · v ≡ (v · grad)Ai , esattamente come si fa per le equazioni
di Eiulero dei fluidi perfetti.
17 Si tratta in sostanza della nota identità del doppio prodotto vettore, adattata all’operatore
differenziale rot A = grad × A.
16 Si
269
Meccanica Razionale 1: Teoria della relatività, parte seconda
con
F = −gradV0 ,
Q=
d ∂V ∂V
−
,
dt ∂v ∂x
tale equazione può scriversi nella forma
d ∂L ∂L
−
= 0,
dt ∂v ∂x
L = L0 −V .
In questo senso, dunque, le equazioni di moto per le particelle soggette a forze dipendenti dalla velocità ma ammettenti un potenziale generalizzato possono essere
scritte in forma lagrangiana.
Nel nostro caso, abbiamo una particella carica soggetta a forza di Lorentz, che
ammette il potenziale generalizzato V (em) . Si ha dunque la
Proposizione 4 L’equazione di Newton (nonrelativistica)
v
ma = e (E + × H)
c
è equivalente all’equazione di Lagrange
d ∂L ∂L
−
=0
dt ∂v ∂x
dove la lagrangiana L è definita da
1
L = mv2 − eV (em) .
2
(6.2.1)
Abbiamo ora il problema di postulare una forma per l’equazione di moto di una
particella relativistica in presenza di campi E ed H assegnati, o equivalentemente
in presenza dei corrispondenti potenziali Φ ed A. La più semplice scelta possibile che si riduca all’equazione non relativistica ma = F(em) per piccole velocità si
ottiene procedendo in modo analogo a quello del caso nonrelativistico, usando ora
ovviamente la corretta “lagrangiana meccanica”
q
(6.2.2)
L(mecc) = −mc2 1 − v2 /c2 .
Si giunge in tal modo a formulare il seguente
Assioma. La lagrangiana relativistica di una particella in campo
elettromagnetico è data da L = L(mecc) − eV (em) , ovvero
r
v2
v L = −mc2 1 − 2 − e Φ − A .
(6.2.3)
c
c
Naturalmente, per coerenza si deve anche controllare che la corrispondente
azione hamiltoniana abbia, come per la particella libera, carattere geometrico. Su
questo punto ritorneremo alla fine del presente paragrafo.
(mecc)
Ricordando che ∂L ∂v = mγv, si ha subito allora la
270
Andrea Carati e Luigi Galgani
Proposizione 5 L’equazione di moto per una particella relativistica in un campo
elettromagnetico è data da
d
v
(mγv) = e(E + × H)
dt
c
(6.2.4)
Veniamo ora al teorema dell’energia. In meccanica nonrelativistica questo si
ottiene mpltiplicando scalarmente per la velocità v l’equazione ma = F, e si ha in
tal modo Ṫ = F · v dove T = (1/2)mv2 è l’energia cinetica. In ambito relativistico
il teorema dell’energia si ottiene analogamente moltiplicando scalarmente per v la
(6.2.4). Si ha allora la1819
Proposizione 6 (Teorema dell’energia). Si ha
d
mγc2 = eE · v .
dt
Dimostrazione.
(6.2.5)
Basta verificare l’identità
v·
d
d
mγv = mγc2 ,
dt
dt
e questo è un utile esercizio.20
Q.E.D.
Abbiamo infine il problema di scrivere l’hamiltoniana di una particella in campo elettromagnetico; ciò è necessario ad esempio per scrivere l’equazione di Schrödinger (in meccanica quantistica) per una particella in campo elettromagnetico. Come
sappiamo dal formalismo hamiltoniano, a tal fine è sufficiente considerare l’energia
generalizzata
E = p·v−L,
(6.2.6)
ed esprimerla in termini del momento
p=
∂L
∂v
(6.2.7)
18 Landau chiama energia cinetica la quantità E = mγc2 , anche se essa contiene l’energia a riposo
mc2 .
19 Si noti che alla variazioe di energia non contri buisce il campo magnetico, perché esso esercita
una forza ortogonale alla velocità.
20 Poniamo c = 1. Si ha
d
v · γv = γ̇ v2 + γv · a .
dt
Ma dalla definizione di γ si trova γ̇ = γ3 v · a da cui segue γ v · a = γ̇/γ2 ovvero, ricordando γ2 =
1/(1 − v2 ),
γ v · a = γ̇(1 − v2 ) ,
e dunque
v·
d
γ v = γ̇ (v2 + 1 − v2 ) = γ̇ .
dt
271
Meccanica Razionale 1: Teoria della relatività, parte seconda
anziché della velocità v.
Il procedimento che si segue ripercorre passo passo quello che si era seguito
per la particella libera. In presenza di campo elettromagnetico, analogamente con
immediati calcoli si trova il
Lemma 1 Per la particella relativistica in campo elettromagnetico si ha
e
p = mγv + A
c
E = mγc2 + eΦ .
(6.2.8)
(6.2.9)
Da queste relazioni si ottiene poi la
Proposizione 7 L’hamiltoniana di una particella in campo elettromagnetico, con
lagrangiana (6.2.3) ovvero
r
v2
v 2
L = −mc 1 − 2 − e Φ − A ,
c
c
è data da
r
H = eΦ + c
e
m2 c2 + (p − A)2
c
(6.2.10)
In particolare, nel limite nonrelativistico (v/c)2 << 1, per l’hamiltoniana H e per
l’energia E si ha
(p − ce A)2
H=
+ eΦ + mc2 .
(6.2.11)
2m
1
E = mv2 + eΦ + mc2 .
(6.2.12)
2
Dimostrazione. Basta esprimere l’energia E in termini del momento p. Dal lemma 1 si osserva (p − ec A) = mγv, E − eΦ = mγc2 , e
dunque si ha
E − eΦ 2
e
− (p − A)2 = m2 γ2 (c2 − v2 ) = m2 c2 ,
c
c
ovvero
i
h
e
(E − eΦ)2 = c2 m2 c2 + (p − A)2 .
c
Q.E.D.
Osservazione. Da un punto di vista mnemonico, è utile osservare che
l’hamiltoniana di una particella in campo
p elettromagnetico si ottiene
da quella in assenza di campo (H = c p2 + m2 c2 , oppure nel limite
nonrelativistico H = p2 /(2m) + mc2 ) con la semplice sostituzione
e
p → p− A,
c
oltre all’aggiunta del termine eΦ.
272
Andrea Carati e Luigi Galgani
Terminiamo questo paragrafo con un commento sul carattere geometrico dell’azione hamiltoniana di una particella in campo elettromagnetico. A tal fine facciamo uso di una proprietà che dimostreremo più avanti, ovvero che, nello stesso senso in cui {xµ } = (ct, x) è un quadrivettore, cosı̀ è un quadrivettore anche
dxµ
} = (γ, γ vc ) è un quadrivettore e
{Aµ } = (Φ, A). Ricordando poi che {uµ } ≡ { dds
che il prodotto scalare tra due quadrivettori ha la struttura pseudo–euclidea ben nota, si trova che il prodotto scalare g(u, A) tra i quadrivettori u ≡ {uµ } = (γ, γ vc ) ed
A ≡ {Aµ } = (Φ, A) è dato da
v
v
g(u, A) = γΦ − γ · A = γ (Φ − · A)
c
c
e dunque, ricordando ds = cγ dt (ovvero dt = cγ ds) otteniamo
Z t1
V
t0
(em)
1
dt =
c
Z t1
t0
1
v
γ(Φ − · A) ds =
c
c
Z
g(u, A) ds .
Pertanto, ricordando che L(mecc) dt = −mc ds, otteniamo che l’azione S relativa
alla lagrangiana L = L(mecc) − eV (em) si scrive nella forma
Z h
i
e
S=−
mc + g(u, A) ds .
c
R
R
Questa ha carattere geometrico nello spaziotempo, perché hanno carattere geometrico sia ds (elemento di linea, lunghezza di un tratto di curva) sia il prodotto scalare
g(u, A).
In conclusione, l’assioma per il moto di una particella in un campo elettromagnetico in ambito relativistico, che sopra è stato formulato con la scelta della
lagrangiana (6.2.3), può equivalentemente essere formulato in termini di azione
hamiltoniana nel modo seguente:
Assioma. L’azione hamiltoniana relativistica di una particella in campo elettromagnetico è data, per ogni curva Γ di tipo tempo nello spaziotempo, da
Z h
i
e
S(Γ) = −
mc + g(u, A) ds .
(6.2.13)
c
Γ
È molto istruttivo a questo punto confrontare il metodo qui seguito per giustificare questo assioma, con il metodo seguito da Landau e Lifshitz (Teoria dei campi).
Noi abbiamo scelto un procedimento di tipo induttivo, che può forse avere qualche
utilità dal punto di vista pedagogico. Non vi è dubbio tuttavia che il procedimento
diretto e compatto di Landau e Lifshitz è estremamente più comodo e significativo,
almeno quando si sia in grado di apprezzarlo pienamente.
Sulle dimensioni delle quantità di interesse. Le componenti del vettore xµ = (ct, x) sono lunghezze (L). Cosı̀ anche s è una lunghezza; dunque mcds è un’azione (energia per tempo). La quadrivelocità,
Meccanica Razionale 1: Teoria della relatività, parte seconda
273
per come è stata da noi definita, è adimensionale (abbiamo preso la
derivata rispetto ad s anziché rispetto a t).
Per quanto riguarda la carica elettrica ed i potenziali elettromagnetici, dall’equazione Φ = ρ, dove ρ è una densità di carica (carica
per unità di volume), si ottiene che Φ (e ogni componente di Aµ ) ha
le dimensioni carica/L. A sua volta, per la carica, basta ricordare che
e2 /r è un’energia e che anche eΦ (e più in generale eAµ ) è un’energia.
Dunque, infine, (e/c)g(u, A)ds è una azione.
6.3
Trasformazioni dei campi: trattazione elementare
Abbiamo già osservato che la separazione di un campo elettromagnetico in un campo elettrico E e in un campo magnetico H è relativa, ovvero dipende dal sistema
inerziale considerato: ad esempio se in un sistema K si ha il solo campo elettrico
E creato da una particella ferma, tale particella appare mobile rispetto ad un altro
sistema K 0 in moto rispetto a K; dunque K 0 vede una corrente (una carica in moto)
e quindi oltre ad un campo elettrico vede anche un campo magnetico. Daremo qui
sotto la legge con cui si trasformano i campi passando da un sistema inerziale ad
un altro.
Tale legge di trasformazione si spiega analiticamente nel modo seguente. Nel
passaggio da un sistema di riferimento a un altro, avviene che le equazioni di Maxwell cambierebbero di forma (in conseguenza del cambiamento di coordinate secondo la trasformazione di Lorentz) se non si imponesse che anche i campi cambiasssero in maniera adeguata, atta proprio a bilanciare il cambiamento di forma
delle equazioni. Ma noi imponiamo che tale bilanciamento avvenga, proprio per
soddisfare il principio si relatività. Infatti, il principio di costanza di velocità della
luce, nella sua forma più pregnante, si esprime proprio come la condizione che le
equazioni di Maxwell non cambino forma al cambiare del sistema di riferimento
inerziale. In un certo senso si può dire che finora abbiamo usato tale principio solo in forma ridotta, cioè nel limite dell’ottica geometrica, in cui si pensa alla luce
come costituita da raggi, e si impone che la loro velocità sia la stessa (ovvero c) in
tutti i sistemi inerziali. Qui richiediamo in più che siano le equazioni di Maxwell
stesse a non variare di forma, sicché nessun sistema inerziale risulti privilegiato.
Come esercizio preliminare cominciamo a verificare che invece l’equazione di
d’Alembert non cambia forma sotto le trasformazioni di Lorentz. In effetti questa
osservazione analitica era già stata compiuta da W. Voigt nel 1887.21 Consideriamo l’equazione di d’Alembert per una quantità u = u(t, x) scalare (ovvero, che
non cambia al cambiare del sistema di riferimento) e poniamo per semplicità di
21 W. Voigt, Über das Doppler’sche Princip. Göttingen Nachrichten, 10 marzo 1887, pag. 41. Si
veda la formula (10) a pag. 45. Nelle nostre notazioni, tale formula si legge x0 = x − vt, y0 = γ−1 y,
z0 = γ−1 z, t 0 = t − vx/c2 . Quindi, per ottenere le trasformazioni di Lorentz occorre passare dalle
variabili primate ad altre che si ottengono moltiplicando quelle primate per γ. Tuttavia, ai fini che si
proponeva Voigt questo fatto è inessenziale.
274
Andrea Carati e Luigi Galgani
notazione c = 1. Definiamo22
∂2 u ∂2 u
u ≡ 2 − 2 ≡
∂t
∂x
∂2
∂2
−
u;
∂t 2 ∂x2
l’operatore viene detto “dalembertiano” e mediante esso l’equazione di d’Alembert prende la forma
u = 0 .
Nel capitolo sull’equazione di d’Alembert abbiamo già osservato che, quando si
considera una equazione, in generale essa cambia di forma se si esegue un cambiamento di variabili: ad esempio passando dalle coordinate (t, x) alle coordinate (ξ, η) = (t − x,t + x) l’equazione di d’Alembert assume la forma (denotiamo
∂
, ∂2xx ≡ ∂x ∂x etc)
∂x ≡ ∂x
∂ξ ∂η u = 0 ,
e anzi proprio di questo artificio ci siamo serviti per integrare l’equazione. Si ha
invece la
Proposizione 8 Il dalembertiano non cambia forma sotto trasformazioni di Lorentz, ovvero si ha
0 = dove 0 = ∂t20t 0 − ∂2x0 x0 , = ∂tt2 − ∂2xx .
Dimostrazione. (metodo forza bruta). Dalla trasformazione di Lorentz t 0 = γ(t − vx), x0 = γ(x − vt), in virtù della formula fondamentale
per la derivata di una funzione composta si ha
∂t =
∂t 0
∂x0
∂t 0 +
∂x0 ,
∂t
∂t
∂x =
∂t 0
∂x0
∂t 0 +
∂x0
∂x
∂x
ovvero
∂t 0
∂x0
∂t 0 +
∂x0 = γ(∂t 0 − v∂x0 )
∂t
∂t
∂t 0
∂x0
∂x = ∂t 0 +
∂x0 = γ(∂x0 − v∂t 0 ) .
∂x
∂x
∂t =
(6.3.1)
Si trova dunque
∂t − ∂x = γ(1 + v)(∂t 0 − ∂x0 )
∂t + ∂x = γ(1 − v)(∂t 0 + ∂x0 ) .
Pertanto, osservando che si ha = (∂t − ∂x )(∂t + ∂x ),23 otteniamo
= γ2 (1 − v2 ) 0 = 0 .
Q.E.D.
22 Consideriamo
23 Questa
il caso di una sola dimensione spaziale
identità operatoriale è analoga alla familiare identità algebrica a2 − b2 = (a + b) (a − b).
Meccanica Razionale 1: Teoria della relatività, parte seconda
275
Osservazione. Questa proprietà di invarianza in forma del dalembertiano sotto trasformazioni di Lorentz costituisce di fatto la controparte
(in termini di operatori differenziali) della invarianza in forma della
metrica relativistica sotto trasformazioni di Lorentz:
c2t 02 − l 02 = c2t 2 − l 2 .
Allo stesso modo si mostra immediatamente che sotto rotazioni nel
piano si ha l’invarianza in forma dell’operatore laplaciano:
∂2
∂2
∂2
∂2
+
+
=
∂x2 ∂y2 ∂x0 2 ∂y0 2
come traduzione in termini di operatori differenziali dell’invarianza
in forma della metrica sotto rotazioni:
x02 + y02 = x2 + y2
(qui ci riferiamo evidentemente a sistemi di riferimento cartesiani ortogonali, ovvero a sistemi di vettori base ortonormali rispetto all’assegnato prodotto scalare).
In effetti, come vedremo più avanti, le trasformazioni (6.3.1) sulle derivate parziali (∂t , ∂x ) → (∂t 0 , ∂x0 ) sono nient’altro che le trasformazioni delle componenti dei covettori indotte dalle trasformazioni delle
componenti dei vettori. Troveremo che le derivate parziali si trasformano con l’inversa della trasposta della matrice che fornisce la trasformazione delle componenti dei vettori. Nel nostro caso, il tutto
ammonta a cambiare v in −v.
Veniamo dunque alla legge di trasformazione dei campi. Il sistema K 0 si muove
con velocità v lungo l’asse x del sistema K; è conveniente allora decomporre i
vettori E e H nella forma
E = Ek + E⊥ ,
H = Hk + H⊥
dove Ek denota la componente di E parallela a v, cioè all’asse x, e E⊥ la corrispondente componente ortogonale, cioè nel piano y, z. Analogamente sia
E0 = E0 k + E0 ⊥ ,
H0 = H0 k + H0 ⊥ .
Cosı̀ anche, denotando con ρ, ρ0 e j, j0 le densità di carica e di corrente rispetto ai
due sistemi di riferimento, poniamo
j = jk + j⊥ ,
Si ha allora la
j0 = j0 k + j0 ⊥ .
276
Andrea Carati e Luigi Galgani
Proposizione 9 Le equazioni di Maxwell non cambiano forma sotto trasformazioni di Lorentz se si ammette che i campi e la densità di carica e di corrente si
trasformino nel modo seguente (con c = 1):
E0 k = Ek
E0 ⊥ = γ(E⊥ − H × v)
H0 k = Hk
H0 ⊥ = γ(H⊥ + E × v)
ρ0 = γ(ρ − v jx )
j0 x = γ( jx − vρ)
j0 ⊥ = j⊥
(ovvero
jy0 = jy , jz0 = jz ) .
Nota. La legge di trasformazione di densità di carica e densità di
corrente può anche essere stabilita a priori, utilizzando l’ipotesi che
la quantità di carica sia un invariante, indipendente dal sistema di
riferimento.24
Dimostrazione. 25 Consideriamo la trasformazione di Lorentz inversa t = γ(t 0 +vx0 ), x = γ(x0 +vt 0 ), y = y0 , z = z0 . Con calcoli analoghi
a quelli usati per dimostrare l’invarianza del dalembertiano si ha
∂t 0 = γ(∂t + v∂x ) ,
∂x0 = γ(∂x + v∂t ) ,
∂y = ∂y0 , ∂z = ∂z0 . (6.3.2)
i) Cominciamo a considerare le equazioni omogenee
∂t H + rot E = 0 , div H = 0 ;
in particolare, la prima componente della prima equazione, e la seconda equazione, forniscono
∂t Hx = ∂z Ey − ∂y Ez ,
∂x Hx = −(∂y Hy + ∂z Hz ) .
(6.3.3)
Vediamo ora cosa sappiamo su ∂t 0 Hx . Dalla trasformazione di Lorentz
∂t 0 = γ(∂t + ∂x ) otteniamo
∂t 0 Hx = γ[∂t Hx + v∂x Hx ] ,
24 Si
ua il fatto che, a causa della contrazione delle lunghezze lungo la direzione di traslazione di
rispetto a K (mentre restano inalterate le lunghezze trasversali), passando da K a K 0 i volumi si
contraggono del fattore γ−1 . Dunque, dovendo restare inalterata la carica contenuta in un volume,
deve cossispondentente variare la desità di carica.
25 A parte la notazione, seguiamo qui quasi alla lettera il paragrafo 6 del lavoro di Einstein del
1905.
K0
277
Meccanica Razionale 1: Teoria della relatività, parte seconda
e quindi, per le (6.3.3),
∂t 0 Hx = γ(∂z Ey − ∂y Ez ) − γv(∂y Hy + ∂z Hz )
(6.3.4)
= ∂z γ(Ey − vHz ) − ∂y γ(Ez + vHy ) .
Per confronto con l’originaria equazione
∂t Hx = ∂z Ey − ∂y Ez
si vede allora che le due equazioni sono della stessa forma se si pone26
Hx0 = Hx ,
Ey0 = γ(Ey − vHz ),
Ez0 = γ(Ez + vHy )
ovvero
H0k = Hk ,
E0⊥ = γ(E⊥ − H × v) .
ii) Si procede poi analogamente usando le equazioni inomogenee rot H−
∂t E = j, div E = ρ. Si ha
∂t Ex = ∂y Hz − ∂z Hy − jx ,
∂x Ex = −(∂y Ey + ∂z Ez ) + ρ ,
e si ottiene
∂t 0 Ex = ∂y0 γ(Hz − vEy ) − ∂z0 γ(Hy + vEz ) − γ( jx − vρ)
che, per confronto con l’equazione originale, fornisce
E0k = Ek
H⊥ 0k = γ(H⊥ + E × v) ,
j0k = γ(jk − vρ) .
Resta da determinare la legge per ρ. A tal fine si usa la condizione che
valga
div0 E0 ≡ ∂x0 E 0 x + ∂y0 E 0 y + ∂z0 E 0 z = ρ0 .
Ma allora il primo membro può essere calcolato e si trova27
div0 E0 = γ div E − γ v(∂t Ex − ∂y Hz + ∂z Hy ) .
D’altra parte, usando le equazioni di Maxwell div E = ρ e la prima
componente di −∂t E + rot H = j, questa equazione diviene
div0 E0 = γ (ρ − v jx ) ,
sicché la condizione div0 E0 = ρ0 fornisce
ρ0 = γ(ρ − v jx ) .
Q.E.D.
effetti, basterebbe porre Hx0 = αHx , Ey0 = αγ(Ey − vHz ), Ez0 = αγ(Ez + vHy ) con una costante
α (dipendente parametricamente da v). Ma, come nel capitolo precedente, si assume α = α(v2 ) e si
mostra α2 = 1, da cui α = 1 per continuità in v = 0.
27 Basta usare le relazioni già trovate E 0 = E , E 0 = γ(E − vH ), E 0 = γ(E + vH ), ∂ 0 = γ(∂ +
x
x
y
y
z
z
z
y
x
x
v∂t ), ∂y0 = ∂y , ∂z0 = ∂z .
26 In
278
Andrea Carati e Luigi Galgani
Osservazione. Le leggi di trasformazione della densità di carica e corrente mostrano che ρ, j si trasformano esattamente come t, x; in altri termini ρ, j costituiscono un quadrivettore. Più precisamente, ripristinando c 6= 1, si ottiene che
{ jµ }3µ=0 = (cρ, j)
costituisce un quadrivettore.
Si ha dunque il
Corollario 1 I potenziali scalare e vettore Φ, A costituiscono un quadrivettore,
diciamo di componenti {Aµ }3µ=0 , ovvero si ha che le quantità
{Aµ } ≡ (Φ, A)
si trasformano come le componenti di un quadrivettore (cioè come le componenti
di {xµ } ≡ (ct, x).
Dimostrazione. Sappiamo che i potenziali soddisfano, nel gauge di
Lorentz, le equazioni Φ = ρ , A = j/c, e che l’operatore dalembertiano non cambia forma sotto trasformazioni di Lorentz. Dunque
Φ ed A devono trasformarsi come ρ e j/c ovvero come cρ e j, cioè
come ct ed x.
Q.E.D.
Da ciò segue in particolare, come già osservato, che l’azione S relativa alla particella in campo elettromagnetico ha carattere geometrico nello spaziotempo.
6.4
6.4.1
Primi elementi di calcolo tensoriale
Introduzione
Nel paragrafo precedente abbiamo ottenuto le leggi di trasformazione dei campi
elettromagnetici in maniera elementare ma alquanto laboriosa, in effetti quasi esattamente nella maniera seguita inizialmente da Lorentz, Poincaré ed Einstein stessi
(metodo “brute force”, ovvero forza bruta). Esiste però un modo per ottenere “a
vista” le leggi di trasformazione dei campi, e ciò si ottiene scrivendo le equazioni
di Maxwell stesse in maniera che siano “covarianti a vista” o, come anche si dice,
siano in forma tensoriale. Può servire da riferimento a questo proposito la seguente
frase di Einstein:
“Prima delle ricerche di Minkowski era necessario effettuare una trasformazione di Lorentz su una legge per accertare l’invarianza rispetto a tali trasformazioni; egli invece riuscı̀ ad introdurre un formalismo
tale che la forma matematica della legge garantisce di per sé l’invarianza della legge stessa rispetto alle trasformazioni di Lorentz. Creando
un calcolo tensoriale quadridimensionale, egli ottenne per lo spaziotempo ciò che il calcolo tensoriale aveva ottenuto per le tre dimensioni
spaziali.”
Meccanica Razionale 1: Teoria della relatività, parte seconda
279
In effetti, il calcolo tensoriale era già stato sviluppato nell’ambito degli spazi
vettoriali e più in generale delle varietà differenziabili, ed esposto in un classico lavoro28 29 di Ricci e Levi Civita del 1901, con cui tuttavia Einstein non era familiare
nel 1905. Il contributo di Minkowski consistette sostanzialmente nell’estendere tali
metodi al caso in cui la varietà è lo spaziotempo della relatività ristretta, concepito
dunque come una varietà piatta, ovvero come uno spazio vettoriale, con la peculiarità però di essere munita di un prodotto scalare non definito positivo anziché del
prodotto scalare consueto.
È proprio questo l’elemento caratteristico che costringe anche noi, a questo
punto, a introdurre degli elementi geometrici che lo studente aveva potuto finora
ignorare. In breve si tratta di rendersi conto di quanto segue:
• Quando si ha a che fare con uno spazio vettoriale, diciamolo V , si deve tenere
conto del fatto che esistono non solo i vettori, diciamoli x, y, v, w, elementi dello spazio V stesso, ma anche i covettori, ovvero funzionali lineari su
V (che definiremo subito sotto, come anche altre altre quantità algebriche,
come i funzionali multilineari);
• Ora, come mai questo fatto ha potuto essere ignorato nelle trattazioni elementari della fisica? Ciò è dovuto al fatto che lo spazio ordinario è munito di
un prodotto scalare, perdipiù euclideo (cioè definito positivo). Infatti da una
parte l’esistenza di un prodotto scalare (o di una metrica, come anche si dice)
comporta (come vedremo più sotto) che esiste un isomorfismo naturale tra
covettori e vettori, cioè che ad ogni covettore corrisponde biunivocamente (e
in maniera intrinseca) un vettore, sicché i covettori possono nella sostanza
scomparire, o piuttosto essere ignorati, rimanere in qualche modo nascosti,
in ombra. Ma questo nascondimento è ancor più favorito, in pratica, nel caso
in cui la metrica è anche euclidea. Infatti, in tal caso, se si scelgono vettori
base ortonormali rispetto alla metrica considerata (cioè se si scelgono coordinate cartesiane ortoganali), risulta che le componenti che individuano un
vettore addirittura coincidono con le componenti del corrispondente covettore. Dunque, concretamente, lavorando in coordinate cartesiane ortoganali
si ha che vettori e corrispondenti covettori materialmente coincidono, e si
può comportarsi proprio come se i covettori non esistessero. Ed è proprio in
questo spirito che viene condotto l’insegnamento universitario elementare.
• Ma questo nascondimento non è più possibile nello spaziotempo relativistico. Infatti in tal caso è pur vero che si è ancora in presenza di una metrica, e ciò comporta ancora l’esistenza di un isomorfismo naturale tra vettori
28 Méthodes
de calcul differentiel absolu et leurs applications, Math. Ann. 54 (1901).
mezzi matematici necessari per la teoria della relatività generale erano già pronti nel “calcolo differenziale assoluto”, il quale si basa sulle ricerche di Gauss, Riemann e Christoffel sulle
varietà noneuclidee ed è stato eretto a sistema da Ricci e Levi Civita e da essi applicato a problemi
di fisica teorica”. Da A. Einstein, I fondamenti della teoria della relatività generale (1916), primo
paragrafo.
29 “I
280
Andrea Carati e Luigi Galgani
e covettori. Ma poiché il prodotto scalare non è definito positivo (è pseudoeuclideo), allora succede che, anche se si scelgono vettori base adattati alla
metrica (e quindi si sceglie l’analogo delle coordinate cartesiane ortogonali), un vettore e l’associato covettore non hanno le medesime componenti (la
parte spaziale di un covettore ha segno opposto a quella del corrispondente
vettore), e non è più possibile comportarsi concretamente come se i covettori
non esistessero. Bisogna dunque rassegnarsi a fare i conti (in tutti i sensi)
con i covettori (e più in generale a tener conto della struttura multilineare
associata allo spaziotempo).
Dobbiamo dunque cominciare col prendere atto che esistono i covettori, e dovremo pertanto abituarci a distinguere le componenti dei vettori da quelle dei covettori. Entra qui sulla scena il gioco degli indici, sul quale faremo un breve commento qui sotto: infatti le componenti xi dei vettori vengono denotate con indici in
alto, quelle αi dei covettori con indici in basso.30 Vedremo inoltre che il prodotto
scalare è un funzionale bilineare, con coefficienti che hanno dunque indici in basso, gik . Dovremo poi imparare a maneggiare l’isomorfismo tra vettori e covettori
indotto dalla metrica, il quale viene poi concretamente realizzato mediante l’operazione di abbassamento e innalzamento degli indici. Poche altre cose saranno
infine sufficienti per procedere (regola della traccia, ....).31
Osservazione. Per quanto riguarda il gioco degli indici in alto e in
basso, o piuttosto l’orgia degli indici in alto e in basso, come qualche
volta si dice, bisogna ammettere che sicuramente esso costituisce un
certo ostacolo allo studio del calcolo tensoriale, e che ognuno desidererebbe evitarlo. In effetti, sarebbe possibile una notazione in cui
questo gioco fosse evitato, e forse un giorno verrà trovato un compromesso più soddisfacente. Ma sembra necessario che ci si debba
attenere a un qualche compromesso, in cui il gioco degli indici resta
30 Dirac,
nel suo celebre manuale di Meccanica Quantistica, segue la convenzione opposta: le
componenti dei vettori hanno indici in basso e quelle dei covettori in alto. La convenzione di Dirac
sarebbe forse la più comoda per un primo impatto col calcolo tensoriale, Infatti tutti hanno avuto a
che fare con componenti di vattori, mettendo gli indici in basso, e sarebbe naturale continuare a fare
cosı̀, riservando gli indici in alto alle componenti dei covettori, quando infine si scopre che esistono
anche loro. Purtroppo però Dirac è rimasto isolato in questa sua scelta. D’altra parte, Dirac stesso
si è poi rassegnato a seguire la usuale convenzione, come testimoniato dal suo libro di Relatività
Generale.
31 Se si vuole poi procedere allo studio della relatività generale, nella quale, come tutti hanno
sentito dire, lo spaziotempo è concepito come varietà curva, con curvatura legata alla gravità, allora
si ha bisogno di pochi altri strumenti. Precisamente: il tensore di curvatura e la derivata covariante,
Questa era già sostanzialmente nota alla fine del diciannovesimo secolo, e di uso comune anche
negli spazi piatti quando si usano coordinate generali (non cioè cartesiane ortognali), ad esempio per
determinare la struttura dell’operatore laplaciano. Questa nozione è in stretta relazione con quella di
connessione geodetica (introdotta da Levi Civita nel 1916, e subito estesa da Weyl a spazi non muniti
di metrica), che è necessaria per generalizzare la nozione di parallelismo, e quindi confrontare vettori
di spazi tamgenti diversi, come si fa esempio quando si definisce l’accelerazione.
Meccanica Razionale 1: Teoria della relatività, parte seconda
281
presente, e dopo più di un secolo non si è trovato un compromesso
migliore.
La massima testimonianza a questo proposito è fornita da H. Weyl,
uno dei più grandi matematici del secolo scorso, che peraltro diede contributi fondamentali alla geometria, e scrisse quello che è in
assoluto uno dei più bei libri di relatività (sul quale si formò anche
Fermi)32 . Egli infatti, dopo avere brevemente riassunto le operazioni
fondamentali del calcolo tensoriale,33 per quanto concerne l’uso degli indici cosı̀ si esprime: Various attempts have been made to set up a
standard terminology in this branch of mathematics involving only the
vectors themselves and not their components, analogous to that of vectors in vector analysis. This is highly expedient in the latter, but very
cumbersome for the much more complicated framework of the tensor
calculus. In trying to avoid continual reference to the components we
are obliged to adopt an endless profusion of names and symbols in addition to an intricate set of rules for carrying out calculations, so that
the balance of advantage is considerably on the negative side. An emphatic protest must be entered against these orgies of formalism which
are threatening the peace of even the technical scientist.” Da H. Weyl,
Space–time–matter, Dover (New York, 1952), pag. 53–54.
6.4.2
Necessità di considerare i covettori, innalzamento ed abbassamento degli indici, regola della traccia, trasformazioni degli operatori differenziali.
Il presente paragrafo corrisponde a un terzo circa della parte B dell’articolo di Einstein del 1916 I fondamenti della teoria della relatività
generale: Parte B, mezzi matematici per la formulazione di equazioni covarianti in modo generale. Qui ci limitiamo all’esposizione del
minimo sufficiente per i nostri scopi (relatività speciale in coordinate
cartesiane). Nell’articolo di Einstein sono inoltre esposte le nozioni
di derivata covariante (dopo avere introduzione i simboli di Christoffel) e di tensore di curvatura. Nella presente esposizione facciamo
esplicito riferimento alla nozione di funzionale lineare (vettore covariante, nella terminologia classica) che è implicita nelle formulazioni
dell’inizio del secolo scorso.
32 H. Weyl, Raum–Zeit–Materie (1918), traduzione inglese Space–time–matter, Dover (New York,
1952).
33 Il riassunto è il seguente. “The study of tensor calculus is, without doubt, attended by conceptual
difficulties – over and above the apprehension inspired by indices, which must be overcome. From
the formal aspect, however, the method of reckoning used is of extreme simplicity; it is much easier
than, e.g., the apparatus of elementary vector–calculus. There are two operations, multiplication
and contraction; then putting the components of two tensors with totally different indices alongside
of one another; the identification of an upper index with a lower one, and, finally, summation (not
expressed) over this index.
282
Andrea Carati e Luigi Galgani
Vogliamo dunque anzitutto mettere in luce che i covettori esistono, e vogliamo
poi mostrare che in relatività è necessario prenderli in considerazione, nonostante
che nelle trattazioni elementari (si intende nei corsi di Fisica Generale, nelle parti elementari dei corsi di analisi e della meccanica) essi possano essere ignorati.
Cominceremo col ricordare cosa sono i covettori, come elementi del duale di uno
spazio vettoriale, e daremo poi un cenno ai campi covettoriali (o più in generale,
tensoriali) su una varietà.
Consideriamo dunque uno spazio vettoriale sui reali V , di dimensione n arbitraria,34 e prescindiamo per ora dalla eventuale esistenza di un prodotto scalare.
Conosciamo le proprietà algebriche degli elementi di V (vettori, che denoteremo
con x, y, o anche con v, w), che riguardano la combinazione lineare di due vettori,
cioè la loro somma, e la moltiplicazione di un vettore per uno scalare (numero reale). Sappiamo che in infiniti modi è possibile scegliere una base35 , diciamo {ei }ni=1 ,
sicché ogni vettore è univocamente individuato dalle sue componenti x1 , . . . , xn su
quella base, 36
(6.4.1)
x = ∑ xi ei ≡ xi ei
i
Osservazione: il gioco degli indici e la cosiddetta “convenzione di
Einstein”. Si noti il gioco degli indici: i vettori base ei hanno indice
in basso; le componenti xi dei vettori hanno indice in alto. Più sotto
avremo covettori base εi con indice in alto, componenti αi di covettori
con indice in basso. L’esperienza ha mostrato che tale convenzione
ha le sue comodità.
Si noti poi la cosiddetta convenzione di Einstein: si sottintende il simbolo di somma, quando si hanno due indici uguali (cioè un indice
ripetuto), di cui uno in alto e uno in basso. Nel seguito continueremo per un poco a mantenere (come qui sopra) congiuntamente le due
notazioni, e a un certo momento tralasceremo il simbolo di somma.
I covettori. Possiamo ora dire come si definiscono i covettori (rispetto allo spazio
vettoriale V ): essi sono i funzionali lineari su V , cioè le applicazioni (funzioni!) α
a valori reali, con dominio V ,
α : V → IR
aventi la proprietà di linearità, ovvero che
α(ax + by) = a α(x) + b α(y)
34 Prendiamo
qui dim V = n < ∞; molte proprietà si estendono però al caso di dimensione infinita.
trattazioni più avanzate, i vettori base sono denotati con ∂i invece che con ei . La ragione
di questo fatto è profonda, e verrà illustata brevemente più avanti.
36 Si rammenti che le componenti xi dei vettori non hanno nulla a che fare con le proiezioni ortogonali sugli assi, che è una nozione che richiede l’esistenza di un prodotto scalare. Qui non esiste
ancora nessun prodotto scalare. Eventualmente, esiste solo la “proiezione per parallelismo”, che
corrisponde all’uso della “regola del parallelogrammo”.
35 Nelle
283
Meccanica Razionale 1: Teoria della relatività, parte seconda
per ogni coppia di vettori x, y ∈ V e di numeri a, b ∈ IR. L’insieme dei covettori
su V viene denotato con V ∗ e chiamato “ il duale di V ”. Vedremo che è anch’esso
uno spazio vettoriale di dimensione n, come V .
Ciò è molto astratto, e può essere un primo ostacolo alla comprensione dei
covettori. Ma in effetti i covettori sono concretissimi, come mostra l’esempio fondamentale, cioè quello del covettore corrispondente a “misurare una componente
di un vettore” per una assegnata base, illustrato in Appendice.
Ora comunque cominciamo ad osservare che in virtù della proprietà definitoria
(ovvero la linearità), si ha che, fissata una base {ei } in V , anche i covettori (e
non solo i vettori) sono individuati da n–uple di numeri reali: come un vettore
x è individuato da certe componenti x1 , . . . , xn (se è fissata una base {ei } in V ),
cosı̀ un covettore α è individuato (con riferimento alla stessa base in V ) da certe
componenti α1 , . . . , αn . Infatti, prendiamo un certo covettore α. Allora, poiché
sappiamo come esso agisce su ogni vettore x (producendo un numero reale), cosı̀
sappiamo in particolare come esso agisce su ognuno dei vettori base ei , e dunque
possiamo associare ad α gli n numeri α1 , . . . , αn definiti da
αi = α(ei )
(i = 1, . . . , n) .
D’altra parte, conoscendo questi n numeri αi , conosciamo anche tutto α, cioè la
legge con cui α agisce su ogni x, perché per la proprietà di linearità abbiamo
α(x) = α
∑ xi ei
i
= ∑ xi α(ei ) = ∑ αi xi ≡ αi xi ,
i
i
ovvero:
Se si conosce come il covettore α agisce sui vettori base, cioè si conoscono i numeri αi definiti da
α(ei ) = αi
(i = 1, . . . , n) ,
(6.4.2)
allora l’azione di α su ogni vettore x = ∑i xi ei ≡ xi ei è data da
α(xi ei ) = αi xi .
(6.4.3)
Dunque, avendo fissato una base {ei } in V , ogni covettore α ∈ V ∗ , è individuato da una n–upla di numeri αi definita dalla (6.4.2), e la sua azione su ogni vettore
è data dalla (6.4.3). Si direbbe allora che V ∗ è isomorfo a IRn . In effetti, per potere giustificare questa affermazione, occorre anche dire in quale senso V ∗ è uno
spazio vettoriale, cioè occorre dire come è definita in V ∗ l’operazione di somma
tra due elementi di V ∗ (due covettori) e di moltiplicazione di un covettore per un
numero reale, ovvero come si definiscono le combinazioni lineari in V ∗ ; questo
permette anche di comprendere in quale senso i numeri αi sono le “componenti”
di α su una opportuna base in V ∗ , che viene detta “ base duale” ad {ei }. Questo
284
Andrea Carati e Luigi Galgani
fatto è illustrato in Appendice, insieme con un’altra osservazione relativa alla rappresentazione dei covettori mediante iperpiani nello spazio vettoriale V , che è di
particolare interesse per lo studio della propagazione di onde piane.37
L’esempio prototipo di covettore: Il gradiente di uno scalare. Data una funzione scalare f = f (x1 , . . . , xn ), si ha spesso necessità di considerare la n–upla
∂i f ≡
∂f
∂xi
(6.4.4)
che viene solitamente chiamata il gradiente di f e considerata come un vettore. Ma
si vede subito che si tratta invece di un covettore (o meglio, di un campo covettoriale, ovvero una legge che attribuisce un covettore ad ogni punto di coordinate
x1 , . . . , xn ). Infatti, basta a tal fine ricordare la definizione di derivata direzionale e osservare che (∂i f ) vi è proprio la derivata direzionale di f nella direzione
(v1 . . . , vn ). Si tratta quindi di una quantità assoluta, indipendente dalla base, che
dipende linearmente dal vettore con componenti vk : dunque per definizione abbiamo a che fare con un covettore. Confermeremo questo fatto più sotto, controllando
che, sotto cambiamento di coordinate, la n–upla ∂i f si trasforma proprio come
richiesto per le componenti di un covettore.
L’isomorfismo naturale tra vettori e covettori indotto dalla metrica: abbassamento ed innalzamento degli indici. Veniamo ora ad illustrare il fatto che esiste
un isomorfismo (corrispondenza biunivoca, compatibile con la struttura lineare)
naturale tra V e V ∗ , cioè tra vettori e covettori, quando sia assegnato un prodotto
scalare.
Il modo algebrico per descrivere questa corrispondenza tra vettori e covettori
quando è assegnato un prodotto scalare è il seguente. Per definizione, un prodotto
scalare è anzitutto un’applicazione bilineare g : V ×V → IR, ovvero una “macchinetta” con due entrate, diciamo g(·, ·), la quale produce un numero, g(v, w), per
ogni coppia di vettori v, w; la “macchinetta” deve essere lineare in v se si fissa
w, e lineare in w se si fissa v.38 Dunque, per la proprietà di bilinerità, se si fissa v allora g(v, ·) definisce un funzionale lineare su V , cioè un covettore. Esiste
dunque un’applicazione naturale da V in V ∗ , e si mostra facilmente che tale corrispondenza è biunivoca39 . È questo l’isomorfisomo naturale tra V e V ∗ indotto dal
prodotto scalare. Detto in altri termini: dato un prodotto scalare, a ogni vettore v
corrisponde un covettore (funzionale lineare αv ) che è semplicemente l’operazione
37 Quando
si ricercano soluzioni dell’equazione di d’Alembert nella forma di onde piane, ovvero
Φ(t, x) = A exp(ikµ xµ ), allora kµ sono le componenti di un covettore.
38 Inoltre, deve essere simmetrica ( g(v, w) = g(w, v) ) e nondegenere, ovvero l’unico vettore
ortogonale a tutti i vettori deve essere il vettore nullo; in formule
g(v, w) = 0 ∀w comporta v = 0 .
.
39 Questa
è la traduzione della proprietà di nondegenerazione.
Meccanica Razionale 1: Teoria della relatività, parte seconda
285
(la funzione) “prendere il prodotto scalare con il fissato vettore v”: in formule
αv (w) = g(v, w)
per ogni w ∈ V .
Questa formula si scrive anche
αv (·) = g(v, ·) .
Viceversa, un vettore v è conosciuto se è dato il suo prodotto scalare g(v, w) con
ogni altro vettore w.
Vediamo infine come tale corrispondenza tra vettori e covettori viene in pratica effettuata mediante l’operazione di abbassamento e innalzamento degli indici.
Abbiamo già convenuto di denotare le componenti vi dei vettori con indici in alto
e le componenti αi dei covettori con indici in basso. Inoltre la metrica (il prodotto scalare) è individuata (in una base assegnata) da una matrice con due indici in
basso (vedremo più sotto la ragione di tale scelta), ovvero le “componenti gik della
metrica”. Queste sono definite semplicemente da
gik = g(ei , ek ) ,
e vengono introdotte in maniera del tutto naturale. Infatti, nella base {ei } i due
vettori v, w si scrivono v = vi ei , w = wk ek e dunque, per la bilinearità del prodotto
scalare g, si ha
g(v, w) = g(vi ei , wk ek ) = vi wk g(ei , ek ) = gik vi wk .
D’altra parte se si pensa v fissato, è naturale scrivere
gik vi wk = αk wk ,
con αk = gik vi
ed è chiaro che {αk } è proprio il covettore g(v, ·) che si ottiene fissando v nel
prodotto scalare. Per questo motivo le componenti del covettore α ≡ αv vengono
denotate addirittura cone vk , perchè sono le componenti del covettore univocamente associato al vettore v, e dunque si scrive vk := gik vi . Anzi, poiché si assume
che il prodotto scalare sia simmetrico, g(v, w) = g(w, v), sicché gik = gki , si scrive
anche
vk = gki vi
È questa l’operazione di abbassamento dell’indice.
Veniamo ora all’innalzamento dell’ indice, procedendo nella maniera più piatta
possibile. Ritornando alla notazione αk = gik vi per il covettore αk univocamente
associato al vettore vi , è ovvio che la corrispondenza inversa si scrive nella forma
vi = gik αk
dove gik sono gli elementi della matrice inversa di {gik } (la ragione degli indici in
alto si comprenderà più avanti), ovvero definiti da
gik gkl = δil
286
Andrea Carati e Luigi Galgani
essendo δil la matrice identità. Quindi la matrice gik fornisce la corrispondenza
inversa tra vettori e covettori, e poiché il vettore di componenti vi è univocamente
indivituato dal covettore di componenti αk , si conviene di denotare tale vettore con
la stessa lettera α del covettore, ovvero si scrive
αi = gik αk .
È questa l’operazione di innalzamento dell’indice.
Si noti in particolare come, in presenza di una metrica euclidea, esistono le basi
ortonormali, cioè basi tali che gik = g(ei , ek ) = δik , e dunque in tali basi l’operazione di abbassamento od innalzamento di un indice non produce alcuna variazione:
in spazi euclidei le componenti di vettori e covettori isomorfi, se riferite a una base ortonormale, sono le medesime. È questo il motivo per cui nella fisica e nella
geometria elementari si può tralasciare di parlare di covettori (almeno se ci si riferisce a basi ortonormali). Ma ciò non è più possibile in relatività speciale, in cui si
considera lo spaziotempo riferito a una metrica pseudoeuclidea. Infatti, ciò significa che nelle basi ortonormali (corrispondenti dunque a sistemi inerziali in cui per
la parte spaziale ci si riferisce a coordinate cartesiane ortogonali) la matrice della
metrica e la sua inversa hanno la forma (con la consueta notazione per gli indici,
µ, ν = 0, 1, 2, 3.)
gµ ν = {gµ ν } = diag (1, −1, −1, −1) ,
e dunque l’innalzamento o l’abbassamento di un indice spaziale comporta un cambiamento di segno. Ad esempio se si considera il “vettore–evento” di componenti
{xµ } = (ct, x) ≡ (ct, x, y, z)
si ha che il covettore ad esso corrispondente secondo la metrica lorentziana ha
componenti
xµ = (ct, −x) ≡ (ct, −x, −y, −z).
Campi vettoriali e covettoriali, metrica su una varietà. Abbiamo finora considerato uno spazio vettoriale V e abbiamo in corrispondenza definito lo spazio duale
V ∗ , i cui elementi sono i covettori (funzionali lineari su V ); abbiamo poi analogamente considerato un particolare funzionale bilineare su V definente un prodotto
scalare.
La situazione più significativa che si deve considerare è però un’altra, ovvero
quella in cui si ha uno spazio vettoriale in ogni punto di una varietà. Consideriamo
infatti il più semplice esempio, ovvero quello dello spazio ordinario prerelativistico, il consueto spazio euclideo. È proprio questa la varietà di cui parliamo, anche
se poi casualmente è essa stessa uno spazio vettoriale (tridimensionale). Ma quello che vogliamo mettere in luce è che in ogni punto di tale varietà è definito uno
spazio vettoriale, che è lo spazio tangente alla varietà in quel punto. Ed è proprio
questo spazio tangente quello che prende il posto dello spazio vettoriale V discusso
287
Meccanica Razionale 1: Teoria della relatività, parte seconda
sopra. In altri termini, più in generale, sia data una qualsiasi varietà (differenziabile) M, che localmente possiamo riferire a una carta con coordinate x1 , . . . , xn .40
Allora in ogni punto di M, individuato dalle coordinate x = (x1 , . . . , xn ). è definito
lo spazio vettoriale tangente alla varietà (denotato con Tx M), i cui elementi sono
nient’altro che le velocità di tutti i movimenti (curve parametrizzate) che passano
per quel punto. Dal capitolo sulle equazioni di Lagrange abbiamo imparato come
l’assegnazione delle coordinate locali x = (x1 , . . . , xn ) definisca naturalmente una
base vettoriale (che abbiamo chiamato base coordinata) in ciascun spazio tangente
Tx M.
Dunque la situazione che ci interessa è quella di una varietà (che per noi poi
sarà lo spaziotempo, isomorfo ad IR4 ) in cui si hanno delle coordinate (x1 , . . . , xn )
oppure (x0 1 , . . . , x0 n ) (due diverse carte; nel nostro caso, le coordinate rispetto a due
sistemi inerziali K, K 0 ). In ogni punto di tale spazio è definito lo spazio vettoriale
tangente Tx M. Questo spazio prende il posto di V , e ad esso possiamo dunque associare lo spazio duale Tx∗ M (spazio dei funzionali lineari relativi a Tx M), e cosı̀ anche
possiamo considerare i funzionali bilineari. Per definizione, un campo vettoriale
su M è una funzione che ad ogni punto x di M associa un vettore di Tx M; analogamente un campo covettoriale è una funzione che ad ogni punto x di M associa un
elemento di Tx∗ M. Cosı̀, anche, assegnare una metrica (o un prodotto scalare) vuol
dire dare una funzione che ad ogni punto x di M associa un funzionale bilineare su
Tx M (che sia simmetrico e nondegenere).
Comportamento dei campi vettoriali, dei campi covettoriali e della metrica
sotto cambiamento di coordinate. Consideriamo un cambiamento di coodinate
nella varietà M:
x0 i = x0 i (x1 , . . . , xn ) , i = 1, . . . , n ,
(6.4.5)
e la corrispondente matrice jacobiana A definita da
Aik =
∂x0 i
.
∂xk
Siano poi dati un campo vettoriale vi = vi (x1 , . . . , xn ) (un vettore funzione del posto)
e un campo covettoriale αi = αi (x1 , . . . , xn ).
Allora si mostra immediatamente la seguente
Proposizione. Le componenti vi di un vettore e le componenti αi di un
covettore si trasformano rispettivamente con le leggi
40 In
v0 i =
∂x0 i k
v ,
∂xk
(6.4.6)
α0i =
∂xk
αk .
∂x0 i
(6.4.7)
particolare, M può coincidere con l’ordinario spazio euclideo o lo spaziotempo relativistico,
e quindi essere essa stessa uno spazio vettoriale, sicché le coordinate sono addirittura globali e non
solo locali; ma non sarà più cosı̀ in relatività generale.
288
Andrea Carati e Luigi Galgani
0i
Tra l’altro, si noti che nella prima relazione figura la matrice jacobiana ∂x
,
∂xk
mentre nelle seconda appare la sua inversa (anzi, la trasposta dell’inversa), come si
vede in virtù della relazione41
∂x0 i ∂xk
= δil
∂xk ∂x0 l
(6.4.8)
Dimostrazione. Per quanto riguarda le componenti dei vettori, bisogna ricordare che il modo più significativo per definire un vettore
è il seguente. Avendo fissato delle coordinate xi (una carta, come si
direbbe in geometria differenziale) si considera una curva parametrizzata xi = xi (λ), ovvero l’analogo di un movimento, in cui il parametro
reale λ prende il posto del tempo. Allora per definizione un vettore è
nient’altro che la corrispondente “velocità”:
vi =
dxi
.
dλ
Se poi si considera il cambiamento di variabili (6.4.12), allora le
nuove componenti del vettore velocità sono date da
v0 i =
dx0 i
,
dλ
dove x0 i è funzione composta di λ (attraverso le coordinate xk ). Dunque la prima delle (6.4.6) è nient’altro che la formula per la derivata
di una funzione composta.
Per quanto riguarda le componenti αi dei covettori, la dimostrazione
è la seguente. Date le vecchie componenti αi , le nuove α0i sono definite
dalla condizione42 43
α0i v0 i = αk vk
per ogni (v1 , . . . , vk )
(perché il risultato che si ottiene applicando α a v non deve dipendere
dalla base scelta). Dunque, usando la relazione appena trovata per
v0 i , si richiede
α0i
∂x0 i k
v = αk vk
∂xk
per
ogni (v1 , . . . , vn ) ∈ IRn ,
(6.4.9)
nella (6.4.12), pensare le vecchie variabili xk come funzioni delle nuove x0 l , sicché x0 i è
funzione composta delle variabili x0 l . Allora si usa il teorema di derivata di una funzione composta,
e si osserva
∂x0 i
= δil .
∂x0 l
41 Basta,
42 Si noti che la (6.4.9) è una condizione sulle componenti α0 , perché tutte le altre quantità sono
i
note.
43 Si ricordi che il funzionale lineare α è definito dalla sua azione su tutti i vettori in T M, cioè su
x
tutte le n–uple (v1 , . . . , vn ) ∈ IRn ; questa è la ragione della condizione “per ogni (v1 , . . . , vn ) ∈ IRn ”.
289
Meccanica Razionale 1: Teoria della relatività, parte seconda
ovvero
α0i
k
∂x0 i
−
α
v =0
k
∂xk
0i
− αk = 0 ,
ovvero44 α0i ∂x
∂xk
αk = α0i
per ogni (v1 , . . . , vn ) ∈ IRn ,
k = 1, . . . , n, o anche
∂x0 i
. k = 1, . . . , n .
∂xk
k
∂x
Moltiplicando per ∂x
0 l , sommando su k e usando la (6.4.8) (e cambiando nome agli indici) si ottiene infine la seconda delle (6.4.6).
Q.E.D.
Regola per il cambiamento delle componenti: Covarianza e contravarianza. Si vede dunque che le leggi di trasformazione per le
componenti dei vettori (6.4.6) e quelle dei covettori (6.4.7) sono ben
diverse. Si usa dire che le componenti dei vettori sono di tipo contravariante,45 , le componenti dei covettori sono di tipo covariante.46
Le relazioni (6.4.6) e (6.4.7) sono facilissime a ricordarsi. Consideriamo ad esempio la (6.4.6), in cui le nuove componenti di un vettore
v0 i (indice libero i in alto) sono espresse come combinazione lineari
delle vecchie vk . Allora l’incertezza è se a destra debba apparire la
0
∂x
matrice jacobiana ∂x
∂x oppure la sua inversa ∂x0 e come debbano essere
scelti gli indici. La regola è la seguente: la matrice jacobiana a destra
rispetta esattamente quello che si trova a sinistra. Ovvero, nel nostro
esempio: a sinistra c’è una quantità primata con l’indice in alto ? Allora nella matrice jacobiana a destra la quantità primata appare “in
alto, ovvero a numeratore”, con lo stesso indice che c’è a sinistra; poi,
al denominatore la scelta è determinata in conseguenza. Analogamente consideriamo la (6.4.7). A sinistra appare la quantità primata
con l’indice in basso ?. Allora a destra, nella matrice jacobiana, la
quantità primata va “in basso, ovvero a denominatore”, con lo stesso
indice che c’è a sinistra; poi, al numeratore si va in conseguenza. La
stessa regola (scambiando i termini “primato” e “nonprimato”’) vale
quando si considerano le relazioni inverse. La grande facilitazione
44 Basta prendere successivamente (v1 , . . . , vn ) = (1, 0, . . . , 0), (v1 , . . . , vn ) = (0, 1, . . . , 0), . . .,
(v1 , . . . , vn ) = (0, 0, . . . , 1).
45 Spesso si usa dire controvariante invece di contravariante, sia in italiano che in inglese. La nostra
scelta è quella classica.
46 La ragione sta nel fatto che le componenti dei covettori hanno la stessa legge di trasformazione
dei vettori base ei (per questo hanno entrambi gli indici in basso), mentre le componenti dei vettori
cambiano in maniera “contraria” (contravariano) rispetto a come cambiano i vettori base (per questo
hanno gli indici in alto, come i covettori–base εi , che contravariano anch’essi.
290
Andrea Carati e Luigi Galgani
consiste nel fatto che non ci si deve ricordare se si debba fare intervenire la matrice jacobiana o la sua inversa (o addirittura la trasposta
di quest’ultima).
L’esempio sopra riportato è fondamentale, ed è il prototipo di una situazione assolutamente generale. Infatti quello che abbiamo compiuto è di determinare
la legge di trasformazione delle componenti dei covettori conoscendo la legge di
trasformazione delle componenti dei vettori, e ciò è avvenuto basandosi su un preciso requisito, ovvero che l’applicazione di un covettore a un vettore fornisce un
risultato assoluto, indipendente dalla base. Si richiede infatti che valga
α0i v0 i = αk vk
sapendo già che vale
v0 i =
∂x0 i k
v ,
∂xk
e questa condizione determina47 α0i in funzione di αi (per una applicazione fisica
all’effetto Doppler, si veda avanti). Se si è capito profondamente questo fatto.
allora è immediato svolgere i seguente esercizi:
Esercizio. Sapendo che il prodotto scalare gik vi wk è una quantità assoluta, indipendente dalla scelta delle coordinate (si tratta del prodotto scalare g(v, w)), e sapendo che le componenti vi , wk dei vettori si trasformano in maniera contravariante, determinare la legge di
trasformazione delle componenti della metrica gik .
Il risultato che si trova è
g0ik =
∂x j ∂xl
g jl ,
∂x0 i ∂x0 k
(6.4.10)
ovvero le componenti gik della matrice definente la metrica si comportano in maniera covariante. Si dice che la metrica è un tensore
doppio, due volte covariante.
Esercizio. Sapendo che vi ed αk sono rispettivamente le componenti
di un vettore e di un covettore, e sapendo inoltre che vale
vi = gik αk ,
determinare come si trasformano le componenti gik .
47 Questa in effetti è la definizione che si trova proprio all’inizio della esposizione del calcolo
tensoriale data nel citato articolo di Einstein (si veda la formula (6) relativa ai “vettori covarianti”).
Si tratta di un esempio particolare di quello che Einstein chiama “un teorema che sarà spesso utile
per mettere in evidenza il carattere tensoriale” (parte finale del paragrafo 7).
291
Meccanica Razionale 1: Teoria della relatività, parte seconda
Il risultato che si trova è
g0 ik =
∂x0 i ∂x0 k jl
g ,
∂x j ∂x l
(6.4.11)
e dunque gik è un tensore doppio, due volte contravariante.
In altri termini, appare evidente che la legge di trasformazione delle componenti, di tipo covariante o di tipo contravariante, è nient’altro che la traduzione di
una proprietà generale, ovvero che si ha a che fare con dei funzionali lineari o multilineari (si veda la precisazione subito sotto) definiti in maniera intrinseca, cioè
indipendente dalle coordinate. È questa quella che più in generale viene chiamata
legge di covarianza o di tensorialità.
Un punto delicato è il seguente, riferendoci ancora al caso di uno
spazio vettoriale V (ma l’estensione al caso delle varietà è banale).
Finora abbiamo privilegiato lo spazio vettoriale V (con i suoi vettori),
e allora i covettori sono stati definiti come i funzionali lineari α agenti su V , fornendo, per ogni v ∈ V , il numero α(v). Ma abbiamo poi
detto (si veda l’Appendice) che l’insieme V ∗ dei covettori è anch’esso
uno spazio vettoriale, ed è evidente che, avendo fissato v, il numero
α(v) può essere riguardato come un funzionale lineare agente su V ∗ :
in altri termini, il duale di V ∗ è proprio V stesso, (V ∗ )∗ = V , e dunque V può essere riguardato come il duale di V ∗ , cioè come l’insieme
dei funzionali lineari sullo spazio dei covettori. Si ha pertanto una
completa simmetria:
α : V → IR ,
v : V ∗ → IR ,
e la funzione α(v) può essere denotata, in maniera più simmetrica,
con
< α, v > .
Definizione dei campi tensoriali. Si capisce in tal modo come si possa pervenire
alla seguente
Definizione: Data una varietà M e una sua carta locale con coordinate x1 , . . . xn , un tensore (o meglio un campo tensoriale) di tipo r, s
(ovvero r volte contravariante, s volte covariante) è individuato da
j ,..., j
componenti Ti1 1,...,is r con la proprietà che, al cambiare della carta (ovvero sotto trasformazione delle coordinate), le nuove componenti sono
j ,..., j
date da T 0 i11,...,isr , dove
j ··· j
T 0 i11···isr =
∂x0 j1
∂x0 jr ∂xm1
∂xms l1 ···lr
·
·
·
·
·
·
T
∂xl1
∂xlr ∂x0 i1
∂x0 is m1 ···ms
(6.4.12)
292
Andrea Carati e Luigi Galgani
Questa proprietà, abbastanza complicata a scriversi, rispecchia la più significativa definizione geometrica seguente: un tensore di tipo r, s su uno spazio vettoriale
V è nient’altro che un funzionale multilineare
∗
T :V
. . ×V }∗ ×V
. . ×V} → IR .
| × .{z
| × .{z
r volte
s volte
S
Analogamente, nel caso delle varietà (in cui in luogo di V si ha T M = x Tx M) sotto cambiamento di coordinate le componenti del tensore T si trasformano nel modo
suddetto (si ripensi alla definizione della metrica g e alla legge di trasformazione
delle sue componenti gik ). Si noti che, conformemente alla osservazione appena
fatta sopra, questa definizione geometrica comprende come caso particolare anche
il vettore, pensato come funzionale lineare su V ∗ , ovvero v : V ∗ → IR.
Si noti anche come questi tensori di tipo r, s sono una generalizzazione del
“tensore prototipo” di ordine zero, cioè lo scalare.48
È interessante notare che vale anche l’inverso di quanto detto sopra: se un certo
ente è definito mediante componenti che si trasformano nel modo sopra indicato,
allora tale ente ha significato geometrico, cioè è un funzionale multilineare del tipo
detto sopra.
Esempio. Sia dato uno spazio vettoriale V , sicché sappiamo che i
vettori v ∈ V hanno componenti che si trasformano con la regola v0 i =
∂x0 i k
v . Ammettiamo ora di avere un ente definito da componenti αi
∂xk
k
∂x
che si trasformano con la legge α0i = ∂x
0 i αk . Vogliamo mostrare che le
componenti {αi } definiscono un covettore α : V → IR. Ciò vuol dire
che, per ogni vettore v, si deve avere un risultato α(v) che non dipende
dalla base scelta, ovvero si deve avere
αi vi = α0k v0 k .
E infatti si ha49
α0i v0 i =
∂xl ∂x0 i k
∂xl ∂x0 i
α
v
=
αl vk
l
∂x0 i ∂xk
∂x0 i ∂xk
= δlk αl vk = αl vl
48 Si tratta di una funzione a valori reali definita sulla varietà, diciamo F : M → IR. Essa definisce
un numero reale per ogni punto della varietà; e allora la forma funzionale della funzione f che
rappresenta F deve necessariamente variare al variare delle coordinate proprio in maniera tale che
non cambi il valore di F in corrispondenza di un definito punto della varietà. Ad esempio, se M è la
retta reale, e x una coordinata, allora lo scalare F : M → IR sarà rappresentato da una funzione reale di
variabile reale, diciamo f = f (x). Se poi si passa a un’altra coordinata x0 = x0 (x), allora la medesima
funzione F : M → IR sarà rappresentata da una diversa funzione f 0 definita da f 0 (x0 ) = f (x(x0 )).
49 Si ricordi che gli indici su cui si somma sono “muti” o indici fantoccio (“dummy”) e si può dar
loro un nome arbitrario.
293
Meccanica Razionale 1: Teoria della relatività, parte seconda
Qui si è fatto uso della proprietà
∂xl ∂x0 i
= δlk ,
∂x0 i ∂xk
che, come già osservato, non è altro che il teorema di derivata della
funzione composta (si somma su i, mentre l, k sono fissati!): si pensa
∂xl
l
x funzione di x0 e poi x0 funzione di x, e si ricorda ∂x
k = δk .
L’esempio appena illustrato è un caso particolare della fondamentale
Regola della traccia (o della contrazione o della saturazione): Quando in una espressione contenente delle componenti tensoriali si somma su un indice ripetuto che si trova una volta in alto (indice di contravarianza) e una volta in basso (indice di covarianza) (o, come si
dice, si satura un indice in alto con uno in basso) si ottiene un tensore
di due ordini in meno, in cui “sono scomparsi quei due indici”. Cosı̀
le quantità αi vk individuano un tensore doppio 1 − 1 (una volta contravariante, una volta covariante), ma se si esegue la saturazione dei
due indici si ha la quantità αi vi che è uno scalare. Analogamente, se
Tikl sono le componenti di un tensore di tipo 2 − 1, allora Tiil (avendo
sommato su i) sono le componenti di un tensore di tipo 1 − 0, ovvero
di un vettore. Analogamente gik vk “è un covettore”, mentre gik αk “è
un vettore”.
Questa proprietà è una immediata conseguemza della definizione (6.4.12)
di tensore e della identità (6.4.8).
Veniamo infine all’ultimo richiamo di questo lungo paragrafo: esso riguarda gli
operatori differenziali. Cominciamo con un
Esempio. Le quantità
∂f
∂xi
sono le componenti di un covettore (o meglio, di un campo covettoriale)50 (se f è uno scalare), ovvero si trasformano secondo la legge
∂i f :=
∂0i f 0 =
∂xk
∂k f .
∂x0 i
(6.4.13)
Abbiamo qui denotato con f 0 la funzione f in cui si è eseguito il
cambiamento di variabili, e anche ∂0i f 0 ≡ ∂x∂0 i f 0 .
Dimostrazione.
La (6.4.13) è nient’altro che la formula per la
derivata di una funzione composta,
∂f0
∂ f ∂xk
=
.
∂x0 i ∂xk ∂x0 i
50 Si
noti che l’aver posto l’indice in alto in xi conduce naturalmente ad un indice in basso per ∂i
(infatti l’indice i sta in alto al denominatore).
294
Andrea Carati e Luigi Galgani
Q.E.D.
Si conferma quindi che quello che di solito viene chiamato il “gradiente” non è un vettore (meglio campo vettoriale) ma un covettore
(campo covettoriale). Il vettore gradiente è invece definito “alzando
gli indici”, cioè è dato da ∂i f := gik ∂k f .
Si potrebbe allora pensare ingenuamente che eseguendo successive operazioni
di derivazione si ottengano sempre tensori, di ordine opportuno, cioè che ogni operazione di derivazione aggiunge un indice di covarianza. Ma ciò non è vero, come
mostra il seguente
Lemma. Per le derivate successive di una funzione scalare f vale la
legge di trasformazione
∂0i ∂0k f 0 =
Dimostrazione.
(6.4.13) si ha
∂0i ∂0k f 0 =
∂2 xm
∂xl ∂xm
∂l ∂m f + 0 i 0 k ∂m f .
0
i
0
k
∂x ∂x
∂x ∂x
(6.4.14)
Per il teorema di derivata di una funzione composta
∂xl ∂xm
∂xl ∂xm ∂xl ∂xm
∂
∂
f
=
∂
∂
f
+
∂l
∂m f .
m
l
l m
∂x0 i
∂x0 k
∂x0 i ∂x0 k
∂x0 i
∂x0 k
In tal modo è stato determinato il primo termine a secondo membro
della (6.4.14). Nel secondo termine si usa poi
∂l =
e si ricorda
∂x0 p ∂xl
∂xl ∂x0 i
= δip .
∂x0 p 0
∂
∂xl p
Q.E.D.
Tuttavia la situazione è molto più semplice se ci si limita a considerare trasformazioni di coordinate che siano lineari. Si ha infatti il
Corollario. Se ci si limita a trasformazioni di coordinate x0 i = x0 i (x1 . . . . , xn )
lineari, le quantità ∂i ∂k f si comportano come le componenti di un
tensore due volte covariante.
Dimostrazione.
si ha
Poiché anche la trasformazione inversa è lineare,
∂2 x m
=0.
∂x0 i ∂x0 k
Dunque nella legge di trasformazione (6.4.14) si annulla il secondo
termine, e ci si riduce alla legge di trasformazione dei tensori due
volte covarianti.
Q.E.D.
Meccanica Razionale 1: Teoria della relatività, parte seconda
295
In effetti, esiste un modo generale per ottenere quantità geometriche (cioè aventi carattere tensoriale) per derivazione di tensori quando si abbia a disposizione una
metrica. Questo procedimento fu inventato da Levi Civita nel 1916 e fu poi generalizzato da H.Weyl (derivata covariante) ed è stato da noi implicitamente usato,
senza farlo notare esplicitamente, nella deduzione dell’equazione di Lagrange.
Dimenticandoci ora del problema generale della derivata covariante, ci basta
qui avere constatato (nel caso delle derivate seconde, ma si vede subito che il risultato è generale) che, se ci si limita a trasformazioni lineari (come le rotazioni
nello spazio euclideo, e le trasformazioni di Lorentz nello spaziotempo), è vero
che le operazioni di derivazione aggiungono altrettanti indici di covarianza. Ad
esempio, se ci si limita a trasformazioni lineari, allora ∂i ∂k f (dove f è uno scalare)
si comporta come un tensore due volte covariante (di tipo 0 − 2); analogamente, se
vi sono le componenti di un vettore (o meglio, di un campo vettoriale), allora ∂k vi
si comporta come un tensore di tipo 1 − 1, e ∂i vi come uno scalare (la divergenza
del campo vettoriale v) e cosı̀ via.
Particolarmente importante è il seguente esempio, che sarà di fondamentale interesse per il campo elettromagnetico. Se Aµ è un vettore, e Aµ il corrispondente
covettore, allora ∂µ Aν è un tensore due volte covariante, come lo è anche il tensore
Fµν := ∂µ Aν − ∂ν Aµ . Questo tensore doppio Fµν è evidentemente emisimmetrico
(Fµν = −Fνµ ), sicché è individuato da 6 componenti. Se Aµ ≡ (Φ, A) è il quadripotenziale, allora verificheremo che le componenti indipendenti del tensore Fµν sono
proprio le componenti del campo elettrico E e del campo magnetico H. Il tensore
Fµν viene talvolta detto Tensore di Faraday.
Possiamo infine concludere questi cenni di calcolo tensoriale con il seguente
fondamentale esempio.
Invarianza in forma dell’operatore dalembertiano sotto trasformazioni di Lorentz. Si osserva anzitutto che in un sistema inerziale
(con coordinate spaziali cartesiane ortogonali), avendo la metrica gµν
la forma diagonale diag (1, −1, −1, −1), il dalembertiano (denotiamo
∂tt2 = ∂t ∂t e cosı̀ via)
:= ∂tt2 − (∂2xx + ∂2yy + ∂2zz )
si esprime nella forma
= gµ ν ∂µ ∂ν .
Questa forma è quella buona, perchè satura due indici, uno in alto e
uno in basso, e fornisce uno scalare. Sappiamo pertanto che, se ora
passiamo ad un altro arbitrario sistema di coordinate51 , si avrà
0 = g0 µ ν ∂0µ ∂0ν
51 Sottointendiamo,
ottenuto con trasformazioni lineari come quelle di Lorentz, perchè altrimenti
dovremmo introdurre la derivata covariante in luogo dell’ordinaria derivazione.
296
Andrea Carati e Luigi Galgani
dove g0 µν avrà una certa espressione fornita dalla regola
g0 µ ν =
∂x0 µ ∂x0 ν λσ
g .
∂xλ ∂xσ
Tale espressione risulta in generale alquanto complicata. Ma se ci limitiamo a considerare trasformazioni di Lorentz, sappiamo che queste
sono isometrie, ovvero sono tali che52 g0 µ ν = diag (1, −1, −1, −1),
e dunque si ha ancora
0 = ∂t20t 0 − (∂2x0 x0 + ∂2y0 y0 + ∂2z0 z0 ) .
Esercizio: Soluzioni dell’equazione di d’Alembert in forma di onde piane, ed effetto Doppler. Consideriamo l’equazione di d’Alembert (nell’incognita u = u(t, x) )
∂µ ∂µ u = 0
ovvero
gµ ν ∂µ ∂ν u = 0 ,
(6.4.15)
e cerchiamone una soluzione nella forma
u = A exp[ikµ xµ ]
(6.4.16)
con dei parametri kµ liberi. Per ogni fissato kµ si tratta di un’ onda
piana perché il luogo geometrico u =cost è definito nello spaziotempo
dalla condizione kµ xµ =cost, ovvero da un iperpiano. A sua volta (al
modo solito), questo iperpiano nello spaziotempo corrisponde nello
spazio ordinario a una famiglia di piani paralleli che traslano con
una certa velocità. Questa viene determinata nel modo seguente.
Si osserva che la condizione che u soddisfi l’equazione di d’Alembert
si traduce nella condizione gµ ν kµ kν = 0, ovvero
kµ kµ = 0 .
(6.4.17)
Dunque l’onda piana (6.4.16) soddisfa l’equazione di d’Alembert (6.4.15)
soltanto se il quadrivettore kµ è un vettore nullo (cioè ha pseudolunghezza nulla). La relazione (6.4.17) viene detta relazione di dispersione e la ragione è la seguente. Scriviamo kµ xµ nella forma
tradizionale
kµ xµ = ω t − k · x ,
il che vuol dire (ricordando xµ = (ct, x) ) che il quadrivettore kµ associato al covettore kµ viene decomposto in parte temporale (frequenza
angolare o pulsazione) e parte spaziale (vettore d’onda) come
ω
{kµ } = ( , k) .
c
52 Più
direttamente, avremmo g0µ ν = gµ ν , ma poi segue allora g0 µ ν = gµ ν .
297
Meccanica Razionale 1: Teoria della relatività, parte seconda
Allora la (6.4.17) fornisce una relazione tra frequenza ω e vettore
d’onda k come avviene nella familiare relazione di dispersione. Nel
caso qui considerato di soluzioni dell’equazione di d’Alembert nel
vuoto, tale relazione ha dunque la forma (ω/c)2 − ||k||2 = 0, ovvero
|ω| = ck ,
k = ||k|| .
In altri termini, l’equazione di d’Alembert nel vuoto ha soluzioni della
forma di onde piane normali al vettore d’onda k (dunque con lunghezza d’onda λ = 2π/k) e con pulsazione ω se questi piani si spostano con
velocità c e inoltre si ha ω = ck.
Esercizio: Si deduca la formula per l’effetto Doppler relativistico per
un “boost” di Lorentz (K 0 trasla con velocità v lungo l’asse x di K).
Se (l, m, n) denotano i coseni direttori del vettore d’onda k (ovvero si
ha kx = l ω/c, ky = m ω/c, kz = m ω/c) allora si trovi
ω0 = ω γ (1 − vl/c) .
(6.4.18)
Si ottengano anche le analoghe relazioni per i coseni direttori del
vettore d’onda k nel sistema K 0 . Si confronti l’articolo originale di
Einstein, paragrafo 7. 53
6.5
L’elettromagnetismo in forma covariante (o tensoriale)
6.5.1
Forma covariante della relazione tra potenziali e campi: il tensore di Faraday.
La realazione tra potenziali e campi è l’ambito in cui il passaggio dal formalismo
tridimensionale e quello quadridimensionale nello spaziotempo manifesta tutta la
sua potenzialità; infatti la relazione tra potenziali e campi prende una forma di una
semplicità e una simmetria stupefacenti.
Ricordiamo brevemente quanto avevamo già visto con il formalismo elementare tridimensionale. Avevamo introdotto i potenziali scalare Φ e vettore A, che
fornivano i campi E e H mediante le formule
E = −grad Φ −
1 ∂A
,
c ∂t
H = rot A ,
(6.5.1)
come traduzione delle equazioni di Maxwell omogenee. Le equazioni inomogenee
assumevano invece, nel gauge di Lorentz, caratterizzato da
1 ∂Φ
+ div A = 0 ,
c ∂t
53 Si
(6.5.2)
faccia attenzione al fatto che nell’articolo originale Einstein denota con β il fattore di Lorentz
che oggi tutti denotano con γ.
298
Andrea Carati e Luigi Galgani
la forma di d’Alembert
Φ = ρ ,
A = j/c .
(6.5.3)
Osserviamo ora la potenza del formalismo quadridimensionale. Il primo passo
consiste nel porre come assioma che la densità di carica ρ e la densità di corrente j
si mettono assieme a formare il quadrivettore densità di quadricorrente jµ definito
da54
{ jµ } ≡ (ρc, j) .
(6.5.4)
Da qui segue allora che anche i potenziali costituiscono un quadrivettore, cioè si
può porre
{Aµ } ≡ (Φ, A) .
(6.5.5)
Questa è infatti coerente con la (6.5.4), perché il dalembertiano è invariante.
La prima semplificazione di scrittura che si ottiene allora è che la condizione
di Lorentz (6.5.2) viene scritta in forma quadridimensionale nella semplicissima e
simmetrica forma
∂µ Aµ = 0 .
(6.5.6)
Inoltre, anche le relazioni tra potenziali e campi, dalla loro forma estremamente asimmetrica (6.5.1) vengono ad assumere una forma estremamente elegante e
semplice nel formalismo quadridimensionale. Infatti si ha ad esempio
Hz = ∂1 A2 − ∂2 A1
Ez = −∂0 A3 − ∂3 A0 ,
e si osserva anzitutto che questa scrittura assume forma più simmetrica se si abbassano gli indici (e dunque cambiamo di segno alle componenti spaziali), perché
allora si ha
−Hz = ∂1 A2 − ∂2 A1
Ez = ∂0 A3 − ∂3 A0 .
Considerando anche le altre relazioni in maniera analoga, è allora spontaneo introdurre il tensore doppio
Fµ ν = ∂µ Aν − ∂ν Aµ
(Fµ ν = −Fν µ ) ,
(6.5.7)
che è evidentemennte antisimmetrico, e dunque è individuato da 6 componenti
indipendenti (quante sono le componenti dei campi E ed H). Infatti si riconosce
immediatamente che le componenti del tensore Fµ ν sono date, in termini dei campi,
da


0
Ex
Ey
Ez
 −Ex
0
−Hz Hy 
.
Fµ ν = 
(6.5.8)
 −Ey Hz
0
−Hx 
−Ez −Hy Hx
0
54 Si
deve pensare che la densità di corrente j associata a una particella coincida con ρv dove v è la
velocità della particella e ρ la corrispondente densità di carica.
299
Meccanica Razionale 1: Teoria della relatività, parte seconda
Si vede dunque che il campo elettrico e il campo magnetico costituiscono una
unità, il tensore doppio antisimmetrico Fµ ν (detto talvolta tensore di Faraday).
Un punto cruciale è che la struttura tensoriale del quadrivettore Aµ comporta automaticamente una struttura tensoriale per Fµ ν (tensore due volte covariante), sicché
viene automaticamente stabilito quale è la legge di trasformazione delle sue componenti (e quindi anche dei campi E, H) quando si compie una trasformazione di
Lorentz sulle coordinate. Svolgeremo questo esercizio più sotto, verificando che si
ottengono proprio le leggi di trasformazione già trovate nella prima parte di questo capitolo con il metodo elementare alla Lorentz, Poincaré ed Einstein (metodo
forza bruta). Questo esempio dovrebbe illustrare in maniera sufficiente le parole di
Einstein citate più sopra:
“Egli (Minkowski) invece riuscı̀ ad introdurre un formalismo tale che
la forma matematica della legge garantisce di per sé l’invarianza della
legge stessa rispetto alle trasformazioni di Lorentz. Creando un calcolo tensoriale quadridimensionale, egli ottenne per lo spaziotempo ciò
che il calcolo tensoriale aveva ottenuto per le tre dimensioni spaziali.”
Mostreremo anche quale forma assumono le equazioni di Maxwell in termini
del tensore di Faraday. Preliminarmente, osserviamo che il tensore antisimmetrico
F µν associato ad Fµ ν secondo le regole per l’innalzamento degli indici è dato da

0 −Ex −Ey −Ez
 Ex
0
−Hz Hy 
.
{F µ ν } = 
 Ey Hz
0
−Hx 
Ez −Hy Hx
0

6.5.2
(6.5.9)
Le equazioni di Maxwell in termini del tensore di Faraday F.
Si ha la
Proposizione. In termini del tensore di Faraday Fµ ν = ∂µ Aν − ∂ν Aµ
(e del suo corrispondente contravariante Fµ ν ) le equazioni di Maxwell
inomogenee si scrivono (in coordinate cartesiane ortogonali rispetto
alla metrica di Lorentz) nella forma
∂µ F µ ν = jν /c
(ν = 0, 1, 2, 3) ,
(6.5.10)
mentre le equazioni omogenee assumono la forma
∂λ Fµ ν + ∂µ Fν λ + ∂ν Fλ µ = 0 ,
(λ, µ, ν = 0, 1, 2, 3) .
(6.5.11)
Dimostrazione. Per le equazioni inomogenee la verifica è immediata. Per quanto riguarda quelle omogenee, osserviamo anzitutto che le
equazioni che si ottengono in tal modo sono proprio in numero di 4,
300
Andrea Carati e Luigi Galgani
e corrispondono alle scelte possibili degli indici (λ, µ, ν) tutti diversi
tra di loro, ovvero (0, 1, 2) , (0, 1, 3) , (0, 2, 3) , (1, 2, 3) . Infatti si
verifica facilmente che in tutti gli altri casi, per l’antisimmetria di F,
Fµν = −Fνµ , si ottiene l’identità 0 = 0. Nei casi non banali si ha ad
esempio:
(0, 1, 2) → ∂0 F12 + ∂1 F20 + ∂2 F01 = 0
cioè la terza componente di 1c ∂t H + rot E = 0. Inoltre si ha
(1, 2, 3) → ∂1 F23 + ∂2 F31 + ∂3 F12 = 0
ovvero div H = 0.
Q.E.D.
Esercizio. Verificare che la legge generale di trasformazione delle componenti dei
tensori, applicata al tensore di Faradyay, fornisce per la trasformazione dei campi
esattamente quella precedentemente trovata con il metodo di Lorentz, Poincaré ed
Einstein.
Svolgimento. Si veda Landau Lifshitz, Teoria dei campi, paragrafo 24.
6.6
6.6.1
Particella in campo elettromagnetico
Equazioni di moto in forma covariante (con campi assegnati)
Seguendo il procedimento induttivo sviluppato nella prima parte di questo capitolo siamo già pervenuti all’assioma che l’azione hamiltoniana di una particella in
campo elettromagnetico è data da
Z
e
(6.6.1)
S=−
mc + g(A, u) ds ,
c
dove g(A, u) è il prodotto scalare tra quadrivelocità uµ e quadripotenziale Aµ ,
g(A, u) = gµν Aµ uν = Aµ uµ ,
ovvero
e
mc + Aµ uµ ds .
(6.6.2)
c
Facendo uso della scrittura (6.6.1) per l’azione, abbiamo già ottenuto per una particella in campo elettromagnetico l’equazione di moto in forma tridimensionale,
ovvero
d
1
(mγv) = e(E + v × H) ,
(6.6.3)
dt
c
con il corrispondente teorema dell’energia
S=−
Z
d
mγc2 = eE · v ,
(6.6.4)
dt
e vogliamo ora scrivere le corrispondenti equazioni in forma covariante. Otterremo
in tal modo 4 equazioni, di cui la componente spaziale coinciderà con la (6.6.3),
mentre la componente temporale fornirà il teorema dell’energia (6.6.4).
301
Meccanica Razionale 1: Teoria della relatività, parte seconda
Proposizione. L’equazione di moto per una particella in campo elettromagnetico, scritta in forma covariante, è data da
mc2 aµ = eFµ ν uν
(µ = 0, 1, 2, 3)
(6.6.5)
(µ = 0, 1, 2, 3) .
(6.6.6)
o equivalentemente da
mc2 aµ = eF µ ν uν
Dimostrazione.
L’azione hamiltoniana (6.6.2) ha la forma
Z
S=
Lds
con
e
L = L(mecc) − Aµ uµ ,
c
(mecc)
dove L
= −mcL̃, mentre L̃ è la lagrangiana usata nel capitolo precedente per studiare le geodetiche della particella libera. I
movimenti naturali sono allora le soluzioni xµ (s) delle equazioni di
Eulero–Lagrange
d ∂L
∂L
− µ =0.
µ
ds ∂u
∂x
Avevamo già eseguito il calcolo che fornisce
∂L(mecc)
= −mcuµ .
∂uµ
Dunque si trova
∂L
e
= −mcuµ − Aµ ,
µ
∂u
c
∂L
e
= − (∂µ Aν )uν .
∂xµ
c
Pertanto si ha
=
d ∂L
∂L
ds
∂uµ − ∂xµ
−mcaµ − ce (∂ν Aµ )uν − (∂µ Aν )uν
= −mcaµ + ce ∂µ Aν − ∂ν Aµ uν
= −mcaµ + ec Fµ ν uν ,
e dunque le equazioni di Eulero–Lagrange hanno la forma
e
mcaµ = Fµν uν .
c
Q.E.D.
Esercizio. Controllare che la componente spaziale dell’equazione di
moto quadridimensionale (6.6.6) fornisce la (6.6.3), e che la componente temporale fornisce il corrispondente teorema dell’energia (6.6.4).
302
Andrea Carati e Luigi Galgani
APPENDICE: SUL DUALE DI UNO SPAZIO VETTORIALE
La base duale. Cominciamo con l’osservare che, data una base {ei } in V , esistono
n covettori che si possono veramente toccare con mano. Si tratta dei covettori che
corrispondono alla familiare operazione di “misurare i vettori”, cioè misurare le
componenti di un vettore rispetto alla base assegnata. Infatti, ben sappiamo che,
data la base, ogni vettore x è univocamente determinato da componenti x1 , . . . , xn
tramite la (6.4.1), x = ∑i xi ei ≡ xi ei . Si tratta ora di compiere l’operazione inversa,
cioè determinare le componenti quando sia dato il vettore. Il salto psicologico che
si deve compiere è di pensare alle componenti come ottenute mediante un’operazione, cioè come una funzione che produce un numero in corrispondenza di ogni
vettore. Fissato un ben definito vettore tra i vettori base ei , ad esempio e1 , allora il
numero x1 è una funzione a valori reali definita su V , ovvero si ha x1 : V → IR, ed è
evidente che tale funzione è lineare. Dunque l’operazione di misurare (o estrarre)
la i–esima componente di un vettore quando sia fissata una base55 è un covettore,
che denoteremo con εi :
εi (∑ xk ek ) ≡ εi (xk ek ) = xi .
(6.6.7)
k
Equivalentemente, il covettore εi è definito da
εi (ek ) = δik .
(6.6.8)
Dovrebbe dunque essere chiaro che il covettore α definito dalla n–upla α1 , . . . , αn
mediante la (6.4.2) può essere pensato come combinazione lineare degli n covettori–
base εi , precisamente la combinazione
α = ∑ αi εi ,
(6.6.9)
i
quando si sottintenda di prendere la naturale definizione di combinazione lineare.56 Infatti la (6.6.9) è nient’altro che una riscrittura della (6.4.3). In questo
senso dunque, assegnata una base {ei } in V , risulta che nello spazio duale V ∗ è
corrispondentemente assegnata una ben definita base, ovvero la {εi } definita dalla
(6.6.7) o dalla (6.6.8). Questa viene detta “base duale”. Se si hanno un vettore
x ∈ V e un covettore α ∈ V ∗ individuati dalle loro componenti xi ed αi nel senso che x = ∑ xi ei ≡ xi ei , α = ∑ αi εi ≡ αi εi , allora si ha α(x) = ∑ αi xi ≡ αi xi . 57
55 Abbiamo
già ricordato che qui si considerano i vettori a livello puramente algebrico, senza
alcun riferimento a un eventuale prodotto scalare, cioè senza nessuna nozione di ortogonalità, o basi
ortonormali.
56 Ovvero, dati due covettori α, β e due numeri reali a, b, il covettore a α + b β è definito da
(aα + bβ)(x) := a α(x) + b β(x) per ogni x ∈ V .
quanto detto risulta in particolare che V e V ∗ hanno la stessa dimensione, perché ogni covettore α ∈ V ∗ è univocamente individuato da n numeri αi . Naturalmente, anche V ∗ , essendo uno
57 Da
Meccanica Razionale 1: Teoria della relatività, parte seconda
303
Dunque, l’i–esimo covettore–base εi agisce su ogni vettore estraendone la i–esima
componente (misura la i–esima componente del vettore).
Covettori, e iperpiani dello spazio vettoriale V . Abbiamo dunque illustrato come esistano dei covettori ben concreti, che corrispondono a misurare le componenti
dei vettori rispetto ad una base assegnata, e inoltre come ogni covettore sia combinazione lineare di quelli. Ma ci si può anche domandare se i covettori possano
essere descritti in maniera intrinseca, ovvero in maniera indipendente dalla scelta
della base, e addirittura con riferimento allo spazio vettoriale V su cui essi sono
definiti. La risposta è assolutamente positiva. Anzitutto, ogni covettore individua
un piano (o un iperpiano, nel caso n > 3) nello spazio vettoriale V . Infatti, fissato
un covettore α ∈ V ∗ (con certe componenti (α1 , . . . , αn ) relative alla scelta di una
base in V ), si consideri il sottoinsieme di V definito da
Π = {x ∈ V :
α(x) = 0 ,
ovvero
∑ αi xi = 0 } ;
(6.6.10)
i
in altri termini, Π è il nucleo (ingl. kernel) del funzionale lineare α. Allora tutti
sappiamo che Π è un piano passante per l’origine dello spazio vettoriale V . Si noti
che ogni covettore β = a α (a ∈ IR), multiplo di quello considerato, evidentemente
definisce lo stesso piano Π. Viceversa, ad ogni piano passante per l’origine di V
sono associati infiniti covettori, che si ottengono l’uno dall’altro moltiplicando uno
arbitrario di essi per un numero. Se si vuole, è possibile poi identificare ognuno di
tali covettori assegnando, in aggiunta al piano passante per l’origine, anche il piano
ad esso parallelo sul quale quel particolare covettore prende il valore 1. Si capisce
dunque perché i covettori svolgono un ruolo importante in ottica nella discussione
dei fronti d’onda, e più in generale nello studio dei fenomeni di propagazione delle
onde.
Nelle trattazioni elementari riferite allo spazio euclideo E 3 , non si fa alcun riferimento ai covettori perché un piano passante per l’origine viene definito attraverso
la scelta di un vettore n ad esso ortogonale. Ovvero, fissato il vettore n in E 3 , il
piano Π è definito da
Π = {x ∈ IR3 : x · n = 0} .
(6.6.11)
Ma, come già abbiamo osservato, ciò è possibile solo in virtù del fatto che nello
spazio euclideo E 3 è assegnata una metrica (cioè un prodotto scalare), e questo
fatto, come mostriamo nel testo, fornisce un isomorfismo naturale tra vettori e covettori. Si tenga tuttavia presente che, se si prende in V una base che non è ortonormale rispetto all’assegnato prodotto scalare, allora i coefficienti che figurano nella
definizione analitica del piano, ovvero i numeri αi (le componenti del covettore
spazio vettoriale, avrà il suo duale, che coerentemente denoteremo con (V ∗ )∗ , o più semplicemnte
con V ∗∗ (biduale di V ) e si mostra iimediatamente che (nel caso finito–dimensionale) si ha V ∗∗ = V .
Invece V ∗ e V sono proprio due spazi diversi, che possono venir posti in corrispondenza biunivoca in
maniera “naturale” solo quando si introduca un nuovo elemento nello spazio vettoriale, ad esempio
(come nel caso che a noi interessa qui) una metrica, ovvero un prodotto scalare, come è mostrato nel
testo.
304
Andrea Carati e Luigi Galgani
α definente il piano), non coincidono affatto con le componenti del vettore n che
figura nella definizione (6.6.11). Questo fatto è spesso causa di confusione nelle
trattazioni elementari.