Capitolo 6 Teoria della relatività ristretta. Parte seconda: particella in campo elettromagnetico (trattazione covariante) 6.1 Le equazioni di Maxwell e i potenziali elettromagnetici Nel capitolo precedente abbiamo discusso in maniera elementare (seguendo sostanzialmente la esposizione divulgativa di Einstein) la cinematica relativistica, mostrando in particolare come il principio di costanza della velocità della luce conduce a postulare che lo spaziotempo è munito di un opportuno prodotto scalare pseudoeuclideo. Abbiamo poi mostrato come questa geometrizzazione dello spaziotempo induca spontaneamente (attraverso il principio di Hamilton dell’azione stazionaria) a fornire una espressione per la lagrangiana della particella libera, la cui conseguenza più rilevante è che esiste per ogni particella una energia a riposo, data dalla celebre formula di Einstein E = mc2 . Questi argomenti corrispondono sostanzialmente a quelli discussi nell’articolo del 1905 di Einstein: la cinematica nella prima parte (paragrafi da 1 a 5), la dinamica nell’ultimo paragrafo, il decimo.1 ) Nel presente capitolo ci occupiamo invece, almeno parzialmente, dell’analogo della seconda parte dell’articolo originario di Einstein (paragrafi dal 6 al 9), che è dedicata all’elettrodinamica. La trattazione viene qui svolta a due livelli. In una 1 Si osservi però che la trattazione della dinamica da parte di Einstein è alquanto diversa da quella che è stata svolta qui, seguendo Planck e Levi–Civita. Si noti in particolare che la relazione E = mc2 viene data da Einstein non nell’originario articolo del 1905, dal titolo L’elettrodinamica dei corpi in movimento, ma in una brevissima nota successiva, dal titolo L’inerzia di un corpo dipende dal suo contenuto di energia?, in cui si fa un uso essenziale delle proprietà del campo elettromagnetico, anziché della pura dinamica di una particella. 257 258 Andrea Carati e Luigi Galgani prima parte la trattazione viene svolta a livello “elementare”, ovvero senza fare ricorso al calcolo tensoriale, come d’altra parte avviene nella trattazione di Einstein. Preliminarmente, verranno forniti dei richiami sulle equazioni di Maxwell in modo da costruire un ponte con la trattazione familiare allo studente dai corsi di Fisica Generale. In una seconda parte le equazioni di Maxwell e le equazioni di moto per una particella in campo elettromagnetico vengono poi discusse con i metodi del calcolo tensoriale (che Einstein utilizzò in una fase successiva, quando ne ebbe bisogno per formulare la relatività generale). È ovvio che questa trattazione richiederebbe dunque un lungo excursus di tipo geometrico sul calcolo tensoriale, che nel presente corso non abbiamo la possibilità di svolgere in maniera completa. Si deve dunque compiere un difficile compromesso. Siamo fiduciosi che la scelta qui compiuta possa risultare positiva. 6.1.1 Le equazioni di Maxwell (con sorgenti assegnate) Le equazioni di Maxwell (1873) costituiscono un miracolo della storia della fisica, sı̀ da fare esclamare enfaticamente a Boltzmann, citando il Faust di Goethe: “War es ein Gott welcher diese Zeichen schrieb ?” (Fu un Dio che scrisse queste righe ?). Esse compendiano in linea di principio tutto l’elettromagnetismo. In particolare, il termine descrivente la “corrente di spostamento”, introdotto da Maxwell per puri motivi di consistenza interna della teoria, fa sı̀ che le equazioni prevedano l’esistenza di onde elettromagnetiche nel vuoto, che si propagano esattamente con la velocità della luce c, sicché l’ottica stessa viene ridotta a fenomeno elettromagnetico. La propagazione di onde elettromagnetiche con frequenze di gran lunga inferiori a quelle ottiche venne successivamente osservata da Hertz (su suggerimento di Helmholtz), e questo fatto diede poi origine a tutte le applicazioni che ben conosciamo: la radio, la televisione...2 È noto che in elettromagnetismo si considerano quattro campi descritti dai vettori E, D, B, H, che però nel vuoto si riducono a due soli, perché si ha D = E, B = H. Noi ci limiteremo alle equazioni nel vuoto, e faremo riferimento ai campi E ed H che chiameremo semplicemente campo elettrico e campo magnetico. Si ammette che l’azione ponderomotrice dei campi (cioè l’azione meccanica, la forza, esercitata sulla materia) sia data dalla forza di Lorentz v F(em) = e(E + × H) c (6.1.1) su una particella di carica “e” e velocità v; inversamente, la distinzione tra campo elettrico E e campo magnetico H è proprio la circostanza che il primo agisce anche su una particella ferma, mentre il secondo produce una forza proporzionale alla velocità della particella,3 e dunque non agisce su una particella ferma. Proprio questa 2I lavori di Hertz sono riprodotti in un volume della Dover. per particelle non dotate di momento magnetico intrinseco. 3 Almeno 259 Meccanica Razionale 1: Teoria della relatività, parte seconda circostanza mostra che la distinzione tra campo elettrico e campo magnetico (ovvero il corrispondente spezzamento della forza di Lorentz) è relativa e non assoluta (cioè dipende dal sistema di riferimento). Su questo punto importante ritorneremo più sotto, mostrando che i campi E ed H costituiscono una unità (Tensore di Faraday, di ordine 2 ed emisimmetrico) nello spaziotempo, nello stesso senso in cui costituisce una unità un vettore in IRn , che è un oggetto assoluto, ovvero indipendente dalla base eventualmente scelta (mentre le componenti del vettore non sono assolute, ma dipendono dalla base). Ma per ora procediamo in maniera elementare. Le equazioni di Maxwell nel vuoto hanno la forma (usiamo il sistema CGS elettromagnetico, forse poco familiare allo studente, ma la scelta delle unità è del tutto irrilevante) div H = 0 1 ∂H = 0 rot E + c ∂t div E = ρ 1 ∂E rot H − = j/c , c ∂t (6.1.2) (6.1.3) dove ρ = ρ(t, x), j = j(t, x) sono la densità di carica e la densità di corrente, che si pensano assegnate funzioni di (t, x) (materia data o assegnata, come si usa dire), mentre c è la velocità della luce nel vuoto.4 Le prime due equazioni si dicono costituire la coppia omogenea (non hanno secondi membri), mentre le altre due costituiscono la coppia non omogenea, o con sorgenti. Come si vede, si tratta di equazioni lineari nei campi, sicché vale il principio di sovrapposizione (che è un teorema): “i campi generati da (ρ1 + ρ2 , j1 + j2 ) sono la somma dei campi creati da (ρ1 , j1 ) e da (ρ2 , j2 )”. Osservazione Come detto sopra, abbiamo qui usato il sistema CGS elettromagnetico, comune a tutti i grandi trattati di fisica teorica, come tipicamente il classico testo di Landau e Lifshitz. L’elemento più caratteristico è forse il fatto che tale sistema fa intervenire nelle equazioni di Maxwell la velocità della luce c, mentre nelle equazioni scritte nella forma probabilmente nota agli studenti5 intervengono la costante dielettrica ε0 e la permeabilità magnetica µ0 del vuoto. Questa 4 Dal punto di vista mnemonico, è semplicissimo ricordare in quale modo c figuri nelle equazioni. Dove appare il tempo t, lı̀ c’è sempre c, in maniera che appaia la formazione ct (sicché si potrebbe prendere come variabile in luogo del tempo la quantità τ = ct). Per questo motivo avviene anche che la velocità v appare sempre nella forma v/c (si pensi v come la derivata della posizione di una particella rispetto al tempo), e lo stesso avviene per la corrente o la densità di corrente (perché la densità di corrente dovuta a una particella è proporzionale alla sua velocità). 5 Ovvero, div B = 0 , rot E + ∂B = 0 , div D = ρ , rot H = j + ∂D , B = µ H , D = ε E. Si veda 0 0 ∂t ∂t ad esempio R. Becker, Electromagnetic fields and interactions, Dover (New York, 1964), Sez. 53, pag. 257. 260 Andrea Carati e Luigi Galgani introduzione di c è resa possibile dal fatto che la quantità 1/(µ0 ε0 ) ha le dimensioni di una velocità al quadrato, e il suo valore risulta essere proprio c2 , una circostanza questa che era nota prima di Maxwell, e che faceva già presagire che l’elettricità e il magnetismo potessere essere connessi anche con l’ottica. Ciò è proprio vero. Infatti, le equazioni di Maxwell costituiscono anzitutto una generalizzazione delle equazioni che riassumono l’elettrostatica e la magnetostatica al caso di campi dipendenti dal tempo, in modo da includere la legge di induzione di Faraday. Maxwell però aggiunge nella seconda equazione inomogenea un opportuno termine (la “corrente di spostamento” 1 ∂E c ∂t ), il quale ha la conseguenza che si hanno onde elettromagnetiche che, nel vuoto, si propagano proprio con velocità c, la stessa della luce, sicché anche l’ottica viene incorportata nell’elettromagnetismo. Questi fatti vengono richiamati qui sotto. Cominciamo con l’osservare che l’elettrostatica e la magnetostatica si ottengono dalle equazioni di Maxwell come casi particolari statici (in cui cioè ∂H ∂t = 0, ∂ρ ∂j ∂E ∂t = 0, ∂t = 0, ∂t = 0). Infatti in tal caso le equazioni (6.1.2) e (6.1.3), opportunamente redistribuite, si riducono alle due coppie (con ρ e j indipendenti dal tempo) rot E = 0 div E = ρ elettrostatica div H = 0 rot H = j/c magnetostatica. Ricordiamo che in elettrostatica e in magnetostatica si introducono rispettivamente il potenziale scalare Φ (rot E = 0 ⇒ ∃Φ : E = −grad Φ) e il potenziale vettore A (rot H = 0 ⇒ ∃A : H = rot A), entrambi non definiti univocamente (si può scegliere A in modo che div A = 0; si veda più sotto), e dunque l’elettrostatica è compendiata nell’equazione6 −∆Φ = ρ e la magnetostatica nell’equazione7 −∆A = j/c . Nella sostanza, l’elettrostatica nel vuoto (e nello spazio infinito – altrimenti si hanno problemi di condizioni al contorno) si riduce alla legge di Coulomb, e la 6 Si introduce l’operatore “laplaciano” ∆ := div grad = ∂xx + ∂yy + ∂zz in coordinate cartesiane ∂2 ∂ ortogonali. Qui si è usata la notazione ∂x = ∂x , ∂2xy = ∂x∂y e cosı̀ via. 7 Si ricordi l’identità rot rot = grad div − ∆, su cui diremo qualcosa più sotto. 261 Meccanica Razionale 1: Teoria della relatività, parte seconda magnetostatica nel vuoto si riduce alla Legge di Biot e Savart, che può leggersi dall’equazione rot H = j/c mediante il teorema di Stokes. Nel caso generale (non statico) si passa alle equazioni di Maxwell cambiando l’equazione rot E = 0 nell’equazione rot E + 1c ∂H ∂t = 0, che traduce in termini differenziali la legge di induzione di Faraday (una variazione di campo magnetico produce un certo ben definito campo elettrico). Si pensi all’analogia con rot H = j/c. ∂H Qui si ha rot E = − 1c ∂H ∂t : quindi, se è assegnato ∂t , questo campo svolge un ruolo analogo a quello svolto da j nell’equazione di Biot e Savart, e quindi produce un certo campo elettrico E analogo al campo magnetico H di Biot e Savart creato da j. Infine, nel passaggio all’elettromagnetismo si cambia anche l’equazione rot H = ∂E 1 j/c nell’equazione rot H = c j + ∂t che si legge nel modo seguente: una variazione di campo elettrico produce un campo magnetico esattamente (a parte un segno) come nella legge di Faraday una variazione di campo magnetico produce un campo elettrico. In altri termini, 1c ∂E ∂t agisce come una corrente elettrica e viene detto corrente di spostamento8 . Proprio questo termine, introdotto da Maxwell per pure ragioni teoriche, fa sı̀ che esistano le onde elettromagnetiche nel vuoto (l’analoga proprietà in presenza di materia verrà dimostrata più sotto facendo uso dei potenziali elettromagnetici). Si ha infatti la Proposizione 1 In assenza di materia (ρ = 0, j = 0) i campi E, H soddisfano nel vuoto l’equazione di d’Alembert9 E = 0, H = 0 = 1 ∂2 −∆ . 2 2 c ∂t Dimostrazione. Si prende il rotore della seconda equazione omogenea (6.1.2), ottenendo rot rot E = − 1c ∂t∂ rot H (si scambiano ∂t∂ e rot per il teorema di Schwartz). Si sostituisce poi rot H prendendolo dalla seconda equazione inomogenea (6.1.3) (ma con j = 0); usando 2 rot rot = grad div − ∆ e anche div E = 0, si ottiene −∆E = − c12 ∂∂tE2 . Analogamente si trova l’equazione per H prendendo il rotore della seconda equazione inomogenea (con j = 0). Q.E.D. Resta ora da capire di dove venga la necessità di aggiungere il termine con la corrente di spostamento nella seconda equazione inomogenea. Ciò è dovuto al fatto che si richiede, come nella meccanica dei sistemi materiali, che la densità di carica ρ e la densità di corrente j soddisfino l’equazione di continuità ∂ρ + div j = 0 . ∂t 8 Perché 1 ∂D c ∂t , (6.1.4) e il vettore D veniva chiamato “spostamento” elettrico. 9 L’operatore viene chiamato “quadratello” oppure “dalembertiano”. in effetti si dovrebbe considerare 262 Andrea Carati e Luigi Galgani Ora, in magnetostatica, prendendo la divergenza nell’equazione rot H = j/c, in virtù dell’identità div rot = 0 si trova div j = 0. Se invece, seguendo Maxwell, ∂ poniamo rot H − 1c ∂E ∂t = j/c, abbiamo div j = − ∂t div E, e dall’equazione div E = ρ otteniamo l’equazione di continuità. Dal punto di vista matematico, si avrebbe l’interessante problema di studiare il problema di Cauchy per i campi, e l’ancor più interessante problema di studiare vari problemi al contorno; ma di questi problemi qui non ci occupiamo. Osservazione. Il principio di relatività e le equazioni di Maxwell: non assolutezza della distinzione tra campo elettrico e campo magnetico. Come introduzione al problema dell’applicazione del principio di relatività all’elettromagnetismo, può essere utile considerare il seguente semplice esempio. Vogliamo determinare i campi elettrico e magnetico prodotti da un filo contenente una densità di carica ρ (uniforme e indipendente dal tempo), anzitutto rispetto a un sistema inerziale K solidale col filo, e poi rispetto a un altro sistema inerziale K 0 , in moto rispetto a K lungo la direzionde del filo. Naturalmente stiamo ammettendo, conformemente al principio di relatività, che in tutti i sistemi inerziali valgano le equazioni di Maxwell in cui figuri la medesima costante c. Anzi è proprio questa la formulazione pregnante di quello che avevamo chiamato principio di costanza della velocità della luce, principio che nel capitolo precedente avevamo applicato in una forma ridotta (costanza della velocità di propagazione dei raggi di luce, anziché costanza della velocità di propagazione delle onde elettromagnetiche o, meglio ancora, anziché invarianza in forma delle equazioni di Maxwell). Infatti il problema che si poneva prima del 1905 era come dovessero cambiare le equazioni dell’elettromagnetismo al cambiare del sistema di riferimento, cioè passando da un supposto sistema privilegiato (in quiete rispetto all’etere) a ogni altro sistema traslante di moto uniforme rispetto a quello. Invece secondo il principio di relatività tutti i sistemi inerziali sono equivalenti anche rispetto alle equazioni di Maxwell, che devono mantenere la stessa forma in ogni sistema inerziale (e contenere la medesima costante c). Il problema di come debbano trasformarsi i campi verrà discusso in un prossimo paragrafo. Qui, come esercizio preliminare, vogliamo restringerci a mettere in luce come il principio di relatività nel senso suddetto comporti che la distinzione tra campo elettrico e campo magnetico non sia assoluta, ma dipenda dal particolare sistema di riferimento considerato. Nell’esempio che stiamo discutendo, ci si riduce a considerare le equazioni statiche, e quelle inomogenee danno div E = ρ, rot H = j/c . Meccanica Razionale 1: Teoria della relatività, parte seconda 263 Nel sistema “fisso (o stazionario)” (ovvero solidale con il filo), si ha una certa densità di carica, mentre la densità di corrente è nulla, j = 0. Dunque si ha un certo campo elettrico E 6= 0, mentre il campo magnetico è nullo, H = 0 Ma, se osserviamo il filo da un sistema di riferimento inerziale K 0 in moto rispetto al filo stesso, il filo appare come contenente cariche in moto uniforme. Dunque per il sistema “mobile” si ha una certa densità di carica ρ0 6= 0 che potremmo calcolare, mentre per la densità di corrente sappiamo che essa è certamente diversa da quella del sistema “fisso”, perché è nonnulla, j0 6= 0. In conseguenza, secondo la legge di Biot–Savart per il sistema “mobile” si ha un certo campo magnetico nonnullo H 6= 0. Dunque nel primo sistema si ha E 6= 0, H = 0 mentre nel secondo si ha H 6= 0. In conclusione, mentre nel primo sistema, solidale col filo, si ha solo campo elettrico, nel sistema mobile rispetto al filo si ha invece anche un campo magnetico. La distinzione tra campo elettrico e campo magnetico non è assoluta, ma dipende dal sistema di riferimento. In un prossimo paragrafo mostreremo che questo fatto corrisponde al fatto cha anche la distinzione tra densità di carica e densità di corrente non è assoluta, ma dipende dal sistema di riferimento, analogamente a quanto avviene per le componenti di un vettore al variare del sistema di riferimento: il vettore è una quantità assoluta, indipendente dal sistema di riferimento, mentre ne dipendono le componenti (la prima componente di un vettore può essere nulla in un sistema e non in un altro). In particolare, il principio di relatività permette di ottenere nell’esempio sopra considerato (in cui si ha ρ 6= 0 e j = 0) le densità ρ0 e j0 e vedremo che si trova ρ0 = γρ, jx 0 = −γρ, jy0 = jz0 = 0. Osservazione: Il problema della self force e l’equazione di Abraham– Lorentz–Dirac. Facciamo qui un ultimo commento, riguardante il problema della autointerazione delle particelle cariche attraverso il campo elettromagnetico da esse prodotto. Osserviamo anzitutto che, se si hanno delle particelle cariche, ad esse vengono associate certe densità di carica e di corrente, e dunque le particelle “creano”, come sorgenti nelle equazioni di Maxwell inomogenee, certi campi elettromagnetici. Ma d’altra parte le particelle subiscono (attraverso la forza di Lorentz) anche delle forze dovute ai campi, e quindi in qualche modo anche una forza dovuta ai campi creati da esse stesse. È questo il cosiddetto problema dell’autocampo, o della self force. Si capisce cosı̀ come nel discutere il moto di particelle in campi elettromagnetici si distingue allora tra una trattazione semplificata e una trattazione generale. Il problema semplificato consiste nello studiare il moto di particelle con campi assegnati. È questa l’approssimazione in cui si pensa che i campi assegnati siano talmente intensi da non essere sostanzialmente modificati dai campi creati dalle particelle stesse. 264 Andrea Carati e Luigi Galgani Ed è questa proprio l’approssimazione (campi dati) in cui lavoreremo sotto. Ma il problema più difficile è invece quello in cui si studia il moto delle particelle quando si tenga conto anche dei campi creati dalle particelle stesse (problema della self force). Questo problema fu affrontato attorno al 1903 da Abraham e Lorentz e poi in ambito relativistico, nel 1938, da Dirac.10 Si giunge in tal modo alla cosiddetta equazione di Abraham–Lorentz–Dirac, di cui non abbiamo qui il tempo di occuparci. Facciamo solo osservare che a tale equazione sono associati problemi di principio a tutt’oggi non ancora completamente risolti, neanche nel corrispondente problema quantistico (si veda Feynman, Manuale di Fisica, vol II cap. 27). Si pensi che la lagrangiana e la hamiltoniana classiche per il sistema costituito dal campo elettromagnetico e da cariche puntiformi sono state scritte solo pochissimi anni fa.11 6.1.2 I potenziali elettromagnetici Un obiettivo centrale che ci poniamo in questo capitolo è quello di scrivere la lagrangiana, la hamiltoniana e l’azione hamiltoniana di una particella in un campo elettromagnetico assegnato (mentre nel capitolo precedente avevamo studiato la particella libera). Per affrontare tale problema avremo però bisogno dei potenziali elettromagnetici, che ora ci apprestiamo ad introdurre. Proposizione 2 Si considerino le equazioni di Maxwell omogenee (6.1.2) ed inomogenee (6.1.3). Allora si ha: i) Le equazioni di Maxwell omogenee (6.1.2) si traducono nella seguente proprietà: esistono un potenziale scalare Φ e un potenziale vettore A, che forniscono i campi E, H mediante le relazioni H = rot A 1 ∂A . (6.1.5) c ∂t ii) I potenziali Φ, A non sono univocamente determinati, e l’arbitrarietà è regolata nel modo seguente: dati dei potenziali buoni Φ, A, ogni altra coppia di potenziali buoni Φ0 , A0 , si ottiene mediante le relazioni E = −grad Φ − A0 = A + grad χ 1 ∂χ Φ0 = Φ − c ∂t 10 P.A.M. (6.1.6) Dirac, Classical theory of radiating electrons, Proc. Royal Soc. (London) A 167, 148– 168 (1938). Si noti che questo fondamentale lavoro di Dirac, concepito e sviluppato in ambito completamente classico, venne scritto circa 10 anni dopo la formulazione dell’elettrodinamica quantistica ! 11 Si veda M. Marino, Classical electrodynamics of point charges, Annals of Physics 301, 85 (2002). 265 Meccanica Razionale 1: Teoria della relatività, parte seconda attraverso una funzione χ(t, x) arbitraria. Quando si compie uan scelta si usa dire che è stato scelto un “gauge”. In particolare, i potenziali possono essere scelti in maniera di soddisfare la cosiddetta “condizione di Lorentz” (gauge di Lorentz) div A + 1 ∂Φ =0 c ∂t (6.1.7) oppure la condizione (gauge di Coulomb) div A = 0 . (6.1.8) iii) In termini dei potenziali, le equazioni di Maxwell inomogenee (6.1.3) prendono, nel gauge di Lorentz, la forma delle equazioni delle onde con sorgenti, precisamente Φ = ρ A = j/c . Dimostrazione. (6.1.9) La dimostrazione procede nel modo seguente. i) Le formule che esprimono i campi attraverso i potenziali sono una immediata conseguenza delle equazioni di Maxwell omogenee (6.1.2), quando si ricordino le proprietà che un campo solenoidale (ovvero con divergenza nulla) può sempre esprimersi come il rotore di un opportuno campo vettoriale, e che un campo irrotazionale (ovvero con rotore nullo) può sempre esprimersi come il gradiente di un opportuno campo scalare12 . Dunque dalla prima equazione div H = 0 segue che esiste un campo vettoriale A tale che H = rot A, che è la prima delle (6.1.5). Si sostituisce allora nella seconda equazione omogenea, che diviene (scambiando rot con ∂t∂ ) 1 ∂A rot E + = 0, c ∂t e dunque esiste un campo scalare Φ tale che si ha E+ 1c ∂A ∂t = −grad Φ, ovvero la seconda delle (6.1.5). ii,a) È ovvio che i potenziali non siano univocamente definiti, perché se A va bene, allora va bene anche A0 dato da A0 = A + grad χ con un arbitraria χ (perché rot grad χ = 0, sicché rot A0 = rot A). Ogni scelta della funzione χ si dice costituire la scelta di un “gauge”. Tuttavia, si richiede che, al variare della scelta di χ (al variare del gauge), 12 Ammettiamo qui di essere in un dominio opportuno: va bene ad esempio il caso in cui il dominio è tutto IR3 . La dimostrazione di questi fatti è banalissima quando si usi la trasformata di Fourier. Questo verrà esposto in un’appendice attualmente non ancora scritta. 266 Andrea Carati e Luigi Galgani non variino i campi,13 e ciò già avviene per H perché H = rot A = rot A0 . Ma nel passaggio da A ad A0 , nella formula data, ovvero la seconda delle (6.1.5), varierebbe E, e quindi occorre controbilanciare la variazione di A con una opportuna variazione di Φ in modo da ottenere che E non cambi. È immediato constatare che l’appropriata scelta è V 0 = Φ − 1c ∂χ ∂t . Quindi l’arbitrarietà dei potenziali è regolata dalla relazione (6.1.6) con una funzione χ arbitraria. ii,b) Mostriamo ora come mai è possibile soddisfare la condizione di Lorentz. Assegnati dei potenziali A, Φ, sia f (t, x) := div A + 1 ∂Φ 6= 0 c ∂t 0 e ricerchiamo un’opportuna χ in modo che sia div A0 + 1c ∂Φ ∂t = 0. Ma si ha, in virtù delle (6.1.6), div A0 + 1 ∂Φ0 1 ∂Φ 1 ∂2 χ = div A + + ∆χ − 2 2 = f (t, x) − χ . c ∂t c ∂t c ∂t Dunque la condizione di Lorentz è soddisfatta se si sceglie χ in modo che sia χ = f con f assegnata, ed è ben noto che ciò è sempre possibile14 . In modo analogo si dimostra che si può sodisfare la condizione di Coulomb. iii) Veniamo infine alle equazioni delle onde per i potenziali, come immediata traduzione delle equazioni di Maxwell inomogenee nel gauge di Lorentz. Dalla prima equazione inomogenea div E = ρ, introducendo E in termini di potenziale, si ha 1 1∂ ρ = div E = −div (grad Φ + Ȧ) = −∆Φ − div A , c c ∂t sicché, usando la condizione di Lorentz, si trova ρ = −∆Φ + 1 ∂2 Φ = Φ. c2 ∂t 2 13 In altri termini, si ammette che i campi siano “oggetti fisici”, vale a dire osservabili, e quindi ben definiti come funzioni di t ed x. I potenziali invece, essendo non univocamente determinati, vengono considerati come strumenti “nonfisici”, aventi una pura utilità matematica. In realtà, questo atteggiamento tradizionale verso i potenziali è parso scosso dopo la scoperta del cosiddetto “effetto Aharonov–Bohm”, che a prima vista sembrerebbe comportare che si debba attribuire significato fisico ai potenziali. Ciò tuttavia non è vero. Rimandiamo la discussione ad una appendice (non ancora scritta). 14 Anche questo fatto è ovvio quando si usa la traformata di Fourier. 267 Meccanica Razionale 1: Teoria della relatività, parte seconda Analogamente, introducendo i potenziali nella seconda equazione inomogenea, si ha 1 1 1 j/c = rot H − Ė = rot rot A + (grad Φ̇ + Ä) = c c c 1 1 = grad div A − ∆A + grad Φ̇ + 2 Ä = c c 1 = A + grad (div A + Φ̇) = A c in virtù della condizione di Lorentz. 6.2 Q.E.D. Equazioni di moto di una particella in campo elettromagnetico; lagrangiana, hamiltoniana ed azione. Trattazione elementare in forma tridimensionale Abbiamo già detto che in ambito non relativistico si ammette che la forza agente su una particella carica (di carica e) è la forza elettromagnetica di Lorentz F(em) definita dalla (6.1.1), ovvero v F(em) = e E + × H . c Si deve a K. Schwarzschild15 la seguente osservazione: Proposizione 3 La forza di Lorentz ammette un potenziale generalizzato (o potenziale elettromagnetico o potenziale elettrocinetico) V (em) definito in termini dei potenziali Φ ed A da v V (em) = e Φ − · A , c nel senso che si ha 1 (em) d ∂V (em) ∂V (em) F = − . e dt ∂v ∂x Dimostrazione. La dimostrazione che ora riportiamo, del tutto tradizionale, è un po’ macchinosa; essa diventerà invece banalissima quando disporremo del formalismo tensoriale nello spaziotempo. Restando per ora nel formalismo tridimensionale, osserviamo che si ha 15 Lo stesso cui si deve la scoperta del campo gravitazionale “creato” da una particella puntiforme nell’ambito della relatività generale. Questo risuktato venne illustrato in due famosi lavori scritti nel 1916 nell’ospedale di guerra di Brno, dove Schwarzschild morı̀ poco dopo. 268 Andrea Carati e Luigi Galgani ∂V (em) ∂v = −A/c, e dunque16 d ∂V (em) 1 ∂A =− + (v · grad)A . dt ∂v c ∂t D’altra parte si ha ∂ (em) 1 V ≡ gradV (em) = grad Φ − grad(v · A) , ∂x c ovvero ∂iV (em) = ∂i ∑ Φ − vk ∂i Ak k (abbiamo denotato ∂i ≡ ∂ ∂xi ). Si usa infine l’identità17 sicché 1 ∂A v v d ∂V (em) ∂V (em) − = −grad Φ − + × rot A = E + × H . dt ∂v ∂x c ∂t c c Q.E.D. Ora, già in ambito non relativistico era ben noto che è possibile scrivere le equazioni di moto di una particella in forma lagrangiana anche se si è in presenza di forze Q dipendenti dalla velocità, purché tali forze Q ammettano un potenziale generalizzato V , nel senso che si abbia Q= d ∂V ∂V − . dt ∂v ∂x Infatti, dalla formula del binomio lagrangiano già sappiamo che l’equazione ma = F con F = −gradV0 può scriversi nella forma d ∂L0 ∂L0 − =0 dt ∂v ∂x con L0 = T −V0 (T = 21 mv2 ). Dunque, se si considera l’equazione ma = F + Q usa, come al solito ddtf = ∂∂tf + (grad f ) · ẋ se f = f (t, x) e si ammette x = x(t) sicché si introduce la funzione f˜(t) := f (t, x(t)). Per un abuso di linguaggio si denota poi f˜ ≡ f . Nel nostro caso, invece di f si ha il vettore A e si considera separatamente ogni componente Ai di A. Per semplicità di notazione scriviamo (grad Ai ) · v ≡ (v · grad)Ai , esattamente come si fa per le equazioni di Eiulero dei fluidi perfetti. 17 Si tratta in sostanza della nota identità del doppio prodotto vettore, adattata all’operatore differenziale rot A = grad × A. 16 Si 269 Meccanica Razionale 1: Teoria della relatività, parte seconda con F = −gradV0 , Q= d ∂V ∂V − , dt ∂v ∂x tale equazione può scriversi nella forma d ∂L ∂L − = 0, dt ∂v ∂x L = L0 −V . In questo senso, dunque, le equazioni di moto per le particelle soggette a forze dipendenti dalla velocità ma ammettenti un potenziale generalizzato possono essere scritte in forma lagrangiana. Nel nostro caso, abbiamo una particella carica soggetta a forza di Lorentz, che ammette il potenziale generalizzato V (em) . Si ha dunque la Proposizione 4 L’equazione di Newton (nonrelativistica) v ma = e (E + × H) c è equivalente all’equazione di Lagrange d ∂L ∂L − =0 dt ∂v ∂x dove la lagrangiana L è definita da 1 L = mv2 − eV (em) . 2 (6.2.1) Abbiamo ora il problema di postulare una forma per l’equazione di moto di una particella relativistica in presenza di campi E ed H assegnati, o equivalentemente in presenza dei corrispondenti potenziali Φ ed A. La più semplice scelta possibile che si riduca all’equazione non relativistica ma = F(em) per piccole velocità si ottiene procedendo in modo analogo a quello del caso nonrelativistico, usando ora ovviamente la corretta “lagrangiana meccanica” q (6.2.2) L(mecc) = −mc2 1 − v2 /c2 . Si giunge in tal modo a formulare il seguente Assioma. La lagrangiana relativistica di una particella in campo elettromagnetico è data da L = L(mecc) − eV (em) , ovvero r v2 v L = −mc2 1 − 2 − e Φ − A . (6.2.3) c c Naturalmente, per coerenza si deve anche controllare che la corrispondente azione hamiltoniana abbia, come per la particella libera, carattere geometrico. Su questo punto ritorneremo alla fine del presente paragrafo. (mecc) Ricordando che ∂L ∂v = mγv, si ha subito allora la 270 Andrea Carati e Luigi Galgani Proposizione 5 L’equazione di moto per una particella relativistica in un campo elettromagnetico è data da d v (mγv) = e(E + × H) dt c (6.2.4) Veniamo ora al teorema dell’energia. In meccanica nonrelativistica questo si ottiene mpltiplicando scalarmente per la velocità v l’equazione ma = F, e si ha in tal modo Ṫ = F · v dove T = (1/2)mv2 è l’energia cinetica. In ambito relativistico il teorema dell’energia si ottiene analogamente moltiplicando scalarmente per v la (6.2.4). Si ha allora la1819 Proposizione 6 (Teorema dell’energia). Si ha d mγc2 = eE · v . dt Dimostrazione. (6.2.5) Basta verificare l’identità v· d d mγv = mγc2 , dt dt e questo è un utile esercizio.20 Q.E.D. Abbiamo infine il problema di scrivere l’hamiltoniana di una particella in campo elettromagnetico; ciò è necessario ad esempio per scrivere l’equazione di Schrödinger (in meccanica quantistica) per una particella in campo elettromagnetico. Come sappiamo dal formalismo hamiltoniano, a tal fine è sufficiente considerare l’energia generalizzata E = p·v−L, (6.2.6) ed esprimerla in termini del momento p= ∂L ∂v (6.2.7) 18 Landau chiama energia cinetica la quantità E = mγc2 , anche se essa contiene l’energia a riposo mc2 . 19 Si noti che alla variazioe di energia non contri buisce il campo magnetico, perché esso esercita una forza ortogonale alla velocità. 20 Poniamo c = 1. Si ha d v · γv = γ̇ v2 + γv · a . dt Ma dalla definizione di γ si trova γ̇ = γ3 v · a da cui segue γ v · a = γ̇/γ2 ovvero, ricordando γ2 = 1/(1 − v2 ), γ v · a = γ̇(1 − v2 ) , e dunque v· d γ v = γ̇ (v2 + 1 − v2 ) = γ̇ . dt 271 Meccanica Razionale 1: Teoria della relatività, parte seconda anziché della velocità v. Il procedimento che si segue ripercorre passo passo quello che si era seguito per la particella libera. In presenza di campo elettromagnetico, analogamente con immediati calcoli si trova il Lemma 1 Per la particella relativistica in campo elettromagnetico si ha e p = mγv + A c E = mγc2 + eΦ . (6.2.8) (6.2.9) Da queste relazioni si ottiene poi la Proposizione 7 L’hamiltoniana di una particella in campo elettromagnetico, con lagrangiana (6.2.3) ovvero r v2 v 2 L = −mc 1 − 2 − e Φ − A , c c è data da r H = eΦ + c e m2 c2 + (p − A)2 c (6.2.10) In particolare, nel limite nonrelativistico (v/c)2 << 1, per l’hamiltoniana H e per l’energia E si ha (p − ce A)2 H= + eΦ + mc2 . (6.2.11) 2m 1 E = mv2 + eΦ + mc2 . (6.2.12) 2 Dimostrazione. Basta esprimere l’energia E in termini del momento p. Dal lemma 1 si osserva (p − ec A) = mγv, E − eΦ = mγc2 , e dunque si ha E − eΦ 2 e − (p − A)2 = m2 γ2 (c2 − v2 ) = m2 c2 , c c ovvero i h e (E − eΦ)2 = c2 m2 c2 + (p − A)2 . c Q.E.D. Osservazione. Da un punto di vista mnemonico, è utile osservare che l’hamiltoniana di una particella in campo p elettromagnetico si ottiene da quella in assenza di campo (H = c p2 + m2 c2 , oppure nel limite nonrelativistico H = p2 /(2m) + mc2 ) con la semplice sostituzione e p → p− A, c oltre all’aggiunta del termine eΦ. 272 Andrea Carati e Luigi Galgani Terminiamo questo paragrafo con un commento sul carattere geometrico dell’azione hamiltoniana di una particella in campo elettromagnetico. A tal fine facciamo uso di una proprietà che dimostreremo più avanti, ovvero che, nello stesso senso in cui {xµ } = (ct, x) è un quadrivettore, cosı̀ è un quadrivettore anche dxµ } = (γ, γ vc ) è un quadrivettore e {Aµ } = (Φ, A). Ricordando poi che {uµ } ≡ { dds che il prodotto scalare tra due quadrivettori ha la struttura pseudo–euclidea ben nota, si trova che il prodotto scalare g(u, A) tra i quadrivettori u ≡ {uµ } = (γ, γ vc ) ed A ≡ {Aµ } = (Φ, A) è dato da v v g(u, A) = γΦ − γ · A = γ (Φ − · A) c c e dunque, ricordando ds = cγ dt (ovvero dt = cγ ds) otteniamo Z t1 V t0 (em) 1 dt = c Z t1 t0 1 v γ(Φ − · A) ds = c c Z g(u, A) ds . Pertanto, ricordando che L(mecc) dt = −mc ds, otteniamo che l’azione S relativa alla lagrangiana L = L(mecc) − eV (em) si scrive nella forma Z h i e S=− mc + g(u, A) ds . c R R Questa ha carattere geometrico nello spaziotempo, perché hanno carattere geometrico sia ds (elemento di linea, lunghezza di un tratto di curva) sia il prodotto scalare g(u, A). In conclusione, l’assioma per il moto di una particella in un campo elettromagnetico in ambito relativistico, che sopra è stato formulato con la scelta della lagrangiana (6.2.3), può equivalentemente essere formulato in termini di azione hamiltoniana nel modo seguente: Assioma. L’azione hamiltoniana relativistica di una particella in campo elettromagnetico è data, per ogni curva Γ di tipo tempo nello spaziotempo, da Z h i e S(Γ) = − mc + g(u, A) ds . (6.2.13) c Γ È molto istruttivo a questo punto confrontare il metodo qui seguito per giustificare questo assioma, con il metodo seguito da Landau e Lifshitz (Teoria dei campi). Noi abbiamo scelto un procedimento di tipo induttivo, che può forse avere qualche utilità dal punto di vista pedagogico. Non vi è dubbio tuttavia che il procedimento diretto e compatto di Landau e Lifshitz è estremamente più comodo e significativo, almeno quando si sia in grado di apprezzarlo pienamente. Sulle dimensioni delle quantità di interesse. Le componenti del vettore xµ = (ct, x) sono lunghezze (L). Cosı̀ anche s è una lunghezza; dunque mcds è un’azione (energia per tempo). La quadrivelocità, Meccanica Razionale 1: Teoria della relatività, parte seconda 273 per come è stata da noi definita, è adimensionale (abbiamo preso la derivata rispetto ad s anziché rispetto a t). Per quanto riguarda la carica elettrica ed i potenziali elettromagnetici, dall’equazione Φ = ρ, dove ρ è una densità di carica (carica per unità di volume), si ottiene che Φ (e ogni componente di Aµ ) ha le dimensioni carica/L. A sua volta, per la carica, basta ricordare che e2 /r è un’energia e che anche eΦ (e più in generale eAµ ) è un’energia. Dunque, infine, (e/c)g(u, A)ds è una azione. 6.3 Trasformazioni dei campi: trattazione elementare Abbiamo già osservato che la separazione di un campo elettromagnetico in un campo elettrico E e in un campo magnetico H è relativa, ovvero dipende dal sistema inerziale considerato: ad esempio se in un sistema K si ha il solo campo elettrico E creato da una particella ferma, tale particella appare mobile rispetto ad un altro sistema K 0 in moto rispetto a K; dunque K 0 vede una corrente (una carica in moto) e quindi oltre ad un campo elettrico vede anche un campo magnetico. Daremo qui sotto la legge con cui si trasformano i campi passando da un sistema inerziale ad un altro. Tale legge di trasformazione si spiega analiticamente nel modo seguente. Nel passaggio da un sistema di riferimento a un altro, avviene che le equazioni di Maxwell cambierebbero di forma (in conseguenza del cambiamento di coordinate secondo la trasformazione di Lorentz) se non si imponesse che anche i campi cambiasssero in maniera adeguata, atta proprio a bilanciare il cambiamento di forma delle equazioni. Ma noi imponiamo che tale bilanciamento avvenga, proprio per soddisfare il principio si relatività. Infatti, il principio di costanza di velocità della luce, nella sua forma più pregnante, si esprime proprio come la condizione che le equazioni di Maxwell non cambino forma al cambiare del sistema di riferimento inerziale. In un certo senso si può dire che finora abbiamo usato tale principio solo in forma ridotta, cioè nel limite dell’ottica geometrica, in cui si pensa alla luce come costituita da raggi, e si impone che la loro velocità sia la stessa (ovvero c) in tutti i sistemi inerziali. Qui richiediamo in più che siano le equazioni di Maxwell stesse a non variare di forma, sicché nessun sistema inerziale risulti privilegiato. Come esercizio preliminare cominciamo a verificare che invece l’equazione di d’Alembert non cambia forma sotto le trasformazioni di Lorentz. In effetti questa osservazione analitica era già stata compiuta da W. Voigt nel 1887.21 Consideriamo l’equazione di d’Alembert per una quantità u = u(t, x) scalare (ovvero, che non cambia al cambiare del sistema di riferimento) e poniamo per semplicità di 21 W. Voigt, Über das Doppler’sche Princip. Göttingen Nachrichten, 10 marzo 1887, pag. 41. Si veda la formula (10) a pag. 45. Nelle nostre notazioni, tale formula si legge x0 = x − vt, y0 = γ−1 y, z0 = γ−1 z, t 0 = t − vx/c2 . Quindi, per ottenere le trasformazioni di Lorentz occorre passare dalle variabili primate ad altre che si ottengono moltiplicando quelle primate per γ. Tuttavia, ai fini che si proponeva Voigt questo fatto è inessenziale. 274 Andrea Carati e Luigi Galgani notazione c = 1. Definiamo22 ∂2 u ∂2 u u ≡ 2 − 2 ≡ ∂t ∂x ∂2 ∂2 − u; ∂t 2 ∂x2 l’operatore viene detto “dalembertiano” e mediante esso l’equazione di d’Alembert prende la forma u = 0 . Nel capitolo sull’equazione di d’Alembert abbiamo già osservato che, quando si considera una equazione, in generale essa cambia di forma se si esegue un cambiamento di variabili: ad esempio passando dalle coordinate (t, x) alle coordinate (ξ, η) = (t − x,t + x) l’equazione di d’Alembert assume la forma (denotiamo ∂ , ∂2xx ≡ ∂x ∂x etc) ∂x ≡ ∂x ∂ξ ∂η u = 0 , e anzi proprio di questo artificio ci siamo serviti per integrare l’equazione. Si ha invece la Proposizione 8 Il dalembertiano non cambia forma sotto trasformazioni di Lorentz, ovvero si ha 0 = dove 0 = ∂t20t 0 − ∂2x0 x0 , = ∂tt2 − ∂2xx . Dimostrazione. (metodo forza bruta). Dalla trasformazione di Lorentz t 0 = γ(t − vx), x0 = γ(x − vt), in virtù della formula fondamentale per la derivata di una funzione composta si ha ∂t = ∂t 0 ∂x0 ∂t 0 + ∂x0 , ∂t ∂t ∂x = ∂t 0 ∂x0 ∂t 0 + ∂x0 ∂x ∂x ovvero ∂t 0 ∂x0 ∂t 0 + ∂x0 = γ(∂t 0 − v∂x0 ) ∂t ∂t ∂t 0 ∂x0 ∂x = ∂t 0 + ∂x0 = γ(∂x0 − v∂t 0 ) . ∂x ∂x ∂t = (6.3.1) Si trova dunque ∂t − ∂x = γ(1 + v)(∂t 0 − ∂x0 ) ∂t + ∂x = γ(1 − v)(∂t 0 + ∂x0 ) . Pertanto, osservando che si ha = (∂t − ∂x )(∂t + ∂x ),23 otteniamo = γ2 (1 − v2 ) 0 = 0 . Q.E.D. 22 Consideriamo 23 Questa il caso di una sola dimensione spaziale identità operatoriale è analoga alla familiare identità algebrica a2 − b2 = (a + b) (a − b). Meccanica Razionale 1: Teoria della relatività, parte seconda 275 Osservazione. Questa proprietà di invarianza in forma del dalembertiano sotto trasformazioni di Lorentz costituisce di fatto la controparte (in termini di operatori differenziali) della invarianza in forma della metrica relativistica sotto trasformazioni di Lorentz: c2t 02 − l 02 = c2t 2 − l 2 . Allo stesso modo si mostra immediatamente che sotto rotazioni nel piano si ha l’invarianza in forma dell’operatore laplaciano: ∂2 ∂2 ∂2 ∂2 + + = ∂x2 ∂y2 ∂x0 2 ∂y0 2 come traduzione in termini di operatori differenziali dell’invarianza in forma della metrica sotto rotazioni: x02 + y02 = x2 + y2 (qui ci riferiamo evidentemente a sistemi di riferimento cartesiani ortogonali, ovvero a sistemi di vettori base ortonormali rispetto all’assegnato prodotto scalare). In effetti, come vedremo più avanti, le trasformazioni (6.3.1) sulle derivate parziali (∂t , ∂x ) → (∂t 0 , ∂x0 ) sono nient’altro che le trasformazioni delle componenti dei covettori indotte dalle trasformazioni delle componenti dei vettori. Troveremo che le derivate parziali si trasformano con l’inversa della trasposta della matrice che fornisce la trasformazione delle componenti dei vettori. Nel nostro caso, il tutto ammonta a cambiare v in −v. Veniamo dunque alla legge di trasformazione dei campi. Il sistema K 0 si muove con velocità v lungo l’asse x del sistema K; è conveniente allora decomporre i vettori E e H nella forma E = Ek + E⊥ , H = Hk + H⊥ dove Ek denota la componente di E parallela a v, cioè all’asse x, e E⊥ la corrispondente componente ortogonale, cioè nel piano y, z. Analogamente sia E0 = E0 k + E0 ⊥ , H0 = H0 k + H0 ⊥ . Cosı̀ anche, denotando con ρ, ρ0 e j, j0 le densità di carica e di corrente rispetto ai due sistemi di riferimento, poniamo j = jk + j⊥ , Si ha allora la j0 = j0 k + j0 ⊥ . 276 Andrea Carati e Luigi Galgani Proposizione 9 Le equazioni di Maxwell non cambiano forma sotto trasformazioni di Lorentz se si ammette che i campi e la densità di carica e di corrente si trasformino nel modo seguente (con c = 1): E0 k = Ek E0 ⊥ = γ(E⊥ − H × v) H0 k = Hk H0 ⊥ = γ(H⊥ + E × v) ρ0 = γ(ρ − v jx ) j0 x = γ( jx − vρ) j0 ⊥ = j⊥ (ovvero jy0 = jy , jz0 = jz ) . Nota. La legge di trasformazione di densità di carica e densità di corrente può anche essere stabilita a priori, utilizzando l’ipotesi che la quantità di carica sia un invariante, indipendente dal sistema di riferimento.24 Dimostrazione. 25 Consideriamo la trasformazione di Lorentz inversa t = γ(t 0 +vx0 ), x = γ(x0 +vt 0 ), y = y0 , z = z0 . Con calcoli analoghi a quelli usati per dimostrare l’invarianza del dalembertiano si ha ∂t 0 = γ(∂t + v∂x ) , ∂x0 = γ(∂x + v∂t ) , ∂y = ∂y0 , ∂z = ∂z0 . (6.3.2) i) Cominciamo a considerare le equazioni omogenee ∂t H + rot E = 0 , div H = 0 ; in particolare, la prima componente della prima equazione, e la seconda equazione, forniscono ∂t Hx = ∂z Ey − ∂y Ez , ∂x Hx = −(∂y Hy + ∂z Hz ) . (6.3.3) Vediamo ora cosa sappiamo su ∂t 0 Hx . Dalla trasformazione di Lorentz ∂t 0 = γ(∂t + ∂x ) otteniamo ∂t 0 Hx = γ[∂t Hx + v∂x Hx ] , 24 Si ua il fatto che, a causa della contrazione delle lunghezze lungo la direzione di traslazione di rispetto a K (mentre restano inalterate le lunghezze trasversali), passando da K a K 0 i volumi si contraggono del fattore γ−1 . Dunque, dovendo restare inalterata la carica contenuta in un volume, deve cossispondentente variare la desità di carica. 25 A parte la notazione, seguiamo qui quasi alla lettera il paragrafo 6 del lavoro di Einstein del 1905. K0 277 Meccanica Razionale 1: Teoria della relatività, parte seconda e quindi, per le (6.3.3), ∂t 0 Hx = γ(∂z Ey − ∂y Ez ) − γv(∂y Hy + ∂z Hz ) (6.3.4) = ∂z γ(Ey − vHz ) − ∂y γ(Ez + vHy ) . Per confronto con l’originaria equazione ∂t Hx = ∂z Ey − ∂y Ez si vede allora che le due equazioni sono della stessa forma se si pone26 Hx0 = Hx , Ey0 = γ(Ey − vHz ), Ez0 = γ(Ez + vHy ) ovvero H0k = Hk , E0⊥ = γ(E⊥ − H × v) . ii) Si procede poi analogamente usando le equazioni inomogenee rot H− ∂t E = j, div E = ρ. Si ha ∂t Ex = ∂y Hz − ∂z Hy − jx , ∂x Ex = −(∂y Ey + ∂z Ez ) + ρ , e si ottiene ∂t 0 Ex = ∂y0 γ(Hz − vEy ) − ∂z0 γ(Hy + vEz ) − γ( jx − vρ) che, per confronto con l’equazione originale, fornisce E0k = Ek H⊥ 0k = γ(H⊥ + E × v) , j0k = γ(jk − vρ) . Resta da determinare la legge per ρ. A tal fine si usa la condizione che valga div0 E0 ≡ ∂x0 E 0 x + ∂y0 E 0 y + ∂z0 E 0 z = ρ0 . Ma allora il primo membro può essere calcolato e si trova27 div0 E0 = γ div E − γ v(∂t Ex − ∂y Hz + ∂z Hy ) . D’altra parte, usando le equazioni di Maxwell div E = ρ e la prima componente di −∂t E + rot H = j, questa equazione diviene div0 E0 = γ (ρ − v jx ) , sicché la condizione div0 E0 = ρ0 fornisce ρ0 = γ(ρ − v jx ) . Q.E.D. effetti, basterebbe porre Hx0 = αHx , Ey0 = αγ(Ey − vHz ), Ez0 = αγ(Ez + vHy ) con una costante α (dipendente parametricamente da v). Ma, come nel capitolo precedente, si assume α = α(v2 ) e si mostra α2 = 1, da cui α = 1 per continuità in v = 0. 27 Basta usare le relazioni già trovate E 0 = E , E 0 = γ(E − vH ), E 0 = γ(E + vH ), ∂ 0 = γ(∂ + x x y y z z z y x x v∂t ), ∂y0 = ∂y , ∂z0 = ∂z . 26 In 278 Andrea Carati e Luigi Galgani Osservazione. Le leggi di trasformazione della densità di carica e corrente mostrano che ρ, j si trasformano esattamente come t, x; in altri termini ρ, j costituiscono un quadrivettore. Più precisamente, ripristinando c 6= 1, si ottiene che { jµ }3µ=0 = (cρ, j) costituisce un quadrivettore. Si ha dunque il Corollario 1 I potenziali scalare e vettore Φ, A costituiscono un quadrivettore, diciamo di componenti {Aµ }3µ=0 , ovvero si ha che le quantità {Aµ } ≡ (Φ, A) si trasformano come le componenti di un quadrivettore (cioè come le componenti di {xµ } ≡ (ct, x). Dimostrazione. Sappiamo che i potenziali soddisfano, nel gauge di Lorentz, le equazioni Φ = ρ , A = j/c, e che l’operatore dalembertiano non cambia forma sotto trasformazioni di Lorentz. Dunque Φ ed A devono trasformarsi come ρ e j/c ovvero come cρ e j, cioè come ct ed x. Q.E.D. Da ciò segue in particolare, come già osservato, che l’azione S relativa alla particella in campo elettromagnetico ha carattere geometrico nello spaziotempo. 6.4 6.4.1 Primi elementi di calcolo tensoriale Introduzione Nel paragrafo precedente abbiamo ottenuto le leggi di trasformazione dei campi elettromagnetici in maniera elementare ma alquanto laboriosa, in effetti quasi esattamente nella maniera seguita inizialmente da Lorentz, Poincaré ed Einstein stessi (metodo “brute force”, ovvero forza bruta). Esiste però un modo per ottenere “a vista” le leggi di trasformazione dei campi, e ciò si ottiene scrivendo le equazioni di Maxwell stesse in maniera che siano “covarianti a vista” o, come anche si dice, siano in forma tensoriale. Può servire da riferimento a questo proposito la seguente frase di Einstein: “Prima delle ricerche di Minkowski era necessario effettuare una trasformazione di Lorentz su una legge per accertare l’invarianza rispetto a tali trasformazioni; egli invece riuscı̀ ad introdurre un formalismo tale che la forma matematica della legge garantisce di per sé l’invarianza della legge stessa rispetto alle trasformazioni di Lorentz. Creando un calcolo tensoriale quadridimensionale, egli ottenne per lo spaziotempo ciò che il calcolo tensoriale aveva ottenuto per le tre dimensioni spaziali.” Meccanica Razionale 1: Teoria della relatività, parte seconda 279 In effetti, il calcolo tensoriale era già stato sviluppato nell’ambito degli spazi vettoriali e più in generale delle varietà differenziabili, ed esposto in un classico lavoro28 29 di Ricci e Levi Civita del 1901, con cui tuttavia Einstein non era familiare nel 1905. Il contributo di Minkowski consistette sostanzialmente nell’estendere tali metodi al caso in cui la varietà è lo spaziotempo della relatività ristretta, concepito dunque come una varietà piatta, ovvero come uno spazio vettoriale, con la peculiarità però di essere munita di un prodotto scalare non definito positivo anziché del prodotto scalare consueto. È proprio questo l’elemento caratteristico che costringe anche noi, a questo punto, a introdurre degli elementi geometrici che lo studente aveva potuto finora ignorare. In breve si tratta di rendersi conto di quanto segue: • Quando si ha a che fare con uno spazio vettoriale, diciamolo V , si deve tenere conto del fatto che esistono non solo i vettori, diciamoli x, y, v, w, elementi dello spazio V stesso, ma anche i covettori, ovvero funzionali lineari su V (che definiremo subito sotto, come anche altre altre quantità algebriche, come i funzionali multilineari); • Ora, come mai questo fatto ha potuto essere ignorato nelle trattazioni elementari della fisica? Ciò è dovuto al fatto che lo spazio ordinario è munito di un prodotto scalare, perdipiù euclideo (cioè definito positivo). Infatti da una parte l’esistenza di un prodotto scalare (o di una metrica, come anche si dice) comporta (come vedremo più sotto) che esiste un isomorfismo naturale tra covettori e vettori, cioè che ad ogni covettore corrisponde biunivocamente (e in maniera intrinseca) un vettore, sicché i covettori possono nella sostanza scomparire, o piuttosto essere ignorati, rimanere in qualche modo nascosti, in ombra. Ma questo nascondimento è ancor più favorito, in pratica, nel caso in cui la metrica è anche euclidea. Infatti, in tal caso, se si scelgono vettori base ortonormali rispetto alla metrica considerata (cioè se si scelgono coordinate cartesiane ortoganali), risulta che le componenti che individuano un vettore addirittura coincidono con le componenti del corrispondente covettore. Dunque, concretamente, lavorando in coordinate cartesiane ortoganali si ha che vettori e corrispondenti covettori materialmente coincidono, e si può comportarsi proprio come se i covettori non esistessero. Ed è proprio in questo spirito che viene condotto l’insegnamento universitario elementare. • Ma questo nascondimento non è più possibile nello spaziotempo relativistico. Infatti in tal caso è pur vero che si è ancora in presenza di una metrica, e ciò comporta ancora l’esistenza di un isomorfismo naturale tra vettori 28 Méthodes de calcul differentiel absolu et leurs applications, Math. Ann. 54 (1901). mezzi matematici necessari per la teoria della relatività generale erano già pronti nel “calcolo differenziale assoluto”, il quale si basa sulle ricerche di Gauss, Riemann e Christoffel sulle varietà noneuclidee ed è stato eretto a sistema da Ricci e Levi Civita e da essi applicato a problemi di fisica teorica”. Da A. Einstein, I fondamenti della teoria della relatività generale (1916), primo paragrafo. 29 “I 280 Andrea Carati e Luigi Galgani e covettori. Ma poiché il prodotto scalare non è definito positivo (è pseudoeuclideo), allora succede che, anche se si scelgono vettori base adattati alla metrica (e quindi si sceglie l’analogo delle coordinate cartesiane ortogonali), un vettore e l’associato covettore non hanno le medesime componenti (la parte spaziale di un covettore ha segno opposto a quella del corrispondente vettore), e non è più possibile comportarsi concretamente come se i covettori non esistessero. Bisogna dunque rassegnarsi a fare i conti (in tutti i sensi) con i covettori (e più in generale a tener conto della struttura multilineare associata allo spaziotempo). Dobbiamo dunque cominciare col prendere atto che esistono i covettori, e dovremo pertanto abituarci a distinguere le componenti dei vettori da quelle dei covettori. Entra qui sulla scena il gioco degli indici, sul quale faremo un breve commento qui sotto: infatti le componenti xi dei vettori vengono denotate con indici in alto, quelle αi dei covettori con indici in basso.30 Vedremo inoltre che il prodotto scalare è un funzionale bilineare, con coefficienti che hanno dunque indici in basso, gik . Dovremo poi imparare a maneggiare l’isomorfismo tra vettori e covettori indotto dalla metrica, il quale viene poi concretamente realizzato mediante l’operazione di abbassamento e innalzamento degli indici. Poche altre cose saranno infine sufficienti per procedere (regola della traccia, ....).31 Osservazione. Per quanto riguarda il gioco degli indici in alto e in basso, o piuttosto l’orgia degli indici in alto e in basso, come qualche volta si dice, bisogna ammettere che sicuramente esso costituisce un certo ostacolo allo studio del calcolo tensoriale, e che ognuno desidererebbe evitarlo. In effetti, sarebbe possibile una notazione in cui questo gioco fosse evitato, e forse un giorno verrà trovato un compromesso più soddisfacente. Ma sembra necessario che ci si debba attenere a un qualche compromesso, in cui il gioco degli indici resta 30 Dirac, nel suo celebre manuale di Meccanica Quantistica, segue la convenzione opposta: le componenti dei vettori hanno indici in basso e quelle dei covettori in alto. La convenzione di Dirac sarebbe forse la più comoda per un primo impatto col calcolo tensoriale, Infatti tutti hanno avuto a che fare con componenti di vattori, mettendo gli indici in basso, e sarebbe naturale continuare a fare cosı̀, riservando gli indici in alto alle componenti dei covettori, quando infine si scopre che esistono anche loro. Purtroppo però Dirac è rimasto isolato in questa sua scelta. D’altra parte, Dirac stesso si è poi rassegnato a seguire la usuale convenzione, come testimoniato dal suo libro di Relatività Generale. 31 Se si vuole poi procedere allo studio della relatività generale, nella quale, come tutti hanno sentito dire, lo spaziotempo è concepito come varietà curva, con curvatura legata alla gravità, allora si ha bisogno di pochi altri strumenti. Precisamente: il tensore di curvatura e la derivata covariante, Questa era già sostanzialmente nota alla fine del diciannovesimo secolo, e di uso comune anche negli spazi piatti quando si usano coordinate generali (non cioè cartesiane ortognali), ad esempio per determinare la struttura dell’operatore laplaciano. Questa nozione è in stretta relazione con quella di connessione geodetica (introdotta da Levi Civita nel 1916, e subito estesa da Weyl a spazi non muniti di metrica), che è necessaria per generalizzare la nozione di parallelismo, e quindi confrontare vettori di spazi tamgenti diversi, come si fa esempio quando si definisce l’accelerazione. Meccanica Razionale 1: Teoria della relatività, parte seconda 281 presente, e dopo più di un secolo non si è trovato un compromesso migliore. La massima testimonianza a questo proposito è fornita da H. Weyl, uno dei più grandi matematici del secolo scorso, che peraltro diede contributi fondamentali alla geometria, e scrisse quello che è in assoluto uno dei più bei libri di relatività (sul quale si formò anche Fermi)32 . Egli infatti, dopo avere brevemente riassunto le operazioni fondamentali del calcolo tensoriale,33 per quanto concerne l’uso degli indici cosı̀ si esprime: Various attempts have been made to set up a standard terminology in this branch of mathematics involving only the vectors themselves and not their components, analogous to that of vectors in vector analysis. This is highly expedient in the latter, but very cumbersome for the much more complicated framework of the tensor calculus. In trying to avoid continual reference to the components we are obliged to adopt an endless profusion of names and symbols in addition to an intricate set of rules for carrying out calculations, so that the balance of advantage is considerably on the negative side. An emphatic protest must be entered against these orgies of formalism which are threatening the peace of even the technical scientist.” Da H. Weyl, Space–time–matter, Dover (New York, 1952), pag. 53–54. 6.4.2 Necessità di considerare i covettori, innalzamento ed abbassamento degli indici, regola della traccia, trasformazioni degli operatori differenziali. Il presente paragrafo corrisponde a un terzo circa della parte B dell’articolo di Einstein del 1916 I fondamenti della teoria della relatività generale: Parte B, mezzi matematici per la formulazione di equazioni covarianti in modo generale. Qui ci limitiamo all’esposizione del minimo sufficiente per i nostri scopi (relatività speciale in coordinate cartesiane). Nell’articolo di Einstein sono inoltre esposte le nozioni di derivata covariante (dopo avere introduzione i simboli di Christoffel) e di tensore di curvatura. Nella presente esposizione facciamo esplicito riferimento alla nozione di funzionale lineare (vettore covariante, nella terminologia classica) che è implicita nelle formulazioni dell’inizio del secolo scorso. 32 H. Weyl, Raum–Zeit–Materie (1918), traduzione inglese Space–time–matter, Dover (New York, 1952). 33 Il riassunto è il seguente. “The study of tensor calculus is, without doubt, attended by conceptual difficulties – over and above the apprehension inspired by indices, which must be overcome. From the formal aspect, however, the method of reckoning used is of extreme simplicity; it is much easier than, e.g., the apparatus of elementary vector–calculus. There are two operations, multiplication and contraction; then putting the components of two tensors with totally different indices alongside of one another; the identification of an upper index with a lower one, and, finally, summation (not expressed) over this index. 282 Andrea Carati e Luigi Galgani Vogliamo dunque anzitutto mettere in luce che i covettori esistono, e vogliamo poi mostrare che in relatività è necessario prenderli in considerazione, nonostante che nelle trattazioni elementari (si intende nei corsi di Fisica Generale, nelle parti elementari dei corsi di analisi e della meccanica) essi possano essere ignorati. Cominceremo col ricordare cosa sono i covettori, come elementi del duale di uno spazio vettoriale, e daremo poi un cenno ai campi covettoriali (o più in generale, tensoriali) su una varietà. Consideriamo dunque uno spazio vettoriale sui reali V , di dimensione n arbitraria,34 e prescindiamo per ora dalla eventuale esistenza di un prodotto scalare. Conosciamo le proprietà algebriche degli elementi di V (vettori, che denoteremo con x, y, o anche con v, w), che riguardano la combinazione lineare di due vettori, cioè la loro somma, e la moltiplicazione di un vettore per uno scalare (numero reale). Sappiamo che in infiniti modi è possibile scegliere una base35 , diciamo {ei }ni=1 , sicché ogni vettore è univocamente individuato dalle sue componenti x1 , . . . , xn su quella base, 36 (6.4.1) x = ∑ xi ei ≡ xi ei i Osservazione: il gioco degli indici e la cosiddetta “convenzione di Einstein”. Si noti il gioco degli indici: i vettori base ei hanno indice in basso; le componenti xi dei vettori hanno indice in alto. Più sotto avremo covettori base εi con indice in alto, componenti αi di covettori con indice in basso. L’esperienza ha mostrato che tale convenzione ha le sue comodità. Si noti poi la cosiddetta convenzione di Einstein: si sottintende il simbolo di somma, quando si hanno due indici uguali (cioè un indice ripetuto), di cui uno in alto e uno in basso. Nel seguito continueremo per un poco a mantenere (come qui sopra) congiuntamente le due notazioni, e a un certo momento tralasceremo il simbolo di somma. I covettori. Possiamo ora dire come si definiscono i covettori (rispetto allo spazio vettoriale V ): essi sono i funzionali lineari su V , cioè le applicazioni (funzioni!) α a valori reali, con dominio V , α : V → IR aventi la proprietà di linearità, ovvero che α(ax + by) = a α(x) + b α(y) 34 Prendiamo qui dim V = n < ∞; molte proprietà si estendono però al caso di dimensione infinita. trattazioni più avanzate, i vettori base sono denotati con ∂i invece che con ei . La ragione di questo fatto è profonda, e verrà illustata brevemente più avanti. 36 Si rammenti che le componenti xi dei vettori non hanno nulla a che fare con le proiezioni ortogonali sugli assi, che è una nozione che richiede l’esistenza di un prodotto scalare. Qui non esiste ancora nessun prodotto scalare. Eventualmente, esiste solo la “proiezione per parallelismo”, che corrisponde all’uso della “regola del parallelogrammo”. 35 Nelle 283 Meccanica Razionale 1: Teoria della relatività, parte seconda per ogni coppia di vettori x, y ∈ V e di numeri a, b ∈ IR. L’insieme dei covettori su V viene denotato con V ∗ e chiamato “ il duale di V ”. Vedremo che è anch’esso uno spazio vettoriale di dimensione n, come V . Ciò è molto astratto, e può essere un primo ostacolo alla comprensione dei covettori. Ma in effetti i covettori sono concretissimi, come mostra l’esempio fondamentale, cioè quello del covettore corrispondente a “misurare una componente di un vettore” per una assegnata base, illustrato in Appendice. Ora comunque cominciamo ad osservare che in virtù della proprietà definitoria (ovvero la linearità), si ha che, fissata una base {ei } in V , anche i covettori (e non solo i vettori) sono individuati da n–uple di numeri reali: come un vettore x è individuato da certe componenti x1 , . . . , xn (se è fissata una base {ei } in V ), cosı̀ un covettore α è individuato (con riferimento alla stessa base in V ) da certe componenti α1 , . . . , αn . Infatti, prendiamo un certo covettore α. Allora, poiché sappiamo come esso agisce su ogni vettore x (producendo un numero reale), cosı̀ sappiamo in particolare come esso agisce su ognuno dei vettori base ei , e dunque possiamo associare ad α gli n numeri α1 , . . . , αn definiti da αi = α(ei ) (i = 1, . . . , n) . D’altra parte, conoscendo questi n numeri αi , conosciamo anche tutto α, cioè la legge con cui α agisce su ogni x, perché per la proprietà di linearità abbiamo α(x) = α ∑ xi ei i = ∑ xi α(ei ) = ∑ αi xi ≡ αi xi , i i ovvero: Se si conosce come il covettore α agisce sui vettori base, cioè si conoscono i numeri αi definiti da α(ei ) = αi (i = 1, . . . , n) , (6.4.2) allora l’azione di α su ogni vettore x = ∑i xi ei ≡ xi ei è data da α(xi ei ) = αi xi . (6.4.3) Dunque, avendo fissato una base {ei } in V , ogni covettore α ∈ V ∗ , è individuato da una n–upla di numeri αi definita dalla (6.4.2), e la sua azione su ogni vettore è data dalla (6.4.3). Si direbbe allora che V ∗ è isomorfo a IRn . In effetti, per potere giustificare questa affermazione, occorre anche dire in quale senso V ∗ è uno spazio vettoriale, cioè occorre dire come è definita in V ∗ l’operazione di somma tra due elementi di V ∗ (due covettori) e di moltiplicazione di un covettore per un numero reale, ovvero come si definiscono le combinazioni lineari in V ∗ ; questo permette anche di comprendere in quale senso i numeri αi sono le “componenti” di α su una opportuna base in V ∗ , che viene detta “ base duale” ad {ei }. Questo 284 Andrea Carati e Luigi Galgani fatto è illustrato in Appendice, insieme con un’altra osservazione relativa alla rappresentazione dei covettori mediante iperpiani nello spazio vettoriale V , che è di particolare interesse per lo studio della propagazione di onde piane.37 L’esempio prototipo di covettore: Il gradiente di uno scalare. Data una funzione scalare f = f (x1 , . . . , xn ), si ha spesso necessità di considerare la n–upla ∂i f ≡ ∂f ∂xi (6.4.4) che viene solitamente chiamata il gradiente di f e considerata come un vettore. Ma si vede subito che si tratta invece di un covettore (o meglio, di un campo covettoriale, ovvero una legge che attribuisce un covettore ad ogni punto di coordinate x1 , . . . , xn ). Infatti, basta a tal fine ricordare la definizione di derivata direzionale e osservare che (∂i f ) vi è proprio la derivata direzionale di f nella direzione (v1 . . . , vn ). Si tratta quindi di una quantità assoluta, indipendente dalla base, che dipende linearmente dal vettore con componenti vk : dunque per definizione abbiamo a che fare con un covettore. Confermeremo questo fatto più sotto, controllando che, sotto cambiamento di coordinate, la n–upla ∂i f si trasforma proprio come richiesto per le componenti di un covettore. L’isomorfismo naturale tra vettori e covettori indotto dalla metrica: abbassamento ed innalzamento degli indici. Veniamo ora ad illustrare il fatto che esiste un isomorfismo (corrispondenza biunivoca, compatibile con la struttura lineare) naturale tra V e V ∗ , cioè tra vettori e covettori, quando sia assegnato un prodotto scalare. Il modo algebrico per descrivere questa corrispondenza tra vettori e covettori quando è assegnato un prodotto scalare è il seguente. Per definizione, un prodotto scalare è anzitutto un’applicazione bilineare g : V ×V → IR, ovvero una “macchinetta” con due entrate, diciamo g(·, ·), la quale produce un numero, g(v, w), per ogni coppia di vettori v, w; la “macchinetta” deve essere lineare in v se si fissa w, e lineare in w se si fissa v.38 Dunque, per la proprietà di bilinerità, se si fissa v allora g(v, ·) definisce un funzionale lineare su V , cioè un covettore. Esiste dunque un’applicazione naturale da V in V ∗ , e si mostra facilmente che tale corrispondenza è biunivoca39 . È questo l’isomorfisomo naturale tra V e V ∗ indotto dal prodotto scalare. Detto in altri termini: dato un prodotto scalare, a ogni vettore v corrisponde un covettore (funzionale lineare αv ) che è semplicemente l’operazione 37 Quando si ricercano soluzioni dell’equazione di d’Alembert nella forma di onde piane, ovvero Φ(t, x) = A exp(ikµ xµ ), allora kµ sono le componenti di un covettore. 38 Inoltre, deve essere simmetrica ( g(v, w) = g(w, v) ) e nondegenere, ovvero l’unico vettore ortogonale a tutti i vettori deve essere il vettore nullo; in formule g(v, w) = 0 ∀w comporta v = 0 . . 39 Questa è la traduzione della proprietà di nondegenerazione. Meccanica Razionale 1: Teoria della relatività, parte seconda 285 (la funzione) “prendere il prodotto scalare con il fissato vettore v”: in formule αv (w) = g(v, w) per ogni w ∈ V . Questa formula si scrive anche αv (·) = g(v, ·) . Viceversa, un vettore v è conosciuto se è dato il suo prodotto scalare g(v, w) con ogni altro vettore w. Vediamo infine come tale corrispondenza tra vettori e covettori viene in pratica effettuata mediante l’operazione di abbassamento e innalzamento degli indici. Abbiamo già convenuto di denotare le componenti vi dei vettori con indici in alto e le componenti αi dei covettori con indici in basso. Inoltre la metrica (il prodotto scalare) è individuata (in una base assegnata) da una matrice con due indici in basso (vedremo più sotto la ragione di tale scelta), ovvero le “componenti gik della metrica”. Queste sono definite semplicemente da gik = g(ei , ek ) , e vengono introdotte in maniera del tutto naturale. Infatti, nella base {ei } i due vettori v, w si scrivono v = vi ei , w = wk ek e dunque, per la bilinearità del prodotto scalare g, si ha g(v, w) = g(vi ei , wk ek ) = vi wk g(ei , ek ) = gik vi wk . D’altra parte se si pensa v fissato, è naturale scrivere gik vi wk = αk wk , con αk = gik vi ed è chiaro che {αk } è proprio il covettore g(v, ·) che si ottiene fissando v nel prodotto scalare. Per questo motivo le componenti del covettore α ≡ αv vengono denotate addirittura cone vk , perchè sono le componenti del covettore univocamente associato al vettore v, e dunque si scrive vk := gik vi . Anzi, poiché si assume che il prodotto scalare sia simmetrico, g(v, w) = g(w, v), sicché gik = gki , si scrive anche vk = gki vi È questa l’operazione di abbassamento dell’indice. Veniamo ora all’innalzamento dell’ indice, procedendo nella maniera più piatta possibile. Ritornando alla notazione αk = gik vi per il covettore αk univocamente associato al vettore vi , è ovvio che la corrispondenza inversa si scrive nella forma vi = gik αk dove gik sono gli elementi della matrice inversa di {gik } (la ragione degli indici in alto si comprenderà più avanti), ovvero definiti da gik gkl = δil 286 Andrea Carati e Luigi Galgani essendo δil la matrice identità. Quindi la matrice gik fornisce la corrispondenza inversa tra vettori e covettori, e poiché il vettore di componenti vi è univocamente indivituato dal covettore di componenti αk , si conviene di denotare tale vettore con la stessa lettera α del covettore, ovvero si scrive αi = gik αk . È questa l’operazione di innalzamento dell’indice. Si noti in particolare come, in presenza di una metrica euclidea, esistono le basi ortonormali, cioè basi tali che gik = g(ei , ek ) = δik , e dunque in tali basi l’operazione di abbassamento od innalzamento di un indice non produce alcuna variazione: in spazi euclidei le componenti di vettori e covettori isomorfi, se riferite a una base ortonormale, sono le medesime. È questo il motivo per cui nella fisica e nella geometria elementari si può tralasciare di parlare di covettori (almeno se ci si riferisce a basi ortonormali). Ma ciò non è più possibile in relatività speciale, in cui si considera lo spaziotempo riferito a una metrica pseudoeuclidea. Infatti, ciò significa che nelle basi ortonormali (corrispondenti dunque a sistemi inerziali in cui per la parte spaziale ci si riferisce a coordinate cartesiane ortogonali) la matrice della metrica e la sua inversa hanno la forma (con la consueta notazione per gli indici, µ, ν = 0, 1, 2, 3.) gµ ν = {gµ ν } = diag (1, −1, −1, −1) , e dunque l’innalzamento o l’abbassamento di un indice spaziale comporta un cambiamento di segno. Ad esempio se si considera il “vettore–evento” di componenti {xµ } = (ct, x) ≡ (ct, x, y, z) si ha che il covettore ad esso corrispondente secondo la metrica lorentziana ha componenti xµ = (ct, −x) ≡ (ct, −x, −y, −z). Campi vettoriali e covettoriali, metrica su una varietà. Abbiamo finora considerato uno spazio vettoriale V e abbiamo in corrispondenza definito lo spazio duale V ∗ , i cui elementi sono i covettori (funzionali lineari su V ); abbiamo poi analogamente considerato un particolare funzionale bilineare su V definente un prodotto scalare. La situazione più significativa che si deve considerare è però un’altra, ovvero quella in cui si ha uno spazio vettoriale in ogni punto di una varietà. Consideriamo infatti il più semplice esempio, ovvero quello dello spazio ordinario prerelativistico, il consueto spazio euclideo. È proprio questa la varietà di cui parliamo, anche se poi casualmente è essa stessa uno spazio vettoriale (tridimensionale). Ma quello che vogliamo mettere in luce è che in ogni punto di tale varietà è definito uno spazio vettoriale, che è lo spazio tangente alla varietà in quel punto. Ed è proprio questo spazio tangente quello che prende il posto dello spazio vettoriale V discusso 287 Meccanica Razionale 1: Teoria della relatività, parte seconda sopra. In altri termini, più in generale, sia data una qualsiasi varietà (differenziabile) M, che localmente possiamo riferire a una carta con coordinate x1 , . . . , xn .40 Allora in ogni punto di M, individuato dalle coordinate x = (x1 , . . . , xn ). è definito lo spazio vettoriale tangente alla varietà (denotato con Tx M), i cui elementi sono nient’altro che le velocità di tutti i movimenti (curve parametrizzate) che passano per quel punto. Dal capitolo sulle equazioni di Lagrange abbiamo imparato come l’assegnazione delle coordinate locali x = (x1 , . . . , xn ) definisca naturalmente una base vettoriale (che abbiamo chiamato base coordinata) in ciascun spazio tangente Tx M. Dunque la situazione che ci interessa è quella di una varietà (che per noi poi sarà lo spaziotempo, isomorfo ad IR4 ) in cui si hanno delle coordinate (x1 , . . . , xn ) oppure (x0 1 , . . . , x0 n ) (due diverse carte; nel nostro caso, le coordinate rispetto a due sistemi inerziali K, K 0 ). In ogni punto di tale spazio è definito lo spazio vettoriale tangente Tx M. Questo spazio prende il posto di V , e ad esso possiamo dunque associare lo spazio duale Tx∗ M (spazio dei funzionali lineari relativi a Tx M), e cosı̀ anche possiamo considerare i funzionali bilineari. Per definizione, un campo vettoriale su M è una funzione che ad ogni punto x di M associa un vettore di Tx M; analogamente un campo covettoriale è una funzione che ad ogni punto x di M associa un elemento di Tx∗ M. Cosı̀, anche, assegnare una metrica (o un prodotto scalare) vuol dire dare una funzione che ad ogni punto x di M associa un funzionale bilineare su Tx M (che sia simmetrico e nondegenere). Comportamento dei campi vettoriali, dei campi covettoriali e della metrica sotto cambiamento di coordinate. Consideriamo un cambiamento di coodinate nella varietà M: x0 i = x0 i (x1 , . . . , xn ) , i = 1, . . . , n , (6.4.5) e la corrispondente matrice jacobiana A definita da Aik = ∂x0 i . ∂xk Siano poi dati un campo vettoriale vi = vi (x1 , . . . , xn ) (un vettore funzione del posto) e un campo covettoriale αi = αi (x1 , . . . , xn ). Allora si mostra immediatamente la seguente Proposizione. Le componenti vi di un vettore e le componenti αi di un covettore si trasformano rispettivamente con le leggi 40 In v0 i = ∂x0 i k v , ∂xk (6.4.6) α0i = ∂xk αk . ∂x0 i (6.4.7) particolare, M può coincidere con l’ordinario spazio euclideo o lo spaziotempo relativistico, e quindi essere essa stessa uno spazio vettoriale, sicché le coordinate sono addirittura globali e non solo locali; ma non sarà più cosı̀ in relatività generale. 288 Andrea Carati e Luigi Galgani 0i Tra l’altro, si noti che nella prima relazione figura la matrice jacobiana ∂x , ∂xk mentre nelle seconda appare la sua inversa (anzi, la trasposta dell’inversa), come si vede in virtù della relazione41 ∂x0 i ∂xk = δil ∂xk ∂x0 l (6.4.8) Dimostrazione. Per quanto riguarda le componenti dei vettori, bisogna ricordare che il modo più significativo per definire un vettore è il seguente. Avendo fissato delle coordinate xi (una carta, come si direbbe in geometria differenziale) si considera una curva parametrizzata xi = xi (λ), ovvero l’analogo di un movimento, in cui il parametro reale λ prende il posto del tempo. Allora per definizione un vettore è nient’altro che la corrispondente “velocità”: vi = dxi . dλ Se poi si considera il cambiamento di variabili (6.4.12), allora le nuove componenti del vettore velocità sono date da v0 i = dx0 i , dλ dove x0 i è funzione composta di λ (attraverso le coordinate xk ). Dunque la prima delle (6.4.6) è nient’altro che la formula per la derivata di una funzione composta. Per quanto riguarda le componenti αi dei covettori, la dimostrazione è la seguente. Date le vecchie componenti αi , le nuove α0i sono definite dalla condizione42 43 α0i v0 i = αk vk per ogni (v1 , . . . , vk ) (perché il risultato che si ottiene applicando α a v non deve dipendere dalla base scelta). Dunque, usando la relazione appena trovata per v0 i , si richiede α0i ∂x0 i k v = αk vk ∂xk per ogni (v1 , . . . , vn ) ∈ IRn , (6.4.9) nella (6.4.12), pensare le vecchie variabili xk come funzioni delle nuove x0 l , sicché x0 i è funzione composta delle variabili x0 l . Allora si usa il teorema di derivata di una funzione composta, e si osserva ∂x0 i = δil . ∂x0 l 41 Basta, 42 Si noti che la (6.4.9) è una condizione sulle componenti α0 , perché tutte le altre quantità sono i note. 43 Si ricordi che il funzionale lineare α è definito dalla sua azione su tutti i vettori in T M, cioè su x tutte le n–uple (v1 , . . . , vn ) ∈ IRn ; questa è la ragione della condizione “per ogni (v1 , . . . , vn ) ∈ IRn ”. 289 Meccanica Razionale 1: Teoria della relatività, parte seconda ovvero α0i k ∂x0 i − α v =0 k ∂xk 0i − αk = 0 , ovvero44 α0i ∂x ∂xk αk = α0i per ogni (v1 , . . . , vn ) ∈ IRn , k = 1, . . . , n, o anche ∂x0 i . k = 1, . . . , n . ∂xk k ∂x Moltiplicando per ∂x 0 l , sommando su k e usando la (6.4.8) (e cambiando nome agli indici) si ottiene infine la seconda delle (6.4.6). Q.E.D. Regola per il cambiamento delle componenti: Covarianza e contravarianza. Si vede dunque che le leggi di trasformazione per le componenti dei vettori (6.4.6) e quelle dei covettori (6.4.7) sono ben diverse. Si usa dire che le componenti dei vettori sono di tipo contravariante,45 , le componenti dei covettori sono di tipo covariante.46 Le relazioni (6.4.6) e (6.4.7) sono facilissime a ricordarsi. Consideriamo ad esempio la (6.4.6), in cui le nuove componenti di un vettore v0 i (indice libero i in alto) sono espresse come combinazione lineari delle vecchie vk . Allora l’incertezza è se a destra debba apparire la 0 ∂x matrice jacobiana ∂x ∂x oppure la sua inversa ∂x0 e come debbano essere scelti gli indici. La regola è la seguente: la matrice jacobiana a destra rispetta esattamente quello che si trova a sinistra. Ovvero, nel nostro esempio: a sinistra c’è una quantità primata con l’indice in alto ? Allora nella matrice jacobiana a destra la quantità primata appare “in alto, ovvero a numeratore”, con lo stesso indice che c’è a sinistra; poi, al denominatore la scelta è determinata in conseguenza. Analogamente consideriamo la (6.4.7). A sinistra appare la quantità primata con l’indice in basso ?. Allora a destra, nella matrice jacobiana, la quantità primata va “in basso, ovvero a denominatore”, con lo stesso indice che c’è a sinistra; poi, al numeratore si va in conseguenza. La stessa regola (scambiando i termini “primato” e “nonprimato”’) vale quando si considerano le relazioni inverse. La grande facilitazione 44 Basta prendere successivamente (v1 , . . . , vn ) = (1, 0, . . . , 0), (v1 , . . . , vn ) = (0, 1, . . . , 0), . . ., (v1 , . . . , vn ) = (0, 0, . . . , 1). 45 Spesso si usa dire controvariante invece di contravariante, sia in italiano che in inglese. La nostra scelta è quella classica. 46 La ragione sta nel fatto che le componenti dei covettori hanno la stessa legge di trasformazione dei vettori base ei (per questo hanno entrambi gli indici in basso), mentre le componenti dei vettori cambiano in maniera “contraria” (contravariano) rispetto a come cambiano i vettori base (per questo hanno gli indici in alto, come i covettori–base εi , che contravariano anch’essi. 290 Andrea Carati e Luigi Galgani consiste nel fatto che non ci si deve ricordare se si debba fare intervenire la matrice jacobiana o la sua inversa (o addirittura la trasposta di quest’ultima). L’esempio sopra riportato è fondamentale, ed è il prototipo di una situazione assolutamente generale. Infatti quello che abbiamo compiuto è di determinare la legge di trasformazione delle componenti dei covettori conoscendo la legge di trasformazione delle componenti dei vettori, e ciò è avvenuto basandosi su un preciso requisito, ovvero che l’applicazione di un covettore a un vettore fornisce un risultato assoluto, indipendente dalla base. Si richiede infatti che valga α0i v0 i = αk vk sapendo già che vale v0 i = ∂x0 i k v , ∂xk e questa condizione determina47 α0i in funzione di αi (per una applicazione fisica all’effetto Doppler, si veda avanti). Se si è capito profondamente questo fatto. allora è immediato svolgere i seguente esercizi: Esercizio. Sapendo che il prodotto scalare gik vi wk è una quantità assoluta, indipendente dalla scelta delle coordinate (si tratta del prodotto scalare g(v, w)), e sapendo che le componenti vi , wk dei vettori si trasformano in maniera contravariante, determinare la legge di trasformazione delle componenti della metrica gik . Il risultato che si trova è g0ik = ∂x j ∂xl g jl , ∂x0 i ∂x0 k (6.4.10) ovvero le componenti gik della matrice definente la metrica si comportano in maniera covariante. Si dice che la metrica è un tensore doppio, due volte covariante. Esercizio. Sapendo che vi ed αk sono rispettivamente le componenti di un vettore e di un covettore, e sapendo inoltre che vale vi = gik αk , determinare come si trasformano le componenti gik . 47 Questa in effetti è la definizione che si trova proprio all’inizio della esposizione del calcolo tensoriale data nel citato articolo di Einstein (si veda la formula (6) relativa ai “vettori covarianti”). Si tratta di un esempio particolare di quello che Einstein chiama “un teorema che sarà spesso utile per mettere in evidenza il carattere tensoriale” (parte finale del paragrafo 7). 291 Meccanica Razionale 1: Teoria della relatività, parte seconda Il risultato che si trova è g0 ik = ∂x0 i ∂x0 k jl g , ∂x j ∂x l (6.4.11) e dunque gik è un tensore doppio, due volte contravariante. In altri termini, appare evidente che la legge di trasformazione delle componenti, di tipo covariante o di tipo contravariante, è nient’altro che la traduzione di una proprietà generale, ovvero che si ha a che fare con dei funzionali lineari o multilineari (si veda la precisazione subito sotto) definiti in maniera intrinseca, cioè indipendente dalle coordinate. È questa quella che più in generale viene chiamata legge di covarianza o di tensorialità. Un punto delicato è il seguente, riferendoci ancora al caso di uno spazio vettoriale V (ma l’estensione al caso delle varietà è banale). Finora abbiamo privilegiato lo spazio vettoriale V (con i suoi vettori), e allora i covettori sono stati definiti come i funzionali lineari α agenti su V , fornendo, per ogni v ∈ V , il numero α(v). Ma abbiamo poi detto (si veda l’Appendice) che l’insieme V ∗ dei covettori è anch’esso uno spazio vettoriale, ed è evidente che, avendo fissato v, il numero α(v) può essere riguardato come un funzionale lineare agente su V ∗ : in altri termini, il duale di V ∗ è proprio V stesso, (V ∗ )∗ = V , e dunque V può essere riguardato come il duale di V ∗ , cioè come l’insieme dei funzionali lineari sullo spazio dei covettori. Si ha pertanto una completa simmetria: α : V → IR , v : V ∗ → IR , e la funzione α(v) può essere denotata, in maniera più simmetrica, con < α, v > . Definizione dei campi tensoriali. Si capisce in tal modo come si possa pervenire alla seguente Definizione: Data una varietà M e una sua carta locale con coordinate x1 , . . . xn , un tensore (o meglio un campo tensoriale) di tipo r, s (ovvero r volte contravariante, s volte covariante) è individuato da j ,..., j componenti Ti1 1,...,is r con la proprietà che, al cambiare della carta (ovvero sotto trasformazione delle coordinate), le nuove componenti sono j ,..., j date da T 0 i11,...,isr , dove j ··· j T 0 i11···isr = ∂x0 j1 ∂x0 jr ∂xm1 ∂xms l1 ···lr · · · · · · T ∂xl1 ∂xlr ∂x0 i1 ∂x0 is m1 ···ms (6.4.12) 292 Andrea Carati e Luigi Galgani Questa proprietà, abbastanza complicata a scriversi, rispecchia la più significativa definizione geometrica seguente: un tensore di tipo r, s su uno spazio vettoriale V è nient’altro che un funzionale multilineare ∗ T :V . . ×V }∗ ×V . . ×V} → IR . | × .{z | × .{z r volte s volte S Analogamente, nel caso delle varietà (in cui in luogo di V si ha T M = x Tx M) sotto cambiamento di coordinate le componenti del tensore T si trasformano nel modo suddetto (si ripensi alla definizione della metrica g e alla legge di trasformazione delle sue componenti gik ). Si noti che, conformemente alla osservazione appena fatta sopra, questa definizione geometrica comprende come caso particolare anche il vettore, pensato come funzionale lineare su V ∗ , ovvero v : V ∗ → IR. Si noti anche come questi tensori di tipo r, s sono una generalizzazione del “tensore prototipo” di ordine zero, cioè lo scalare.48 È interessante notare che vale anche l’inverso di quanto detto sopra: se un certo ente è definito mediante componenti che si trasformano nel modo sopra indicato, allora tale ente ha significato geometrico, cioè è un funzionale multilineare del tipo detto sopra. Esempio. Sia dato uno spazio vettoriale V , sicché sappiamo che i vettori v ∈ V hanno componenti che si trasformano con la regola v0 i = ∂x0 i k v . Ammettiamo ora di avere un ente definito da componenti αi ∂xk k ∂x che si trasformano con la legge α0i = ∂x 0 i αk . Vogliamo mostrare che le componenti {αi } definiscono un covettore α : V → IR. Ciò vuol dire che, per ogni vettore v, si deve avere un risultato α(v) che non dipende dalla base scelta, ovvero si deve avere αi vi = α0k v0 k . E infatti si ha49 α0i v0 i = ∂xl ∂x0 i k ∂xl ∂x0 i α v = αl vk l ∂x0 i ∂xk ∂x0 i ∂xk = δlk αl vk = αl vl 48 Si tratta di una funzione a valori reali definita sulla varietà, diciamo F : M → IR. Essa definisce un numero reale per ogni punto della varietà; e allora la forma funzionale della funzione f che rappresenta F deve necessariamente variare al variare delle coordinate proprio in maniera tale che non cambi il valore di F in corrispondenza di un definito punto della varietà. Ad esempio, se M è la retta reale, e x una coordinata, allora lo scalare F : M → IR sarà rappresentato da una funzione reale di variabile reale, diciamo f = f (x). Se poi si passa a un’altra coordinata x0 = x0 (x), allora la medesima funzione F : M → IR sarà rappresentata da una diversa funzione f 0 definita da f 0 (x0 ) = f (x(x0 )). 49 Si ricordi che gli indici su cui si somma sono “muti” o indici fantoccio (“dummy”) e si può dar loro un nome arbitrario. 293 Meccanica Razionale 1: Teoria della relatività, parte seconda Qui si è fatto uso della proprietà ∂xl ∂x0 i = δlk , ∂x0 i ∂xk che, come già osservato, non è altro che il teorema di derivata della funzione composta (si somma su i, mentre l, k sono fissati!): si pensa ∂xl l x funzione di x0 e poi x0 funzione di x, e si ricorda ∂x k = δk . L’esempio appena illustrato è un caso particolare della fondamentale Regola della traccia (o della contrazione o della saturazione): Quando in una espressione contenente delle componenti tensoriali si somma su un indice ripetuto che si trova una volta in alto (indice di contravarianza) e una volta in basso (indice di covarianza) (o, come si dice, si satura un indice in alto con uno in basso) si ottiene un tensore di due ordini in meno, in cui “sono scomparsi quei due indici”. Cosı̀ le quantità αi vk individuano un tensore doppio 1 − 1 (una volta contravariante, una volta covariante), ma se si esegue la saturazione dei due indici si ha la quantità αi vi che è uno scalare. Analogamente, se Tikl sono le componenti di un tensore di tipo 2 − 1, allora Tiil (avendo sommato su i) sono le componenti di un tensore di tipo 1 − 0, ovvero di un vettore. Analogamente gik vk “è un covettore”, mentre gik αk “è un vettore”. Questa proprietà è una immediata conseguemza della definizione (6.4.12) di tensore e della identità (6.4.8). Veniamo infine all’ultimo richiamo di questo lungo paragrafo: esso riguarda gli operatori differenziali. Cominciamo con un Esempio. Le quantità ∂f ∂xi sono le componenti di un covettore (o meglio, di un campo covettoriale)50 (se f è uno scalare), ovvero si trasformano secondo la legge ∂i f := ∂0i f 0 = ∂xk ∂k f . ∂x0 i (6.4.13) Abbiamo qui denotato con f 0 la funzione f in cui si è eseguito il cambiamento di variabili, e anche ∂0i f 0 ≡ ∂x∂0 i f 0 . Dimostrazione. La (6.4.13) è nient’altro che la formula per la derivata di una funzione composta, ∂f0 ∂ f ∂xk = . ∂x0 i ∂xk ∂x0 i 50 Si noti che l’aver posto l’indice in alto in xi conduce naturalmente ad un indice in basso per ∂i (infatti l’indice i sta in alto al denominatore). 294 Andrea Carati e Luigi Galgani Q.E.D. Si conferma quindi che quello che di solito viene chiamato il “gradiente” non è un vettore (meglio campo vettoriale) ma un covettore (campo covettoriale). Il vettore gradiente è invece definito “alzando gli indici”, cioè è dato da ∂i f := gik ∂k f . Si potrebbe allora pensare ingenuamente che eseguendo successive operazioni di derivazione si ottengano sempre tensori, di ordine opportuno, cioè che ogni operazione di derivazione aggiunge un indice di covarianza. Ma ciò non è vero, come mostra il seguente Lemma. Per le derivate successive di una funzione scalare f vale la legge di trasformazione ∂0i ∂0k f 0 = Dimostrazione. (6.4.13) si ha ∂0i ∂0k f 0 = ∂2 xm ∂xl ∂xm ∂l ∂m f + 0 i 0 k ∂m f . 0 i 0 k ∂x ∂x ∂x ∂x (6.4.14) Per il teorema di derivata di una funzione composta ∂xl ∂xm ∂xl ∂xm ∂xl ∂xm ∂ ∂ f = ∂ ∂ f + ∂l ∂m f . m l l m ∂x0 i ∂x0 k ∂x0 i ∂x0 k ∂x0 i ∂x0 k In tal modo è stato determinato il primo termine a secondo membro della (6.4.14). Nel secondo termine si usa poi ∂l = e si ricorda ∂x0 p ∂xl ∂xl ∂x0 i = δip . ∂x0 p 0 ∂ ∂xl p Q.E.D. Tuttavia la situazione è molto più semplice se ci si limita a considerare trasformazioni di coordinate che siano lineari. Si ha infatti il Corollario. Se ci si limita a trasformazioni di coordinate x0 i = x0 i (x1 . . . . , xn ) lineari, le quantità ∂i ∂k f si comportano come le componenti di un tensore due volte covariante. Dimostrazione. si ha Poiché anche la trasformazione inversa è lineare, ∂2 x m =0. ∂x0 i ∂x0 k Dunque nella legge di trasformazione (6.4.14) si annulla il secondo termine, e ci si riduce alla legge di trasformazione dei tensori due volte covarianti. Q.E.D. Meccanica Razionale 1: Teoria della relatività, parte seconda 295 In effetti, esiste un modo generale per ottenere quantità geometriche (cioè aventi carattere tensoriale) per derivazione di tensori quando si abbia a disposizione una metrica. Questo procedimento fu inventato da Levi Civita nel 1916 e fu poi generalizzato da H.Weyl (derivata covariante) ed è stato da noi implicitamente usato, senza farlo notare esplicitamente, nella deduzione dell’equazione di Lagrange. Dimenticandoci ora del problema generale della derivata covariante, ci basta qui avere constatato (nel caso delle derivate seconde, ma si vede subito che il risultato è generale) che, se ci si limita a trasformazioni lineari (come le rotazioni nello spazio euclideo, e le trasformazioni di Lorentz nello spaziotempo), è vero che le operazioni di derivazione aggiungono altrettanti indici di covarianza. Ad esempio, se ci si limita a trasformazioni lineari, allora ∂i ∂k f (dove f è uno scalare) si comporta come un tensore due volte covariante (di tipo 0 − 2); analogamente, se vi sono le componenti di un vettore (o meglio, di un campo vettoriale), allora ∂k vi si comporta come un tensore di tipo 1 − 1, e ∂i vi come uno scalare (la divergenza del campo vettoriale v) e cosı̀ via. Particolarmente importante è il seguente esempio, che sarà di fondamentale interesse per il campo elettromagnetico. Se Aµ è un vettore, e Aµ il corrispondente covettore, allora ∂µ Aν è un tensore due volte covariante, come lo è anche il tensore Fµν := ∂µ Aν − ∂ν Aµ . Questo tensore doppio Fµν è evidentemente emisimmetrico (Fµν = −Fνµ ), sicché è individuato da 6 componenti. Se Aµ ≡ (Φ, A) è il quadripotenziale, allora verificheremo che le componenti indipendenti del tensore Fµν sono proprio le componenti del campo elettrico E e del campo magnetico H. Il tensore Fµν viene talvolta detto Tensore di Faraday. Possiamo infine concludere questi cenni di calcolo tensoriale con il seguente fondamentale esempio. Invarianza in forma dell’operatore dalembertiano sotto trasformazioni di Lorentz. Si osserva anzitutto che in un sistema inerziale (con coordinate spaziali cartesiane ortogonali), avendo la metrica gµν la forma diagonale diag (1, −1, −1, −1), il dalembertiano (denotiamo ∂tt2 = ∂t ∂t e cosı̀ via) := ∂tt2 − (∂2xx + ∂2yy + ∂2zz ) si esprime nella forma = gµ ν ∂µ ∂ν . Questa forma è quella buona, perchè satura due indici, uno in alto e uno in basso, e fornisce uno scalare. Sappiamo pertanto che, se ora passiamo ad un altro arbitrario sistema di coordinate51 , si avrà 0 = g0 µ ν ∂0µ ∂0ν 51 Sottointendiamo, ottenuto con trasformazioni lineari come quelle di Lorentz, perchè altrimenti dovremmo introdurre la derivata covariante in luogo dell’ordinaria derivazione. 296 Andrea Carati e Luigi Galgani dove g0 µν avrà una certa espressione fornita dalla regola g0 µ ν = ∂x0 µ ∂x0 ν λσ g . ∂xλ ∂xσ Tale espressione risulta in generale alquanto complicata. Ma se ci limitiamo a considerare trasformazioni di Lorentz, sappiamo che queste sono isometrie, ovvero sono tali che52 g0 µ ν = diag (1, −1, −1, −1), e dunque si ha ancora 0 = ∂t20t 0 − (∂2x0 x0 + ∂2y0 y0 + ∂2z0 z0 ) . Esercizio: Soluzioni dell’equazione di d’Alembert in forma di onde piane, ed effetto Doppler. Consideriamo l’equazione di d’Alembert (nell’incognita u = u(t, x) ) ∂µ ∂µ u = 0 ovvero gµ ν ∂µ ∂ν u = 0 , (6.4.15) e cerchiamone una soluzione nella forma u = A exp[ikµ xµ ] (6.4.16) con dei parametri kµ liberi. Per ogni fissato kµ si tratta di un’ onda piana perché il luogo geometrico u =cost è definito nello spaziotempo dalla condizione kµ xµ =cost, ovvero da un iperpiano. A sua volta (al modo solito), questo iperpiano nello spaziotempo corrisponde nello spazio ordinario a una famiglia di piani paralleli che traslano con una certa velocità. Questa viene determinata nel modo seguente. Si osserva che la condizione che u soddisfi l’equazione di d’Alembert si traduce nella condizione gµ ν kµ kν = 0, ovvero kµ kµ = 0 . (6.4.17) Dunque l’onda piana (6.4.16) soddisfa l’equazione di d’Alembert (6.4.15) soltanto se il quadrivettore kµ è un vettore nullo (cioè ha pseudolunghezza nulla). La relazione (6.4.17) viene detta relazione di dispersione e la ragione è la seguente. Scriviamo kµ xµ nella forma tradizionale kµ xµ = ω t − k · x , il che vuol dire (ricordando xµ = (ct, x) ) che il quadrivettore kµ associato al covettore kµ viene decomposto in parte temporale (frequenza angolare o pulsazione) e parte spaziale (vettore d’onda) come ω {kµ } = ( , k) . c 52 Più direttamente, avremmo g0µ ν = gµ ν , ma poi segue allora g0 µ ν = gµ ν . 297 Meccanica Razionale 1: Teoria della relatività, parte seconda Allora la (6.4.17) fornisce una relazione tra frequenza ω e vettore d’onda k come avviene nella familiare relazione di dispersione. Nel caso qui considerato di soluzioni dell’equazione di d’Alembert nel vuoto, tale relazione ha dunque la forma (ω/c)2 − ||k||2 = 0, ovvero |ω| = ck , k = ||k|| . In altri termini, l’equazione di d’Alembert nel vuoto ha soluzioni della forma di onde piane normali al vettore d’onda k (dunque con lunghezza d’onda λ = 2π/k) e con pulsazione ω se questi piani si spostano con velocità c e inoltre si ha ω = ck. Esercizio: Si deduca la formula per l’effetto Doppler relativistico per un “boost” di Lorentz (K 0 trasla con velocità v lungo l’asse x di K). Se (l, m, n) denotano i coseni direttori del vettore d’onda k (ovvero si ha kx = l ω/c, ky = m ω/c, kz = m ω/c) allora si trovi ω0 = ω γ (1 − vl/c) . (6.4.18) Si ottengano anche le analoghe relazioni per i coseni direttori del vettore d’onda k nel sistema K 0 . Si confronti l’articolo originale di Einstein, paragrafo 7. 53 6.5 L’elettromagnetismo in forma covariante (o tensoriale) 6.5.1 Forma covariante della relazione tra potenziali e campi: il tensore di Faraday. La realazione tra potenziali e campi è l’ambito in cui il passaggio dal formalismo tridimensionale e quello quadridimensionale nello spaziotempo manifesta tutta la sua potenzialità; infatti la relazione tra potenziali e campi prende una forma di una semplicità e una simmetria stupefacenti. Ricordiamo brevemente quanto avevamo già visto con il formalismo elementare tridimensionale. Avevamo introdotto i potenziali scalare Φ e vettore A, che fornivano i campi E e H mediante le formule E = −grad Φ − 1 ∂A , c ∂t H = rot A , (6.5.1) come traduzione delle equazioni di Maxwell omogenee. Le equazioni inomogenee assumevano invece, nel gauge di Lorentz, caratterizzato da 1 ∂Φ + div A = 0 , c ∂t 53 Si (6.5.2) faccia attenzione al fatto che nell’articolo originale Einstein denota con β il fattore di Lorentz che oggi tutti denotano con γ. 298 Andrea Carati e Luigi Galgani la forma di d’Alembert Φ = ρ , A = j/c . (6.5.3) Osserviamo ora la potenza del formalismo quadridimensionale. Il primo passo consiste nel porre come assioma che la densità di carica ρ e la densità di corrente j si mettono assieme a formare il quadrivettore densità di quadricorrente jµ definito da54 { jµ } ≡ (ρc, j) . (6.5.4) Da qui segue allora che anche i potenziali costituiscono un quadrivettore, cioè si può porre {Aµ } ≡ (Φ, A) . (6.5.5) Questa è infatti coerente con la (6.5.4), perché il dalembertiano è invariante. La prima semplificazione di scrittura che si ottiene allora è che la condizione di Lorentz (6.5.2) viene scritta in forma quadridimensionale nella semplicissima e simmetrica forma ∂µ Aµ = 0 . (6.5.6) Inoltre, anche le relazioni tra potenziali e campi, dalla loro forma estremamente asimmetrica (6.5.1) vengono ad assumere una forma estremamente elegante e semplice nel formalismo quadridimensionale. Infatti si ha ad esempio Hz = ∂1 A2 − ∂2 A1 Ez = −∂0 A3 − ∂3 A0 , e si osserva anzitutto che questa scrittura assume forma più simmetrica se si abbassano gli indici (e dunque cambiamo di segno alle componenti spaziali), perché allora si ha −Hz = ∂1 A2 − ∂2 A1 Ez = ∂0 A3 − ∂3 A0 . Considerando anche le altre relazioni in maniera analoga, è allora spontaneo introdurre il tensore doppio Fµ ν = ∂µ Aν − ∂ν Aµ (Fµ ν = −Fν µ ) , (6.5.7) che è evidentemennte antisimmetrico, e dunque è individuato da 6 componenti indipendenti (quante sono le componenti dei campi E ed H). Infatti si riconosce immediatamente che le componenti del tensore Fµ ν sono date, in termini dei campi, da 0 Ex Ey Ez −Ex 0 −Hz Hy . Fµ ν = (6.5.8) −Ey Hz 0 −Hx −Ez −Hy Hx 0 54 Si deve pensare che la densità di corrente j associata a una particella coincida con ρv dove v è la velocità della particella e ρ la corrispondente densità di carica. 299 Meccanica Razionale 1: Teoria della relatività, parte seconda Si vede dunque che il campo elettrico e il campo magnetico costituiscono una unità, il tensore doppio antisimmetrico Fµ ν (detto talvolta tensore di Faraday). Un punto cruciale è che la struttura tensoriale del quadrivettore Aµ comporta automaticamente una struttura tensoriale per Fµ ν (tensore due volte covariante), sicché viene automaticamente stabilito quale è la legge di trasformazione delle sue componenti (e quindi anche dei campi E, H) quando si compie una trasformazione di Lorentz sulle coordinate. Svolgeremo questo esercizio più sotto, verificando che si ottengono proprio le leggi di trasformazione già trovate nella prima parte di questo capitolo con il metodo elementare alla Lorentz, Poincaré ed Einstein (metodo forza bruta). Questo esempio dovrebbe illustrare in maniera sufficiente le parole di Einstein citate più sopra: “Egli (Minkowski) invece riuscı̀ ad introdurre un formalismo tale che la forma matematica della legge garantisce di per sé l’invarianza della legge stessa rispetto alle trasformazioni di Lorentz. Creando un calcolo tensoriale quadridimensionale, egli ottenne per lo spaziotempo ciò che il calcolo tensoriale aveva ottenuto per le tre dimensioni spaziali.” Mostreremo anche quale forma assumono le equazioni di Maxwell in termini del tensore di Faraday. Preliminarmente, osserviamo che il tensore antisimmetrico F µν associato ad Fµ ν secondo le regole per l’innalzamento degli indici è dato da 0 −Ex −Ey −Ez Ex 0 −Hz Hy . {F µ ν } = Ey Hz 0 −Hx Ez −Hy Hx 0 6.5.2 (6.5.9) Le equazioni di Maxwell in termini del tensore di Faraday F. Si ha la Proposizione. In termini del tensore di Faraday Fµ ν = ∂µ Aν − ∂ν Aµ (e del suo corrispondente contravariante Fµ ν ) le equazioni di Maxwell inomogenee si scrivono (in coordinate cartesiane ortogonali rispetto alla metrica di Lorentz) nella forma ∂µ F µ ν = jν /c (ν = 0, 1, 2, 3) , (6.5.10) mentre le equazioni omogenee assumono la forma ∂λ Fµ ν + ∂µ Fν λ + ∂ν Fλ µ = 0 , (λ, µ, ν = 0, 1, 2, 3) . (6.5.11) Dimostrazione. Per le equazioni inomogenee la verifica è immediata. Per quanto riguarda quelle omogenee, osserviamo anzitutto che le equazioni che si ottengono in tal modo sono proprio in numero di 4, 300 Andrea Carati e Luigi Galgani e corrispondono alle scelte possibili degli indici (λ, µ, ν) tutti diversi tra di loro, ovvero (0, 1, 2) , (0, 1, 3) , (0, 2, 3) , (1, 2, 3) . Infatti si verifica facilmente che in tutti gli altri casi, per l’antisimmetria di F, Fµν = −Fνµ , si ottiene l’identità 0 = 0. Nei casi non banali si ha ad esempio: (0, 1, 2) → ∂0 F12 + ∂1 F20 + ∂2 F01 = 0 cioè la terza componente di 1c ∂t H + rot E = 0. Inoltre si ha (1, 2, 3) → ∂1 F23 + ∂2 F31 + ∂3 F12 = 0 ovvero div H = 0. Q.E.D. Esercizio. Verificare che la legge generale di trasformazione delle componenti dei tensori, applicata al tensore di Faradyay, fornisce per la trasformazione dei campi esattamente quella precedentemente trovata con il metodo di Lorentz, Poincaré ed Einstein. Svolgimento. Si veda Landau Lifshitz, Teoria dei campi, paragrafo 24. 6.6 6.6.1 Particella in campo elettromagnetico Equazioni di moto in forma covariante (con campi assegnati) Seguendo il procedimento induttivo sviluppato nella prima parte di questo capitolo siamo già pervenuti all’assioma che l’azione hamiltoniana di una particella in campo elettromagnetico è data da Z e (6.6.1) S=− mc + g(A, u) ds , c dove g(A, u) è il prodotto scalare tra quadrivelocità uµ e quadripotenziale Aµ , g(A, u) = gµν Aµ uν = Aµ uµ , ovvero e mc + Aµ uµ ds . (6.6.2) c Facendo uso della scrittura (6.6.1) per l’azione, abbiamo già ottenuto per una particella in campo elettromagnetico l’equazione di moto in forma tridimensionale, ovvero d 1 (mγv) = e(E + v × H) , (6.6.3) dt c con il corrispondente teorema dell’energia S=− Z d mγc2 = eE · v , (6.6.4) dt e vogliamo ora scrivere le corrispondenti equazioni in forma covariante. Otterremo in tal modo 4 equazioni, di cui la componente spaziale coinciderà con la (6.6.3), mentre la componente temporale fornirà il teorema dell’energia (6.6.4). 301 Meccanica Razionale 1: Teoria della relatività, parte seconda Proposizione. L’equazione di moto per una particella in campo elettromagnetico, scritta in forma covariante, è data da mc2 aµ = eFµ ν uν (µ = 0, 1, 2, 3) (6.6.5) (µ = 0, 1, 2, 3) . (6.6.6) o equivalentemente da mc2 aµ = eF µ ν uν Dimostrazione. L’azione hamiltoniana (6.6.2) ha la forma Z S= Lds con e L = L(mecc) − Aµ uµ , c (mecc) dove L = −mcL̃, mentre L̃ è la lagrangiana usata nel capitolo precedente per studiare le geodetiche della particella libera. I movimenti naturali sono allora le soluzioni xµ (s) delle equazioni di Eulero–Lagrange d ∂L ∂L − µ =0. µ ds ∂u ∂x Avevamo già eseguito il calcolo che fornisce ∂L(mecc) = −mcuµ . ∂uµ Dunque si trova ∂L e = −mcuµ − Aµ , µ ∂u c ∂L e = − (∂µ Aν )uν . ∂xµ c Pertanto si ha = d ∂L ∂L ds ∂uµ − ∂xµ −mcaµ − ce (∂ν Aµ )uν − (∂µ Aν )uν = −mcaµ + ce ∂µ Aν − ∂ν Aµ uν = −mcaµ + ec Fµ ν uν , e dunque le equazioni di Eulero–Lagrange hanno la forma e mcaµ = Fµν uν . c Q.E.D. Esercizio. Controllare che la componente spaziale dell’equazione di moto quadridimensionale (6.6.6) fornisce la (6.6.3), e che la componente temporale fornisce il corrispondente teorema dell’energia (6.6.4). 302 Andrea Carati e Luigi Galgani APPENDICE: SUL DUALE DI UNO SPAZIO VETTORIALE La base duale. Cominciamo con l’osservare che, data una base {ei } in V , esistono n covettori che si possono veramente toccare con mano. Si tratta dei covettori che corrispondono alla familiare operazione di “misurare i vettori”, cioè misurare le componenti di un vettore rispetto alla base assegnata. Infatti, ben sappiamo che, data la base, ogni vettore x è univocamente determinato da componenti x1 , . . . , xn tramite la (6.4.1), x = ∑i xi ei ≡ xi ei . Si tratta ora di compiere l’operazione inversa, cioè determinare le componenti quando sia dato il vettore. Il salto psicologico che si deve compiere è di pensare alle componenti come ottenute mediante un’operazione, cioè come una funzione che produce un numero in corrispondenza di ogni vettore. Fissato un ben definito vettore tra i vettori base ei , ad esempio e1 , allora il numero x1 è una funzione a valori reali definita su V , ovvero si ha x1 : V → IR, ed è evidente che tale funzione è lineare. Dunque l’operazione di misurare (o estrarre) la i–esima componente di un vettore quando sia fissata una base55 è un covettore, che denoteremo con εi : εi (∑ xk ek ) ≡ εi (xk ek ) = xi . (6.6.7) k Equivalentemente, il covettore εi è definito da εi (ek ) = δik . (6.6.8) Dovrebbe dunque essere chiaro che il covettore α definito dalla n–upla α1 , . . . , αn mediante la (6.4.2) può essere pensato come combinazione lineare degli n covettori– base εi , precisamente la combinazione α = ∑ αi εi , (6.6.9) i quando si sottintenda di prendere la naturale definizione di combinazione lineare.56 Infatti la (6.6.9) è nient’altro che una riscrittura della (6.4.3). In questo senso dunque, assegnata una base {ei } in V , risulta che nello spazio duale V ∗ è corrispondentemente assegnata una ben definita base, ovvero la {εi } definita dalla (6.6.7) o dalla (6.6.8). Questa viene detta “base duale”. Se si hanno un vettore x ∈ V e un covettore α ∈ V ∗ individuati dalle loro componenti xi ed αi nel senso che x = ∑ xi ei ≡ xi ei , α = ∑ αi εi ≡ αi εi , allora si ha α(x) = ∑ αi xi ≡ αi xi . 57 55 Abbiamo già ricordato che qui si considerano i vettori a livello puramente algebrico, senza alcun riferimento a un eventuale prodotto scalare, cioè senza nessuna nozione di ortogonalità, o basi ortonormali. 56 Ovvero, dati due covettori α, β e due numeri reali a, b, il covettore a α + b β è definito da (aα + bβ)(x) := a α(x) + b β(x) per ogni x ∈ V . quanto detto risulta in particolare che V e V ∗ hanno la stessa dimensione, perché ogni covettore α ∈ V ∗ è univocamente individuato da n numeri αi . Naturalmente, anche V ∗ , essendo uno 57 Da Meccanica Razionale 1: Teoria della relatività, parte seconda 303 Dunque, l’i–esimo covettore–base εi agisce su ogni vettore estraendone la i–esima componente (misura la i–esima componente del vettore). Covettori, e iperpiani dello spazio vettoriale V . Abbiamo dunque illustrato come esistano dei covettori ben concreti, che corrispondono a misurare le componenti dei vettori rispetto ad una base assegnata, e inoltre come ogni covettore sia combinazione lineare di quelli. Ma ci si può anche domandare se i covettori possano essere descritti in maniera intrinseca, ovvero in maniera indipendente dalla scelta della base, e addirittura con riferimento allo spazio vettoriale V su cui essi sono definiti. La risposta è assolutamente positiva. Anzitutto, ogni covettore individua un piano (o un iperpiano, nel caso n > 3) nello spazio vettoriale V . Infatti, fissato un covettore α ∈ V ∗ (con certe componenti (α1 , . . . , αn ) relative alla scelta di una base in V ), si consideri il sottoinsieme di V definito da Π = {x ∈ V : α(x) = 0 , ovvero ∑ αi xi = 0 } ; (6.6.10) i in altri termini, Π è il nucleo (ingl. kernel) del funzionale lineare α. Allora tutti sappiamo che Π è un piano passante per l’origine dello spazio vettoriale V . Si noti che ogni covettore β = a α (a ∈ IR), multiplo di quello considerato, evidentemente definisce lo stesso piano Π. Viceversa, ad ogni piano passante per l’origine di V sono associati infiniti covettori, che si ottengono l’uno dall’altro moltiplicando uno arbitrario di essi per un numero. Se si vuole, è possibile poi identificare ognuno di tali covettori assegnando, in aggiunta al piano passante per l’origine, anche il piano ad esso parallelo sul quale quel particolare covettore prende il valore 1. Si capisce dunque perché i covettori svolgono un ruolo importante in ottica nella discussione dei fronti d’onda, e più in generale nello studio dei fenomeni di propagazione delle onde. Nelle trattazioni elementari riferite allo spazio euclideo E 3 , non si fa alcun riferimento ai covettori perché un piano passante per l’origine viene definito attraverso la scelta di un vettore n ad esso ortogonale. Ovvero, fissato il vettore n in E 3 , il piano Π è definito da Π = {x ∈ IR3 : x · n = 0} . (6.6.11) Ma, come già abbiamo osservato, ciò è possibile solo in virtù del fatto che nello spazio euclideo E 3 è assegnata una metrica (cioè un prodotto scalare), e questo fatto, come mostriamo nel testo, fornisce un isomorfismo naturale tra vettori e covettori. Si tenga tuttavia presente che, se si prende in V una base che non è ortonormale rispetto all’assegnato prodotto scalare, allora i coefficienti che figurano nella definizione analitica del piano, ovvero i numeri αi (le componenti del covettore spazio vettoriale, avrà il suo duale, che coerentemente denoteremo con (V ∗ )∗ , o più semplicemnte con V ∗∗ (biduale di V ) e si mostra iimediatamente che (nel caso finito–dimensionale) si ha V ∗∗ = V . Invece V ∗ e V sono proprio due spazi diversi, che possono venir posti in corrispondenza biunivoca in maniera “naturale” solo quando si introduca un nuovo elemento nello spazio vettoriale, ad esempio (come nel caso che a noi interessa qui) una metrica, ovvero un prodotto scalare, come è mostrato nel testo. 304 Andrea Carati e Luigi Galgani α definente il piano), non coincidono affatto con le componenti del vettore n che figura nella definizione (6.6.11). Questo fatto è spesso causa di confusione nelle trattazioni elementari.