Fondamenti e Concetti della Fisica Contemporanea Cenni di Matematica e Fisica Roberto Casalbuoni Dipartimento di Fisica, Università di Firenze Sezione INFN, Firenze Istituto di Fisica Teorica Galileo Galilei, Arcetri, Firenze OpenLab, Universita’ di Firenze Appunti delle lezioni tenute all’Universita’ di Firenze nell’a.a. 2011/2012 nell’ambito della Laurea Magistrale in Logica, Filosofia e Storia della Scienza. Indice Indice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Cenni di matematica 1.1 Funzioni . . . . . . . . . . . . . . . . . . . 1.2 Trigonometria . . . . . . . . . . . . . . . . 1.3 I limiti . . . . . . . . . . . . . . . . . . . . 1.4 Le derivate . . . . . . . . . . . . . . . . . 1.4.1 Equazioni differenziali e formula di 1.4.2 Funzioni di piu’ variabili . . . . . . 1.5 Gli integrali . . . . . . . . . . . . . . . . . 1.6 Numeri complessi . . . . . . . . . . . . . . 1.7 Le matrici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Cenni di fisica 2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 I postulati della meccanica classica . . . . . . . . . . . . . . . 2.3 Onde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Descrizione delle onde . . . . . . . . . . . . . . . . . . 2.3.2 L’interferenza . . . . . . . . . . . . . . . . . . . . . . . 2.3.3 Il meccanismo della visione . . . . . . . . . . . . . . . 2.4 Gli inizi della meccanica quantistica . . . . . . . . . . . . . . 2.4.1 Il corpo nero . . . . . . . . . . . . . . . . . . . . . . . 2.4.2 Einstein e i fotoni . . . . . . . . . . . . . . . . . . . . 2.4.3 Il problema atomico . . . . . . . . . . . . . . . . . . . 2.4.4 La meccanica delle onde e quella delle matrici . . . . . 2.4.5 Il significato probabilistico della funzione d’onda . . . 2.4.6 Il principio di indeterminazione . . . . . . . . . . . . . 2.4.7 Equivalenza della meccanica ondulatoria (Schrödinger) canica delle matrici (Heisenberg) . . . . . . . . . . . . 2.5 L’esperimento di interferenza di Young . . . . . . . . . . . . . 2.6 L’esperimento di Stern e Gerlach . . . . . . . . . . . . . . . . 2.6.1 Analogia con la polarizzazione della luce . . . . . . . . . . . . . . . . . . . . . e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . della . . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . Taylor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . . . 2 2 3 6 11 14 16 16 21 23 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . mec. . . . . . . . . . . . . . . . . . . . . . . . . 27 27 30 35 37 41 42 43 44 47 48 50 56 58 . . . . 59 60 67 69 . . . . . . . . . . . . . . . . . . Capitolo 1 Cenni di matematica 1.1 Funzioni Una funzione e’ una regola per associare ad un oggetto un altro oggetto. L’oggetto da cui si parte e’ detto l’argomento della funzione, quello di arrivo e’ il risultato prodotto dalla funzione. L’insieme a cui appartiene l’argomento e’ detto il dominio della funzione. Il risultato dell’applicazione di una funzione ad un argomento appartiene in genere ad un insieme che e’ detto il codominio, ma l’insieme dei risultati e’ detto range della funzione. In generale, codominio e range non coincidono necessariamente. ma il range e’ un sottoinsieme del codominio. • Consideriamo f (x) = x2 . Questa funziona associa ad ogni argomento x appartenente ai reali (dominio) il suo quadrato che appartiene ai reali positivi (range). E’ da osservare che la notazione f indica la trasformazione, mentre f (x) indica il risultato della trasformazione f applicata all’argomento x. Nel caso specifico f sta per elevazione al quadrato. Mentre, per es. f (2) = 4 e’ il risultato di prendere il quadrato di 2. Notiamo che il codominio e’ dato da tutti i numeri reali. • Consideriamo la funzione g(x) = x2 con dominio sugli interi positivi. L’operazione g coincide con l’operazione f ma il dominio di definizione e’ diverso. Quindi f e g devono essere considerate funzioni diverse. √ • Consideriamo h(x) = x. Perche’ questa funzione abbia senso il dominio deve essere dato dai reali maggiori od uguali a zero. Il range sono i reali positivi, mentre il codominio sono i numeri reali. Qualche volta e’ utile considerare la composizione di due funzioni h(x) e j(x). La composizione e’ una nuova funzioe k = h ◦ j definita calcolando prima j(x) e poi h(x). Cioe’ k(x) = h ◦ j(x) = h(j(x)) (1.1) Per esempio, se h(x) = sin x, 2 j(x) = x2 (1.2) si ha k(x) = h ◦ j(x) = h(x2 ) = sin(x2 ) (1.3) E’ da tener presente che se si inverte l’ordine delle funzioni il risultato e’ diverso. In questo caso j ◦ h(x) = j(sin x) = (sin x)2 (1.4) Lo strumento fondamentale per lo studio dettagliato delle funzioni e’ il calcolo differenziale. L’idea, che nasce con Leibnitz e Newton, si basa sull’idea che qualunque tratto di curva (vedi Figura 1.1), se preso su un intervallo sufficientemente piccolo, si puo’ assimilare ad un segmento rettilineo Figura 1.1: La figura in basso rappresenta la stessa curva disegnata in alto ma nell’intervallo piu’ piccolo (1.4, 1.6). Come si vede, in questo intervallo puo’ essere identificata con un segmento rettilineo. Quindi l’idea e’ quella di andare a considerare quelle che si chiamano le proprieta’ locali delle funzioni per poi derivarne le proprieta’ generali. Prima pero’ di addentrarci nel calcolo differenziale introduciamo alcune nozioni elementari di trigonometria. 1.2 Trigonometria Consideriamo il cerchio di raggio uno di Figura 1.2 ed il triangolo descritto dai punti P1 OQ1 . I rapporti dei cateti all’ipotenusa dipendono solo dal valore di θ1 e possiamo 3 y I II P2 θ2 x2 P1 y1 y2 θ1 Q1 x1 O x III IV Figura 1.2: La figura illustra la definizione di seno e coseno per gli angoli θ1,2 . quindi definire le seguenti funzioni dell’angolo θ1 sin θ1 = P1 Q1 = y1 , OP1 cos θ1 = OQ1 = x1 OP1 (1.5) dove si e’ tenuto conto che OP1 = 1. In queste definizioni le coordinate x, y sono prese con il loro segno algebrico. Dunque nel primo quadrante sono entrambe positive e cosi’ saranno seno e coseno. Nel secondo quadrante x e’ negativo e quindi il seno e’ positivo mentre il coseno e’ negativo. Questo caso e’ considerato nella Fig.1.2, come l’agolo θ2 .Analogamente si possono considerare gli altri casi Nel III quadrante sono entrambi negativi, mentre nel IV il coseno e’ positivo ed il seno negativo. Si trovano anche subito i seguenti valori del seno e coseno per valori particolari degli angoli sin 00 = 0, cos 00 = 1, sin 900 = 1, cos 900 = 0, 1 sin 450 = cos 450 = √ 2 (1.6) per il teorema di Pitagora si ha (P1 Q1 )2 + (OQ1 )2 = (OP1 )2 = 1 (1.7) sin2 θ1 + cos2 θ1 = 1 (1.8) da cui Questa proprieta’ vale per qualunque valore dell’angolo e quindi le funzioni seno e coseno non sono indipendenti tra loro. Segue subito dalla definizione di seno e coseno (il punto P ritorna su se stesso dopo un giro di 3600 ), ma anche guardando il grafico di Figura 1.3, che si tratta di funzioni periodiche con un periodo di 3600 , cioe’ sin(θ + 3600 ) = sin θ, cos(θ + 3600 ) = cos θ 4 (1.9) 1.0 0.5 50 100 150 200 250 300 350 -0.5 -1.0 Figura 1.3: Il grafico delle funzioni seno (linea continua) e coseno (linea tratteggiata) tra 0 e 360 gradi. Relazioni importanti sono le seguenti (che dimostreremo facendo uso dei numeri complessi) sin(α + β) = sin α cos β + sin β cos α cos(α + β) = cos α cos β − sin α sin β (1.10) Un’altra funzione trigonometrica spesso usata e’ la tangente definita come il rapporto tra 6 4 2 -200 100 -100 200 -2 -4 -6 Figura 1.4: La funzione trigonometrica tangente. seno e coseno: tan θ = sin θ cos θ (1.11) Si vede che questa funzione e’ periodica, con periodo 1800 come e’ chiaro dal suo grafico in Fig. 1.4: tan(θ + 180) = tan θ (1.12) 5 Dalla Fig. 1.2 vediamo che la tangente dell’angolo θ1 e’ anche data da tan θ1 = y1 P1 Q1 = OQ1 x1 (1.13) In molti casi e’ conveniente misurare gli angoli in radianti. Per definire questa misura, consideriamo la Figura 1.5. Allora si definisce il valore di α in radianti come il rapporto tra l’arco AB ed il raggio OA. Per un cerchio di raggio 1 corrisponde alla lunghezza dell’arco corrispondente. La lunghezza dell’arco per un angolo giro vale 2π e quindi si ha la seguente corrispondenza tra i valori in gradi ed i valori radianti 3600 ⇔ 2π, 1800 ⇔ π, 900 ⇔ Piu’ precisamente αradianti = αgradi π , 2 450 ⇔ π 4 π 180 (1.14) (1.15) B α O A Figura 1.5: La misura di un angolo in radianti. 1.3 I limiti Supponiamo sia data una funzione f (x) ed un punto a sull’asse delle x. Quello che vogliamo determinare e’ cosa succede alla f (x) quando x e’ molto vicino ma non uguale ad a. Consideriamo per esempio la seguente funzione con dominio tutto l’asse reale eccetto il punto x = 2 f (x) = 3x − 1, per x 6= 2 (1.16) Ovviamente non ha senso dire che f (2) = 5 dato che questa funzione non e’ definita in quel punto1 . Posssiamo pero’ domandarci che valore assume la funzione quando siamo molto, 1 Vedremo in seguito che casi di questo tipo, sebbene appaiono molto artificiali, li incontreremo spesso 6 molto vicini a 2. Per capire il punto costruiamo due tabelle, la prima in cui partiamo da valori di x < 2 calcolando il corrispondente valore della f ed un’altra analoga ma per valori decrescenti di x x 1 1.5 1.9 1.99 1.999 (1.17) f(x) 2 3.5 4.7 4.97 4.997 x f(x) 3 8 2.5 6.5 2.1 5.3 2.01 5.03 2.001 5.003 (1.18) Vediamo che avvicinandosi a 2 da entrambe le parti il risultato si avvicina sempre piu’ a 5. Partendo da valori inferiori a 2 la sequenza superiore tende a 5 per valori inferiori, mentre per valori superiori a 2 la seuqnza tende a 5 per valori maggiori a 5. Dunque abbiamo due successioni numeriche, una che tende a 5 per valori inferiori a 2 ed una che ci tende per valori superiori. Questo e’ il modo usuale con il quale si definiscono, per esempio, i numeri reali, tramite due successioni che approssimano il numero una per valori superiori e l’altra per valori inferiori. Dunque diremo che lim f (x) = 5 (1.19) x→2 Dunque, questa procedura ci permette di dare un senso a qualcosa che a priori non e’ definito. In questa definizione di limite abbiamo considerato la convergenza ad un determinato valore sia partendo da valori minori di x che maggiori rispetto al punto limite. Possiamo pero’ definire anche un limite da destra e uno da sinistra. Indicheremo il limite fatto da destra o da sinistra con i due simboli limx→a± . Consideriamo, per esempio, la curva 6 4 2 -2 1 -1 2 3 4 Figura 1.6: Nel punto x = 3. che non appartiene al dominio della curva in figura, il limite destro ed il limite sinistro non coincidono. di Fig. 1.6 che non e’ definita per x = 3. Possiamo pero’ definire il limite destro e quello sinistro che sono rispettivemente: lim f (x) = 6, lim f (x) = 2 x→3− x→3+ 7 (1.20) Ovviamente, se il limite destro e quello sinistro esistono ma non coincidono il limite tout court (cioe’ quello definito in precedenza) non esiste. In molti casi e’ interessante conoscere il comportamento della funzione per grandi valori di x. In questo caso definiamo il limite per x → ±∞ e scriveremo lim f (x) = L± x→±∞ (1.21) Dove si intende che prendendo x sempre piu’ grande in valore assoluto, se x > 0, allora il valore della funzione diventa sempre piu’ vicino a L+ o a L− quando x < 0. Facciamo alcuni esempi meno banali. Consideriamo la seguente funzione f (x) = x2 − 3x + 2 x−2 (1.22) e notiamo che questa funzione e’ definita ovunque eccetto in x = 2 dove il denominatore si annulla. Se ne consideriamo il limite in un qualunque punto diverso da x = 2 possiamo semplicemente sostituire il valore di x dentro la funzione e calcolare il risultato. Per esempio (−1)2 − 3(−1) + 2 = −2 (1.23) lim x→−1 −1 − 2 Ma per x = 2 non possiamo seguire questa strada. In generale occorre seguire la procedura che abbiamo visto prima,cioe’ studiare cosa succede quando x si avvicina sempre piu’ a 2 ma senza uguagliarlo. In molti casi ci sono dei trucchi che possiamo adottare. Nel caso in esame si puo’ notare che anche il numeratore si annulla per x = 2. Questo significa che si puo’ fattorizzare il numeratore estraendo il fattore x − 2. Infatti avremo x2 − 3x + 2 (x − 2)(x − 1) = lim = lim (x − 1) = 1 x→2 x→2 x→2 x−2 x−2 lim (1.24) Dato che nell’ultimo passaggio, l’espressione che risulta dopo la divisione tra i due polinomi al numeratore ed al denominatore e’ ben definita, e quindi possiamo calcolare il limite semplicemente sostituendo il valore di x. Notiamo che la f (x) e (x − 1) non sono la stessa funzione, dato che la f (x) e’ definita su tutto l’asse reale escludendo il punto x = 2, mentre la seconda funzione e’ definita ovunque. Ma l’osservazione cruciale e’ che le due funzioni sono uguali in tutti gli altri punti. Questo fatto ci permette di calcolare in modo semplice il limite della f (x) nel punto in cui non e’ ben definita. Se consideriamo il rapporto di due polinomi e gli zeri del denominatore non coincidono con zeri del numeratore, il limite in questi punti tendera’ a ±∞ a seconda del segno della funzione per grandi valori di |x|. Intuitivamente diciamo che una curva e’ continua se la possiamo disegnare senza alzare la penna dal foglio. Ci sono pero’ funzioni come 1/x (vedi Fig. 1.7) che vanno a +∞ per x → 0+ e a −∞ per x → 0− che non godono di questa proprieta’ perche’ x = 0 non sta nel dominio ed inoltre il limite destro ed il limite sinistro non coincidono. Diremo dunque che una funzione e’ continua nel punto x = a se a e’ nel dominio della funzione e se lim f (x) = f (a) (1.25) x→a 8 2 1 -4 2 -2 4 -1 -2 Figura 1.7: Il grafico di 1/x. Ovviamente questa scrittura contiene implicitamente il fatto che i limiti destro e sinistro esistono e coincidono. Un limite che e’ spesso utile considerare e’ il seguente: sin x =1 x→0 x lim (1.26) Senza entrare in una dimostrazione formale facciamo vedere graficamente in Fig 1.8, come sin x e x vadano a zero nello stesso modo quando x → 0 1.5 1.0 0.5 -1.5 -1.0 0.5 -0.5 1.0 1.5 -0.5 -1.0 -1.5 Figura 1.8: I grafici di sin x e x in vicinanza di x = 0. Tramite la nozione di limite siamo adesso in grado di definire un particolare numero di grandissima rilevanza nella matematica. Stiamo parlando del numero di Eulero che e’ un numero trascendente (cioe’ non esiste equazione algebrica che lo ammetta come soluzione) 9 la cui rappresentazione decimale (ovviamente infinita, come π) e’ data da e = 2.71828182845904523536028..... (1.27) La definizione rigorosa di e e’ la seguente e = lim n→∞ 1+ 1 n n (1.28) Questa espressione ha il significato che si devono calcolare i termini della successione e1 , e2 , · · · .... (1.29) A questo punto piu’ grande e’ il valore di n che si considera, tanto piu’ il termine en della successione en definita da 1 n en = 1 + (1.30) n si avvicina ad e. Per esempio si ha e1 = 2, e2 = 2.25, e3 = 2.37, · · · e10 = 2.59374, e1000 = 2.71692, · · · (1.31) Scegliendo n sufficientemente grande possiamo calcolare e con la precisione che si vuole (anche se questo non e’ il metodo piu’ efficiente). Supponiamo adesso di voler calcolare una potenza di e, a 1 n a m 1 an a e = lim 1+ (1.32) = lim 1 + = lim 1 + n→∞ m→∞ n→∞ n n m dove abbiamo sotituito ad n la quantita’ m/a. Infatti fare il limite per n → ∞ o m → ∞ non fa differenza. Ricordiamo qui anche la definizione di logaritmo. Se abbiamo una equazione del tipo ax = b, a, b > 0 (1.33) con a e b noti, il valore di x per cui questa e’ soddisfatta si chiama il logaritmo di b in base a e si scrive x = loga b (1.34) Quindi, per definizione aloga b = b (1.35) Ricordiamo alcune proprieta’ del logaritmo b = loga b − loga c, loga (bc) = loga b + logb c, loga c loga (br ) = r loga b (1.36) Jnoltre loga 1 = 0, loga a = 1, 10 loga (ax ) = x (1.37) Esiste anche un modo semplice per cambiare la base dei logaritmi in cui si lavora. Precisamente, i logaritmi di uno stesso numero in due basi diverse sono correlati da loga x = logc x logc a (1.38) Ovviamente la scelta della base per i logaritmi e’ completamente arbitraria. Quando si usano per calcoli numerici una base molto conveniente e’ la base 10, ma quando si voglia una base comoda per sviluppi matematici, questa e’ la base e, cioe’ si sceglie come base il numero di Eulero. I logaritmi in base e sono anche detti logaritmi naturali. I logaritmi naturali hanno una scrittura particolare che non indica la base stessa2 : loge a ≡ ln a (1.39) In particolare, per i logaritmi naturali valgono le seguenti regole eln x = x, ln(xy) = ln x + ln y, 1.4 ln(ex ) = x, ln 1 = 0 x = ln x − ln y, ln xy = y ln x ln y (1.40) (1.41) Le derivate Se vogliamo definire la velocita’ media di una automobile dobbiamo prendere la distanza percorsa in un dato tempo e dividerla per il tempo impiegato, cioe’ velocita′ media = distanza tempo (1.42) Un modo per misurare la distanza e’ considerare i segnali chilometrici. Se ad una dato istante passiamo da un dato segnale chilometrico, diciamo che la nostra posizione e’ quella indicata dal segnale. In pratica stiamo definendo una funzione tale che quando l’argomento e’ il tempo che corrisponde al passaggio da un dato segnale, assume un valore numerico pari al valore dei chilometri indicati. Se chiamiamo questa funzione posizione, potremo scrivere la distanza tra due segnali come posizione(t2 ) − posizione(t1 ) = distanza tra i due segnali (1.43) dove t1 e t2 sono gli istanti di tempo nei quali passiamo al primo ed al secondo segnale. Se immaginiamo di avere una distribuzione di segnali in tutti i punti della strada che stiamo percorrendo, possiamo definire una funzione che ad ogni istante ci segnala la nostra posizione sulla strada in relazione all’istante considerato. Chiamando questa funzione con s(t) possiamo definire la velocita’ media come v̄ = s(t2 ) − s(t1 ) t2 − t1 2 (1.44) Ma qualvolta, per abuso di notazioni, scriveremo ln a nella forma log a. Cioe’, ogni volta che non si indichi esplicitamente la base si intende che il logaritmo e’ in base e 11 dove t1 e t2 sono gli istanti tra i quali vogliamo calcolare la velocita’ media. Supponiamo adesso di voler determinare la velocita’ ad ogni istante t, cioe’ quello che in pratica fa un contachilometri. A questo scopo fissiamo l’istante t al quale vogliamo definire la velocita’. Poi prendiamo un altro istante t′ e calcoliamo la velocita’ media prendendo t′ sempre piu’ vicino a t. Quello che stiamo facendo e’ di definire la velocita’ istantanea come il limite s(t′ ) − s(t) (1.45) v = lim t′ →t t′ − t Ovviamente e’ necessario il concetto di limite in questa definizione perche’ il rapporto che definisce la velocita’ media non e’ definito quando i due istanti considerati coincidono. Una maniera piu’ illuminante per definire la velocita’ istantanea (velocita’ tout court) e’ quello di considerare t′ = t + ∆t e poi prendere il limite per ∆t che tende a zero s(t + ∆t) − s(t) ∆t→0 ∆t v = lim (1.46) Si dice anche che la velocita’ e’ il limite del rapporto incrementale, o la derivata di s(t), ed il risultato del limite viene rappresentato in vari modi. Per esempio v= ds(t) = ṡ(t) dt (1.47) sono notazione equivalenti. La seconda espressione ricorda il fatto che la derivata e’ il limite del rapporto tra due variazione, la variazione della posizione e la variazione del tempo. Infatti potremmo scrivere ∆s = s(t + ∆t) − s(t) (1.48) che rappresenta la variazione di posizione nel passare dal tempo t al tempo t+∆t e scrivere ∆s ds(t) = lim ∆t→0 ∆t dt (1.49) Dopo questa premessa, consideriamo una generica funzione f (x) e definiamone la derivata come il limite del rapporto incrementale f (x + ∆x) − f (x) df (x) ≡ f ′ (x) = lim ∆x→0 dx ∆x (1.50) La derivata ha un semplice significato geometrico. Consideriamo la Fig. 1.9. Il rapporto incrementale e’ il rapporto dei due cateti ∆f (x) e ∆x del triangolo rettangolo che ha per ipotenusa la linea tratteggiata che passa per i punti (x + ∆x, f (x + ∆x) e (x, f (x). Dunque e’ la tangente dell’angolo che l’ipotenusa forma al vertice f (x) con il catetoo, in altri termini, la pendenza dell’ipotenusa. Quando facciamo tendere ∆x a zero, questa ipotenusa tende a diventare la tangente alla curva nel punto di coordinate (x, f (x). Questa osservazione permettere di capire molto semplicemente quanto vale la derivata guardando il grafico della funzione. 12 f(x) f(x + ∆ x) ∆ f(x) f(x) x+ ∆ x x x Figura 1.9: Illustrazione del significato geometrico della derivata. Facciamo alcuni esempi: consideriamo f (x) = c con c costante indipendente da x, allora df (x) c−c = lim =0 (1.51) ∆x→0 ∆x dx Quindi la derivata di una costante e’ zero. Esprime semplicemente il fatto che una costante non cambia. Od anche osservando che il grafico che corrispondente a f (x) = c e’ una retta orizzontale nel piano (x, f (x)) che passa per il punto f (x) = c. Ma una retta orizzontale ha pendenza zero. Se prendiamo f (x) = x dx (x + ∆x) − x = lim =1 ∆x→0 dx ∆x (1.52) dx2 2x∆x + ∆2 (x + ∆x)2 − x2 = lim = = 2x + ∆x ∆x→0 dx ∆x ∆x (1.53) Infine consideriamo f (x) = x2 Nel limite in cui ∆x va a zero si trova dx2 = 2x dx (1.54) Riportiamo di seguito una tavola con le derivate delle funzioni piu’ importanti f (x) c xn sin(cx) cos(cx) ecx ln x df (x)/dx 0 nxn−1 c cos(cx) −c sin(cx) cecx 1/x 13 (1.55) Tavola 1 - Una tavola di derivate. In queste espressioni c e’ una costante. Una regola importante e’ quella che serve per calcolare la derivata di un prodotto. Si ha f (x + ∆x)g(x + ∆x) − f (x)g(x) = ∆x→0 ∆x f (x + ∆x)g(x + ∆x) − f (x + ∆x)g(x) + f (x + ∆x)g(x) − f (x)g(x) lim (1.56) ∆x→0 ∆x (f (x)g(x))′ = lim dove nell’ultimo passaggio abbiamo aggiunto e levato f (x + ∆x)g(x). Possiamo riscrivere f (x + ∆x)(g(x + ∆x) − g(x)) + (f (x + ∆x) − f (x))g(x) ∆x→0 ∆x (f (x)g(x))′ = lim (1.57) Dato che nel limite f (x + ∆x) tende a f (x) si trova (f (x)g(x))′ = f (x)g′ (x) + f ′ (x)g(x) (1.58) Infine consideriamo la derivata di una funzione di funzione, cioe’ di un funzione f (x) dove a sua volta x e’ una funziona di un’altra variabile y, cioe’ f (x(y)). Ci si chiede quale sia la derivata della funzione f rispetto ad y. Si ha df (x) df (x(y)) dx(y) = dy dx x=x(y) dy (1.59) Supponiamo, per esempio, di avere la funzione f (y) = sin(y 3 ). Per calcolare la sua derivata introduciamo x = y 3 . Dunque d sin x dy 3 df (x(y)) = = cos x 3 3y 2 = 3y 2 cos(y 3 ) 3 dy dx x=y dy x=y (1.60) Le derivate di ordine piu’ alte si definiscono per ricorrenza. La derivata seconda e’ la derivata della derivata prima, ecc. La derivata di ordine n viene indicata con uno dei seguenti simboli dn f (x) f (n) (x) = (1.61) dxn 1.4.1 Equazioni differenziali e formula di Taylor Consideriamo una equazione differenziale del primo ordine del tipo: df (x) + h(x)f (x) = g(x) dx (1.62) dove h(x) e g(x) sono funzioni note e f (x) e’ la funzione incognita. Un teorema fondamentale sulle equazioni differenziali dice che: se assegniamo il valore di f (x) in un punto, l’equazione ha una ed una sola soluzione. 14 L’idea della dimostrazione e’ molto semplice. Consideriamo la definizione di derivata (1.50). Se la quantita’ ∆x e’ sufficientemente piccola, possiamo approssimare la derivata della funzione f (x) nel punto x, con il relativo rapporto incrementale df (x) f (x + ∆x) − f (x) ≈ dx ∆x (1.63) Ma questa relazione puo’ anche essere usata per calcolare approssimativamente la f (x + ∆x) in funzione della f (x) e della sua derivata nello stesso punto: f (x + ∆x) ≈ f (x) + ∆x df (x) dx Data allora la funzione in un punto x0 , la possiamo calcolare in un punto vicino df (x) f (x0 + ∆x) ≈ f (x0 ) + ∆x = f (x0 ) + ∆x (g(x0 ) − h(x0 )f (x0 )) dx x=x0 (1.64) (1.65) dove abbiamo usato l’equazione differenziale per riesprimere la derivata di f (x) in x0 in termini di f (x0 ). Adesso il secondo membro e’ noto e quindi conosciamo f (x0 + ∆x). Possiamo poi procedere analogamente per calcolare la f nel punto x0 + 2∆x0 ) df (x) (1.66) f (x0 + 2∆x) = f (x0 + ∆x) + ∆x dx x=x0 +∆x Dato che dal calcolo precedente abbiamo determinato f (x0 +∆x), possiamo riesprimere la derivata nel punto x0 + ∆x usando l’equazione differenziale dove compaiono adesso tutte quantita’ note. Cosi procedendo e’ possibile determinare la f (x) in tutti i punti. Naturalmente questa procedura e’ tanto piu’ corretta quanto piu’ piccolo si [rende ∆x. Una procedura di questo tipo, o sue variazioni, viene usata per risolvere, o integrare, numericamente un’equazione differenziale. Questa procedura e’ facilmente implementabile in un calcolatore elettronico. In genere, l’errore che si fa in questa approssimazione e’ di ordine (∆x)2 . Per esempio se ∆x ≈ 0.1, l’errore e’ di ordine 10−2 . Usando questo risultato si puo’ calcolare l’approssimazione a ex0 nel seguente modo ex0 +∆x ≈ ex0 + ∆xex0 = ex0 (1 + ∆x) (1.67) Il valore della funzione in un punto, che serve per risolvere l’equazione differenziale, viene anche detto costante d’integrazione. La formula (1.65) e’ un caso particolare di una formula piu’ generale che si chiama formula di Taylor che permette di calcolare il valore di una funzione in un punto se si conoscono le prime N derivate f (x) ≈ f (a) + (x − a)f ′ (a) + 1 1 (x − a)2 f ′′ (a) + · · · f (N −1) (a) 2! (N − 1)! dove f (N ) (a) ≡ dN f (x) dxN x=a 15 (1.68) (1.69) La correzione a questa espressione e’ in genere di ordine (x − a)N . Per esempio, se ci limitiamo sino al termine con la derivata terza, e se x − a = 0.1, l’errore che facciamo e’ di ordine (10−1 )4 = 10−4 = 0.0001. Sotto certe ipotesi possiamo prendere il limite per N → ∞ di questa espressione e trovare una rappresentazione esatta (detta sviluppo in serie) della funzione f (x) ∞ X 1 (x − a)n f (n) (a) (1.70) f (x) = n! n=0 ex Se consideriamo e sviluppiamo in serie per a = 0, dato che la derivata prima e’ uguale all’esponenziale di partenza, tutte le derivate sono uguali all’esponenziale e se le calcoliamo a x − 0 si trova 1. Il risultato e’ che l’esponenziale ammette il seguente sviluppo in serie ∞ X 1 2 xn 1 n x e = 1 + x + x + ··· + x + ··· = (1.71) 2! n! n! n=0 Questi risultati si possono facilmente generalizzare al caso di equazioni differenziali di ordine piu’ elevato, cioe’ ad equazioni che coinvolgano la derivata ennesima di una funzione. In questo caso per avere un’unica soluzione occorre assegnare n costanti d’integrazione che, per esempio, possono essere scelte come il valore della funzione e delle sue derivate sino all’ordine (N − 1) in un punto. Vedremo in seguito alcuni esempi. 1.4.2 Funzioni di piu’ variabili Nel caso di funzioni di piu’ variabili si possono definire le derivate rispetto alle singole variabili. In questo caso si parla di derivate parziali. Per esempio, se si ha una funzione f (x, y) la sua derivata parziale rispetto ad x e’ definita da ∂f (x, y) f (x + ∆x, y) − f (x, y) = lim ∆x→0 ∂x ∆x (1.72) f (x, y + ∆y) − f (x, y) ∂f (x, y) = lim ∆y→0 ∂y ∆y (1.73) ed analogamente Quindi, quando si esegue una derivata parziale rispetto ad una variabile, le altre devono essere tenute ferme. Per esempio ∂(x3 y 2 ) = 3x2 y 2 , ∂x 1.5 ∂(x3 y 2 ) = 2x3 y ∂y (1.74) Gli integrali Ci sono due tipi di integrali, il cosi detto integrale indefinito e quello definito. L’integrale indefinito e’ l’operazione inversa della derivata. Cioe’ data un funzione f (x), il suo integrale indefinito Z F (x) = f (x)dx (1.75) 16 e’ quella funzione F (x) tale che la sua derivata e’ f (x). F (x) e’ anche detta una primitiva di f (x) dF (x) = f (x) (1.76) dx Quindi per calcolare l’integrale di una funzione elementare come quelle di Tavola 1 basta leggere la tavola stessa in ordine inverso. L’integrale indefinito dipende da una costante arbitraria, dato che la derivata di una costante e’ nulla. Per esempio, l’integrale di x sara’ Z x2 x dx = +c (1.77) 2 Troviamo cosi la seguente tavola di integrali indefiniti R f (x) f (x) dx n n+1 x x /(n + 1) + cost cos(cx) sin(cx)/c + cost sin(cx) − cos(cx)/c + cost ecx ecx /c + cost 1/x ln x + cost (1.78) Tavola 2 - Una tavola di integrali. In queste espressioni c e’ una costante. Chiaramente il concetto di integrale indefinito e’ utile per risolvere una equazione differenziale. Vediamo alcuni esempi. Moto con accelerazione costante In questo caso la derivata della velocita’, cioe’ l’accelerazione e’ costante, quindi Z Z dv dv = a → v(t) = dt = adt = at + costante dt dt (1.79) con a una costante indipendente dal tempo. Pertanto v(t) = at + costante (1.80) Come possiamo determinare la costante? Se assegniamo la velocita’ v0 al tempo t0 , dovremo avere v(t0 ) = v0 = at0 + costante (1.81) Possiamo ricavare la costante da questa relazione costante = v0 − at0 (1.82) v(t) = at + v0 − at0 (1.83) e sostituendo 17 da cui v(t) = v0 + a(t − t0 ) (1.84) Se ci chiediamo come varia la posizione della particella nel caso in esame, dovremo risolvere l’equazione ds(t) = v(t) = v0 + a(t − t0 ) (1.85) dt In questa equazione abbiamo a secondo membro un termine costante ed uno lineare in t. In entrambi i casi si calcolano agevolmente le primitive con il risultato 1 s(t) = (v0 − at0 )t + at2 + costante 2 (1.86) Se conosciamo la posizione al tempo t0 , s0 = s(t0 ), possiamo determinare la costante risolvendo Dunque e sostituendo 1 1 s0 = (v0 − at0 )t0 + at20 + costante = v0 t0 − at20 + costante 2 2 (1.87) 1 costante = s0 − v0 t0 + at20 2 (1.88) 1 1 s(t) = (v0 − at0 )t + at2 + s0 − v0 t0 + at20 2 2 (1.89) da cui 1 (1.90) s(t) = s0 + v0 (t − t0 ) + a(t − t0 )2 2 Un esempio meno banale e’ il moto di una molla. In questo caso, dalla legge di Newton, F = ma e dal fatto che per spiccoli spostamente, la molla tende a ritornare alla posizione di equilibrio con una forza proporzionale allo spostamento, F = −kx, si ha m d2 x(t) = −kx(t) dt (1.91) Occorre dunque trovare una funzione che derivata due volte e’ proporzionale a se stessa. Vediamo dalle nostre tavole che le funzioni trigonometriche seno e coseno godono entrambe di questa proprieta’. Segue immediatamente che la soluzione e’ data da x(t) = A cos ωt + B sin ωt, ω2 = k m (1.92) Dove le costanti A e B sono legate alle condizioni iniziali. Per esempio, se diamo a t = 0 la posizione e la velocita’, avremo x0 = x(0) = A (1.93) v0 = v(0) = [−ωA sin ωt + ωB cos ωt]t=0 = ωB (1.94) e 18 Quindi v(0) sin ωt (1.95) ω L’integrale definito e’ invece introdotto nel seguente modo. Consideriamo una funzione f (x) nell’intervallo (a, b), allora il suo integrale definito tra a e b, e che viene indicato con Z b f (x)dx (1.96) x(t) = x(0) cos ωt + a e’ l’area della regione compresa tra la curva in questo intervallo ed il segmento (a, b) sull’asse delle ascisse (vedi Figura 1.10). 10 8 6 4 2 0.0 0.5 1.0 1.5 2.0 2.5 3.0 a b Figura 1.10: L’integrale della funzione f (x), riportata nel grafico, tra a e b e’ l’area della parte tratteggiata. 10 8 6 4 2 0.0 0.5 1.0 1.5 2.0 2.5 3.0 a b Figura 1.11: L’integrale della funzione f (x), secondo Riemann. In termini piu’ concreti l’integrale (secondo Riemann) e’ definito dal processo di limite illustrato in Figura 1.11. Si divide l’area di interesse in tanti rettangoli di ampiezza ∆xi = xi+1 − xi , x1 = a, 19 xn+1 = b (1.97) e si approssima l’area con la somma delle aree dei rettangoli e poi si prende il limite per ∆xi → 0. In formule Z b n X f (xi )∆xi (1.98) f (x)dx = lim ∆xi →0 a i=1 Consideriamo adesso una primitiva di f (x). Dunque una funzione tale che dF (x) = f (x) dx (1.99) Dunque possiamo scrivere in via approssimata F (xi+1 ) ≈ F (xi ) + (xi+1 − xi )f (xi ) (1.100) ∆xi f (xi ) ≈ F (xi+1 ) − F (xi ) (1.101) od anche da cui Z b f (x)dx = lim ∆xi →0 a n X (F (xi+1 − F (xi )) (1.102) i=1 Scriviamo i vari termini di questa somma nel seguente modo F (x2 ) − F (x1 ) + + F (x3 ) − F (x2 ) + + F (x4 ) − F (x3 ) + + ··· + + F (xn ) − F (xn−1 ) + + F (xn+1 ) − F (xn ) (1.103) Chiaramente i termini di questa somma si annullano a due a due ed il risultato e’ semplicamente F (b) − F (a). Dunque abbiamo dimostrato il teorema fondamentale del calcolo integrale che dice l’integrale definito e quello indefinito sono connessi dalla seguente relazione Z b a f (x)dx = F (b) − F (a) (1.104) dove F (x) e’ la primitiva di f (x). La costante arbitraria che appare nel calcolo dell’integrale indefinito di f (x) (o della primitiva) non ha effetto nel calcolo dell’integrale definito, dato che nella differenza F (b) − F (a) si cancella. Facciamo un semplice esempio Z 2 1 x2 dx = 7 x3 8 1 x3 − = − = 3 x=2 3 x=1 3 3 3 20 (1.105) 1.6 Numeri complessi I numeri complessi nascono dall’esigenza di trovare comunque delle soluzioni alle equazioni algebriche di secondo grado che, com’e’ noto, nel caso di discriminante negativo non ammettono soluzioni reali. L’esempio piu’ semplice e’ quello dell’equazione x2 = −1 (1.106) Il modo in cui viene risolto il problema e’ quello di definire un numero nuovo, non reale, che e’ indicato con la lettera i (immaginario in contrasto ai numeri reali), tale che i2 = −1 (1.107) Questo permette di allargare il campo dei numeri reali introducendo delle nuove quantita’ (i numeri complessi) che sono determinati da una coppia di reali: z = a + ib (1.108) Im z z b a Re z Figura 1.12: La rappresentazione di un numero complesso come un punto sul piano. I numeri reali a e b si dicono rispettivamente parte reale (Re z) e parte immaginaria (Im z) di z. Notiamo che un numero complesso con parte immaginaria nulla e’ un numero reale. Possiamo introdurre la moltiplicazione tra due numeri complessi, in modo da rispettare le consuete regole algebriche aumentate della regola i2 = −1. Si ha dunque z1 z2 = (a1 + ib1 )(a2 + ib2 ) = a1 a2 − b1 b2 + i(b1 a2 + a1 b2 ) (1.109) Se sia z1 che z2 hanno parte immaginaria nulla (b1 = b2 = 0), la regola precedente si riduce al prodotto a1 a2 . Si ritrova cosi il prodotto di due numeri reali. In particolare il prodotto 21 di un numero reale per un numero complesso (nel caso precedente b1 = 0) da’ a1 z2 = a1 a2 + ia1 b2 (1.110) Si definisce il complesso coniugato di un numero complesso tramite l’operazione di trasformare i → −i. Precisamente z ∗ = (a + ib)∗ = a − ib (1.111) Il modulo quadro di z e’ una quantita’ positiva ed e’ data da |z|2 = zz ∗ = (a + ib)(a − ib) = a2 + b2 ≥ 0 (1.112) Dato che un numero complesso e’ identificato da una coppia di numeri reali, lo possiamo anche descrivere in termini di punti su un piano, in cui l’asse x e l’asse y siano rappresentati dalla parte reale e dalla parte immaginaria del numero complesso (vedi Figura 1.12). Possiamo dare anche un’altra rappresentazione di z usando coordinate polari. Cioe’ possiamo scrivere a = ρ cos θ, b = ρ sin θ (1.113) da cui z = ρ(cos θ + i sin θ) (1.114) Il numero ρ e’ correlato semplicemente al modulo quadro di z. Infatti usando la rappresentazione polare si ha |z|2 = ρ2 (cos θ + i sin θ)(cos θ − i sin θ) = ρ2 (cos2 θ + sin2 θ) = ρ2 (1.115) Dunque ρ= p |z|2 (1.116) Esiste una importantissima relazione, chiamata l’identita’ di Eulero, tra l’espressione trigonometrica di un numero complesso di modulo 1 ed il numero di Eulero, indicato con la lettera e, data da eiθ = cos θ + i sin θ (1.117) Notiamo intanto che entrambi i membri hanno modulo 1. Per il secondo membro vedi l’equazione (1.115). Per il primo membro ricordiamo una identita’ algebrica valida per potenze con la stessa base ax ay = ax+y (1.118) Segue da cui eiθ1 eiθ2 = ei(θ1 +θ2 ) (1.119) ∗ |eiθ |2 = eiθ eiθ = eiθ e−iθ = 1 (1.120) 22 Siamo ora in grado di dimostrare le equazioni (1.10), assumendo l’identita’ di Eulero. Usando su entrambi i membri della (1.119) questa identita’ si ha ei(θ1 +θ2 ) = cos(θ1 + θ2 ) + i sin(θ1 + θ2 ) eiθ1 eiθ2 = (cos θ1 + i sin θ1 ) (cos θ2 + i sin θ2 ) = = cos θ1 cos θ2 − sin θ1 sin θ2 + i(sin θ1 cos θ2 + sin θ2 cos θ1 ) (1.121) (1.122) Dato che due numeri complessi sono uguali se e solo se hanno uguale parte reale e parte immaginaria, confrontando queste due espressioni vediamo che le relazioni che si ottengono sono esattamente le (1.10). Dimostriamo adesso l’identita’ di Eulero. Consideriamo le due funzioni f1 (θ) = eiθ , Si ha f2 (θ) = cos θ + i sin θ (1.123) df1 (θ) = if1 (θ) dθ (1.124) df2 (θ) = − sin θ + i cos θ = i(cos θ + i sin θ) = if2 (θ) dθ (1.125) Inoltre f1 (0) = 1, f2 (0) = 1 (1.126) Dunque f1 (θ) e f2 (θ) coincidono ovunque, dato che soddisfano la stessa equazione differenziale del primo ordine e coincidono in θ = 0. Dalla formula di Eulero segue quella che viene considerata la piu’ bella formula della matematica perche’ connette il numero e, π, l’unita’ immaginaria e −1. Infatti se nella formula di Eulero scegliamo θ = π segue subito eiπ = −1 (1.127) 1.7 Le matrici Una matrice e’ una collezione di n × m numeri (in genere considereremo numeri complessi) che indicheremo con il simbolo mij , i = 1, · · · , n, j = 1, · · · , m (1.128) In genere questi numeri si dispongono in un rettangolo che si denota complessivamente con un unico simbolo, per esempio, M m11 m12 · · · m1m m21 m22 · · · m2m (1.129) M = . .. .. .. .. . . . mn1 m2n · · · mnm 23 I singoli numeri mij sono detti elementi della matrice M . Il primo indice determina la riga, mentre il secondo indice la colonna. Facciamo alcuni esempi: 0 1 Matrice 2 × 2 : (1.130) 1 0 0 Matrice 2 × 1 : (1.131) 1 Matrice 1 × 2 : 1 0 (1.132) Le matrici come le ultime due sono anche dette vettori. Nel primo caso si parla di un vettore colonna, nel secondo caso di un vettore riga. Le matrici di ordine n × m formano uno spazio vettoriale di dimensione n × m, con la somma di due matrici definita da: (A + B)ij = Aij + Bij (1.133) (αA)ij = αAij (1.134) ed il prodotto Per matrici 2 × 2 questo significa ′ ′ a b a + a′ b + b′ a b = + c + c′ d + d′ c′ d′ c d e α a b c d = αa αb αc αd (1.135) (1.136) E’ possibile definire un prodotto tra due matrici A e B se il numero di colonne di A e’ uguale al numero di righe di B. Precisamente se A e’ di ordine m1 × n e B n × m2 , allora il loro prodotto, una matrice m1 × m2 , e’ dato da Cij = n X Aik Bkj (1.137) k=1 Piu’ esplicitamente si ha C11 C12 ··· C1m2 C21 ··· Cij ··· Cm1 m2 = A11 B11 + A12 B21 + · · · + A1n Bn1 = A11 B12 + A12 B22 + · · · + A1n Bn2 = A11 B1m2 + A12 B2m2 + · · · + A1n Bnm2 = A21 B11 + A22 B21 + · · · + A2n Bn1 = Ai1 B1j + Ai2 B2j = · · · + Ain Bnj = Am1 1 B1m2 + Am1 2 B2m2 + · · · + Am1 n Bnm2 (1.138) Il prodotto cosi’ definito si chiama prodotto righe per colonne. Infatti, se guardiamo l’espressione precedente, vediamo che, per esempio, l’elemento C11 , e’ dato dalla somma 24 dei prodotti dei termini della prima riga di A per i corrispondenti della prima colonna di B. Nello stesso modo, l’elemento Cij e’ dato dalla somma dei prodotti dei termini della riga i-ma di A per i corrispondenti della colonna j-ma di B. Diamo alcuni esempi di prodotti. Il prodotto di due matrici 2 × 2 e’ ancora una matrice 2 × 23 0 1 1 0 0 −1 = (1.139) 1 0 0 −1 1 0 Il prodotto di una matrice 2 × 2 per una 2 × 1 (un vettore) e’ ancora un vettore 2 × 14 0 1 0 1 = (1.140) 1 0 1 0 Analogamente il prodotto di un vettore 1 × 2 per una matrice 2 × 2 e’ un vettore 1 × 25 0 1 0 1 = 1 0 (1.141) 1 0 Notiamo infine che il prodotto di un vettore 1 × n per un vettore n × 1 da’ una matrice 1 × 1 cioe’ un numero. Per esempio a′ a b = aa′ + bb′ (1.142) b′ Nel caso di matrici quadrate si definisce una quantita’ importante che e’ il determinante. Importante, in particolare, perche’ un sistema di n equazioni lineari in n incognite si riconduce ad un calcolo di determinanti di matrici costruite con i coefficienti delle equazioni del sistema. In particolare, se si ha un sistema lineare omogeneo, cioe’ senza termini noti, quale per esempio a11 x + a12 y = 0, a21 x + a22 y = 0 (1.143) si puo’ dimostrare che si hanno soluzioni non nulle se e solo se il determinante della matrice dei coefficienti e’ nullo. In questo caso il determinante e’ dato da a11 a12 = a11 a22 − a21 a12 (1.144) Det a21 a22 In generale il determinante si ottiene prendendo tutti i possibili prodotti di elementi che non appartengono alla stessa riga e alla stessa colonna e combinandoli assieme con un opportuno segno in fronte a ciascuno di essi. Senza entrare in dettagli diciamo che esiste 3 In genere il prodotto di due matrici quadrate n × n e’ ancora una matrice quadrata dello stesso ordine 4 In generale il prodotto di una matrice n × n per il vettore n-dimensionale, n × 1, e’ ancora un vettore n-dimensionale 5 Anche qui in generale, un vettore 1 × n per una matrice quadrata n × n da’ un vettore di tipo 1×n 25 un metodo ricorsivo per calcolare i determinanti righe (o per colonne). Consideriamo ad esempio il a11 a12 a13 Det a21 a22 a23 = a31 a32 a33 a21 a22 a23 − a12 Det = a11 Det a31 a32 a33 effettuando il cosi detto sviluppo per determinante di una matrice 3 × 3 a23 a33 + a13 Det a21 a22 a31 a32 (1.145) Come si vede il segno di ogni termine e’ scelto positivo o negativo se la somma degli indici del coefficiente dell’elemento per il quale si sta sviluppando e’ pari o dispari rispettivamente. Inoltre le sottomatrici sono ottenute cancellando dalla matrice iniziale l’intera riga e l’intera colonna corrispondenti all’elemento dello sviluppo. Il metodo si applica a qualunque riga o colonna da cui sia preferibile partire. Ovviamente e’ conveniente partire dalla riga o dalla colonna che ha piu’ elementi nulli perche’ questo diminuisce il numero di sotto-determinanti da calcolare. Da queste regole si vede facilmente che il determinante e’ una somma di termini costituita da tutti i possibili prodotti di elementi di matrice che non appartengono alla stessa riga e alla stessa colonna, presi ognuno con un segno opportuno. Per esempio tra i vari prodotti appare il prodotto di tutti gli elementi della diagonale principale (quella che va da sinistra a destra) preso con il segno positivo. Questi termini si chiamano anche prodotti dedotti. Per matrici quadrate a determinante non nullo e’ possibile trovare una matrice inversa, definita dalla regola AA−1 = A−1 A = I (1.146) dove I e’ la matrice identita’, cioe’ una matrice con tutti 1 sulla diagonale principale e zero in tutti gli altri posti). In componenti n X Aji (A−1 )ik = n X (A−1 )ji Aik = δjk (1.147) i=1 i=1 Il simbolo δjk e’ detto la δ di Kronecker ed e’ uguale ad 1 per j = k e zero in tutti gli altri casi. Per esempio, se si ha la matrice 2 × 2 a11 a12 (1.148) A= a21 a22 allora l’inversa e’ data da A−1 = 1 DetA a22 −a12 −a21 a11 26 (1.149) Capitolo 2 Cenni di fisica 2.1 Introduzione Una delle questioni piu’ interessanti relative alla concezione del mondo che ci circonda e’ sempre stata la seguente: la materia, allo stato piu’ elementare, ha composizione corpuscolare o piuttosto continua? Questa domanda deriva a sua volta dal problema di cosa succeda qualora si continui a dividere un pezzo di materia. E’ possibile continuare questo processo di divisione sino all’infinito? In questo caso potremo parlare di continuita’ della materia. Se invece il processo di divisibilita’ ha termine perche’ alla fine non ci e’ possibile effettuare ulteriori divisioni, parleremo di costituzione corpuscolare della materia. Nel periodo che va dal 600 al 300 AC molti pensatori greci (Talete, Anassimene, Eraclito, Empedocle, Platone e Aristotele) formularono o sostennero l’idea che la materia fosse costituita da quattro elementi, aria, acqua, terra e fuoco che producevano varie sostanze tramite processi di rarefazione e di condensazione. Questo portava all’idea di una continuita’ della materia elementare. La posizione opposta fu assunta da Democrito (verso il 460 AC), che introdusse l’idea di atomi1 . Questi atomi erano uguali, eccetto per la forma, la grandezza ed il moto. Quindi i vari elementi derivavano da una diversa disposizione degli atomi stessi. Uno dei problemi della concezione di Democrito e’ che questa portava necessariamente all’idea di vuoto. Infatti tra un atomo e l’altro non esiste materia. Leucippo (≈ 450 AC), Epicuro (347-271 AC) e Lucrezio (98-55 AC) appoggiarono le idee di Democrito, ma in genere questa idea fu abbandonata per il sopravvento delle idee di Platone e Aristotele che aborrivano l’idea del vuoto e che quindi preferivano l’idea dei quattro elementi. Questa idea permase per molti secoli. Finalmente Cartesio (1596-1650) riprese l’idea corpuscolare, sebbene anche lui fosse contrario al vuoto. L’affermazione definitiva dell’idea corpuscolare, o meglio dell’idea atomica, avvenne grazie alle ricerche fatte sui gas ed allo sviluppo della chimica. Di particolare rilievo fu il contributo di Dalton (1766-1844) che introdusse l’idea che tutti gli atomi che costituiscono lo stesso elemento2 fossero identici tra loro. Nonostante che le evidenze della chimica fossero di natura schiacciante, fino 1 2 Dal greco ατ øµøς che significa indivisibile L’idea che gli elementi costituiscano tutte le sostanze fu introdotta da Boyle (1627-1691) 27 ai primi del novecento c’erano ancora molti scienziati che mettevano in dubbio l’effettiva realta’ degli atomi. Per esempio lo stesso Einstein nella sua tesi di abilitazione del 1905 affrontava i metodi di misura delle dimensioni molecolari, lavoro teso a rafforzare le idee corpuscolari sulla materia. Nello stesso anno dava anche un contributo decisivo alle idee atomiche con il suo lavoro sul moto browniano. Tutta la discussione precedente si riferisce in realta’ ad una descrizione puramente cinematica della materia. Dal punto di vista dinamico, dopo la formulazione delle leggi di Newton (1643-1727) si era consolidata l’idea di una rappresentazione completamente meccanicistica dell’universo, l’idea cioe’ di un universo riconducibile ad un modello puramente meccanico descritto appunto dalle leggi di Newton. In particolare si tento’ di descrivere anche i fenomeni luminosi in termini meccanici. Newton stesso formulo’ una teoria corpuscolare della luce. Questa era anche giustificata da quella parte dell’ottica, nota come ottica geometrica, che descrive la luce come composta da raggi che attraversano lo spazio in modo rettilineo essendo poi riflessi od assorbiti dalle superfici incontrate. Questo poteva essere chiaramente interpretato in termini di moti di particelle. Quest’ idea si scontro’ successivamente con la scoperta di vari fenomeni, quali la diffrazione e l’interferenza che non potevano essere spiegati nei termini corpuscolari, ma piuttosto in termini di onde3 . In realta’ l’idea di moti ondosi si era gia’ largamente diffusa nei domini dell’acustica e della dinamica dei fluidi. Infatti, anche se l’aria e l’acqua sono composti da atomi ed hanno quindi struttura corpuscolare, se consideriamo fenomeni che avvengono su una scala D, molto grande rispetto alle dimensioni interatomiche d4 , il mezzo (aria o acqua) puo’ di fatto essere considerato come un continuo. I fenomeni interessanti che avvengono in un mezzo continuo sono fenomeni di disturbo del mezzo stesso e vengono schematizzati nel seguente modo. Noi siamo interessati a cosa avviene nei vari punti del mezzo. Indichiamo il generico punto con P . Per esempio nel caso di un bacino d’acqua possiamo iniziare considerando tutta l’acqua ferma. Questa situazione viene descritta come lo stato di equilibrio o stato fondamentale del sistema. Possiamo poi considerare un disturbo (dovuto ad una qualunque ragione), per cui, invece di avere lo specchio d’acqua immobile, in ogni punto P , il livello dell’acqua varia con il tempo. Questo fenomeno si puo’ allora descrivere in termini di una funzione h(P, t) che descrive la variazione di altezza del liquido nel punto P ed al tempo t rispetto al livello di equilibrio. La quantita’ h(P, t) e’ detta un campo e nel caso specifico un campo scalare perche’ associa ad ogni punto e ad ogni istante un numero: h(P, t). Un altro esempio di campo scalare e’ la variazione di pressione nell’aria. Anche questa puo’ essere descritta da un campo scalare p(P, t) che ci fornisce la variazione di pressione ripetto alla pressione in aria quieta in ogni punto P e ad ogni istante t. Un altro esempio di campo scalare e’ la temperatura nei vari punti di una stanza ad un dato istante di tempo T (P, t). In altri casi puo’ avere interesse avere informazioni che non si riducono ad un puro numero. Per esempio potremmo essere interessati a conoscere ad 3 A questo contribuirono i lavori di Huygens, Fresnel e quello definitivo di Young nel 1801 con il famoso esperimento della doppia fenditura, vedi in seguito 4 Stiamo cioe’ assumendo d ≪ D 28 ogni istante la velocita’ dell’acqua nei vari punti di una condotta. La velocita’ e’ una ~ (P, t), grandezza vettoriale e quindi l’informazione puo’ essere codificata in tre campi, V che rappresentano le tre componenti della velocita’ in un dato sistema di riferimento. In questo caso si parla di un campo vettoriale. Da un punto di vista matematico, un campo scalare e’ una applicazione di R3 × R → R, dove R3 rappresenta lo spazio tridimensionale, il primo R e’ il campo reale nel quale varia il tempo, mentre il secondo R non e’ altro che lo spazio dei valore assunti dalla funzione scalare, cioe’ nei vari casi, h(P, t), p(P, t), ecc. Nel caso di campi vettoriali si ha una applicazione da R3 × R → R3 . Come abbiamo detto, questi campi rappresentano in genere la variazione dello stato del mezzo rispetto ad una situazione di equilibrio. Nel caso dell’altezza dell’acqua h, e’ la variazione dell’altezza rispetto al caso di acqua stagnante. p e’ essere la variazione ~ ci fornisce della pressione rispetto ad una situazione di pressione costante. Il campo V la velocita’ dell’acqua rispetto allo stato in cui l’acqua e’ ferma e cosi via. Nonostante tutti questi campi rappresentino delle situazioni fisiche molto diverse, quando le variazioni rispetto alla situazione di equilibrio sono piccole, si hanno situazioni completamente analoghe sul piano matematico. Infatti sotto queste condizioni tutti questi campi descrivono delle propagazioni ondose. Cioe’ soddisfano un’equazione, detta equazione delle onde. Dunque l’dea di onde era piuttosto diffusa a seguito degli studi sulla propagazione dei disturbi nei mezzi. Quando risulto’ evidente che anche la luce dava luogo a fenomeni di diffrazione e di interferenza, le idee corpuscolari in merito svanirono rapidamente e si affermo’ in maniera definitiva la descrizione ondulatoria. Alla fine dell’ottocento la teoria di Maxwell, che prevedeva che la radiazione elettromagnetica soddisfacesse un’equazione d’onda, fu l’affermazione definitiva della teoria ondulatoria della luce, anche per la maniera unitaria in cui i fenomeni elettrici e magnetici venivano trattati. Dunque alla fine dell’ottocento si era in una situazione in cui la materia veniva descritta in maniera corpuscolare, mentre la radiazione elettromagnetica in termini di onde. Ovviamente gli irriducibili sostenitori delle idee newtoniane cercarono di interpretare le equazioni di Maxwell in termini meccanicistici. La questione stava in una possibile interpretazione delle onde em come spostamenti di particelle che costituiscono il mezzo in cui si propagano, cosi come le onde acustiche o le onde di velocita’. In questi casi l’onda esiste perche’ c’e’ un mezzo materiale che la supporta. Ma quale e’ questo mezzo nel caso della luce? Si introdusse allora l’idea di etere come il mezzo che, per cosi’ dire, riempie il vuoto e le cui vibrazioni originano i campi elettromagnetici. Questa idea fu spazzata in modo definitivo dalla teoria di Einstein (ci riferiamo alla teoria della relativita’ ristretta). Da quel momento in poi il campo elettromagnetico fu pensato semplicemente in termini di campi elettrici e magnetici che si propagano nel vuoto. Cioe gli oggetti che vibrano sono i campi elettromagnetici. Piu’ o meno nello stesso periodo cominciarono ad emergere fatti nuovi che mettevano in crisi i due pilastri della fisica classica, l’equazione di Newton e quelle di Maxwell. Descriveremo poi questi fenomeni. In questa introduzione e’ sufficiente dire che il primo colpo fu assestato alla teoria ondulatoria della luce con l’analisi di Planck del corpo nero (1900) e l’idea successiva di Einstein che la luce fosse costituita da corpuscoli (fotoni) con 29 energia quantizzata. Questa ipotesi permetteva di spiegare l’effetto Compton (1922), che consiste nel cambiamento di frequenza della luce quando e’ diffusa da un elettrone. Lo studio dei sistemi atomici portava a concludere che la fisica classica non era in grado di spiegare la stabilita’ degli atomi che, al contrario, sarebbero dovuti collassare in tempi brevissimi. L’analisi di Bohr (1913) mostrava che le leggi che regolano i sistemi microscopici dovevano subire una revisione profonda. Nel 1923 De Broglie formulava l’ipotesi che cosi come la luce mostra un duplice aspetto, ondulatorio e corpuscolare, anche la materia doveva possedere un duplice aspetto, corpuscolare e ondulatorio. Nel 1927 Davisson e Germer mostrarono che gli elettroni possono dare luogo ad un fenomeno di interferenza, mettendone cosi in luce l’aspetto ondulatorio. In questo periodo gli sviluppi procedettero a velocita’ straordinaria. Nel gennaio del 1925 Pauli enunciava il principio di esclusione e nel luglio dello stesso anno Heisenberg, con la collaborazione di Born e Jordan, formulava la meccanica delle matrici che permetteva di effettuare veri e propri calcoli quantistici, tant’e’ vero che Pauli nel Gennaio del 1926 fu capace di usare le meccanica di Heisenberg per calcolare l’energia dei livelli dell’atomo di idrogeno. Dopo una decina di giorni usci’ il primo di una serie di articoli di Schrödinger sulla formulazione ondulatoria della meccanica quantistica. Questa teoria fu poi mostrata essere equivalente a quella di Heisenberg ma offriva il fondamentale vantaggio, per i fisici dell’epoca, di essere espressa in termini di equazioni differenziali, invece che in termini di matrici, tecnica quest’ultima scarsamente nota ai fisici di allora. Nel febbraio dello stesso anno Fermi, durante la sua permanenza di due anni presso l’Istituto di Fisica dell’Universita’ di Firenze scrisse il primo lavoro su quella che poi sarebbe stata conosciuta come la statistica di Fermi-Dirac. Ancora nel mese di Giugno Born scrisse il primo lavoro sulla interpretazione probabilistica della meccanica quantistica. Con questo lavoro si puo’ dire che la meccanica quantistica fosse completamente formulata nella versione nota come l’interpretazione di Copenhagen. Come abbiamo visto nell’introduzione i capisaldi della fisica classica alla fine dell’ottocento erano la teoria di Newton e le equazioni di Maxwell. Qui daremo una breve introduzione su come la teoria di Newton possa essere riformulata in maniera da poter consentire un confronto diretto con quelli che saranno i postulati della meccanica quantistica. Per quanto concerne invece le equazioni di Maxwell, sarebbe troppo lungo e complicato discuterne. Ci limiteremo dunque ad esporre alcune delle proprieta’ delle onde. 2.2 I postulati della meccanica classica Consideriamo il caso semplice di un moto unidimensionale di una particella puntiforme di massa m soggetta ad una forza F (x). L’equazione di Newton che descrive il moto della particella risulta essere5 m d2 x(t) ≡ mẍ(t) = F (x(t)) dt2 5 (2.1) E’ uso indicare le derivate prime e seconde rispetto al tempo con uno o due punti rispettivamente. 30 Questa equazione determina completamente il moto della particella nel senso che se si assegnano i valori al tempo t = 0 della posizione x(0) e della velocita’ dx(t)/dt|t=0 ≡ ẋ(0), il moto ai tempi successivi e’ completamente determinato, cioe’ dall’equazione precedente possiamo calcolare x(t). Questo problema si puo’ riformulare introducendo la variabile di impulso che e’ semplicemente connessa alla velocita’: p(t) = mẋ(t) (2.2) In questi termini la singola equazione del moto, del secondo ordine nelle derivate temporali, viene convertita in due equazioni differenziali del primo ordine ẋ(t) = p , m ṗ(t) = F (x(t)) (2.3) Se esiste una funzione V (x) (che nel caso unidimensionale esiste sempre ma non e’ detto che esista in generale), tale che F (x) = − allora p(t) ẋ(t) = , m dV (x) dx (2.4) dV (x) ṗ(t) = − dx x=x(t) (2.5) In questo caso si puo’ introdurre una funzione delle variabili p e x (detta l’hamiltoniana del sistema) data da p2 + V (x) (2.6) H= 2m in termini della quale le due equazioni del moto (2.5) si possono scrivere nella forma ẋ(t) = ∂H , ∂p ṗ(t) = − ∂H ∂x (2.7) Un sistema di equazioni cosi fatto si chiama sistema hamiltoniano e le due variabili (x, p) vengono dette canonicamente coniugate. Si dice anche che p e’ coniugata a x e viceversa, o che x e p sono una coppia di variabili coniugate. Nel caso in esame la funzione H ha anche il significato di energia meccanica del sistema, essendo la somma dell’energia cinetica p2 /2m = mẋ2 /2 e dell’energia potenziale V (x). Ma indipendentemente dal significato fisico particolare di x e p un sistema di equazioni cosi’ fatto e’ estremamente generale ed e’ in grado di descrivere molti tipi di sistemi fisici. Notiamo anche che se introduciamo il piano (x, p), le condizioni iniziali x(0) e p(0) sono rappresentate da un punto e la soluzione delle equazioni del moto (x(t), p(t) da’ luogo ad una linea passante da (x(0), p(0)), come si vede in Figura 2.1. Lo spazio (in questo caso il piano) descritto dalle variabili (x, p) viene detto lo spazio delle fasi e quindi il moto di una particella si puo’ pensare come al moto di un punto in questo spazio le cui coordinate ci danno, istante per istante, 31 p (x(0), p(0)) x Figura 2.1: Viene mostrata la traiettoria della particella nel piano (x, p) che al tempo t = 0 passa dal punto di coordinate (x(0), p(0)) la posizione e l’impulso (o la velocita’ v = p/m) della particella. Consideriamo un semplice esempio p2 − kx (2.8) H= 2m segue p ẋ = , ṗ = k (2.9) m Assumendo (x(0), p(0)) = (0, 0) si ha dalla seconda p(t) = kt (2.10) k t m (2.11) k 2 t 2m (2.12) e sostituendo nella prima ẋ(t) = da cui x(t) = eliminando t t= si ha infine x(t) = p(t) k 1 2 p (t) 2mk 32 (2.13) (2.14) p x Figura 2.2: La soluzione delle equazioni (2.9). o p(t) = p 2mkx(t) (2.15) Questa equazione descrive la curva di Figura 2.2, che rappresenta una particella che si muove di moto accelerato con accelerazione k/m. Risulta che la maggior parte dei sistemi fisici di interesse sono descrivibili in termini di un sistema hamiltoniano, cioe’ da n variabili di tipo x che vengono indicate tradizionalmente con qi , i = 1, · · · n e da n variabili di tipo p, che denoteremo con pi . Dunque, per ipotesi, esiste una hamiltoniana H(qi , pi ) che dà luogo alle 2n equazioni di Hamilton q̇i = ∂H(qi , pi ) , ∂pi ṗi = − ∂H(qi , pi) ∂qi (2.16) Assegnando i 2n valori iniziali (qi (0), pi (0)) queste equazioni descrivono una unica curva nello spazio delle fasi 2n-dimensionale delle variabili (qi , pi ). Quindi per ogni punto dello spazio delle fasi passa una ed una sola soluzione delle equazioni di Hamilton. Il sistema delle equazioni di Hamilton è dunque completamente deterministico, perche’ assegnate le condizioni iniziali è possibile prevedere cosa succederà ad ogni istante futuro (o cosa e’ successo ad ogni istante passato). Il concetto di sistema hamiltoniano è estremamente più generale di come possa apparire da questi cenni introduttivi. Anche sistemi apparentemente scorrelati dalla dinamica del punto, quali per esempio i moti delle onde, si possono riportare ad un sistema hamiltoniano, sebbene con un continuo di gradi di libertà invece che con un numero discreto come qui considerato. Siamo ora in grado di enunciare i postulati della meccanica classica: 33 1. Lo stato di un sistema è caratterizzato ad ogni istante dalle 2n variabili (qi , pi), cioè da un punto nello spazio delle fasi. 2. Ogni variabile dinamica ω è funzione delle coordinate (qi , pi ), ω ≡ ω(qi , pi). Per esempio, l’hamiltoniana è una loro funzione. 3. Se il sistema si trova nello stato caratterizzato da (qi , pi ), la misura di ω dà con certezza il valore ω(qi , pi). E’ sempre possibile fare una misura ideale, cioe’ una misura per cui lo stato del sistema rimane inalterato dopo la misura, cioè la posizione nello spazio delle fasi non cambia. Questo significa che il processo di misura non interferisce con il sistema (come vedremo questo postulato viene abbandonato in meccanica quantistica). 4. Lo stato del sistema si evolve nel tempo in accordo alle equazioni di Hamilton q̇i = ∂H(qi , pi ) , ∂pi ṗi = − ∂H(qi , pi ) ∂qi (2.17) Il generico sistema classico e’ dunque caratterizzato dai suoi gradi di liberta’ e dalla sua hamiltoniana. Con questi elementi ed i postulati assegnati si puo’ determinare completamente il moto del sistema (assegnando il punto nello spazio delle fasi all’istante iniziale). Per esempio, la descrizione del moto di un punto, nella meccanica di Newton ed in quella relativistica di Einstein, differisce solo per la forma di H, ma valgono sempre i postulati precedenti. Nella meccanica analitica giocano un ruolo primario le parentesi di Poisson che, come vedremo, hanno un importante analogo quantistico. Le parentesi di Poisson intervengono allorche’ si sia interessati a calcolare la variazione temporale di una generica variabile dinamica ω(qi (t), pi(t), t), calcolata lungo la traiettoria del sistema nello spazio delle fasi. Si ha n dω ∂ω X ∂ω ∂ω = + q̇i + ṗi (2.18) dt ∂t ∂q ∂p i i i=1 ed usando le equazioni di Hamilton (2.17) n dω ∂ω X ∂ω ∂H ∂ω ∂H = + − dt ∂t ∂qi ∂pi ∂pi ∂qi i=1 (2.19) Date due variabili dinamiche A e B, la loro parentesi di Poisson è definita da n X ∂A ∂B ∂A ∂B {A, B} = − (2.20) ∂qi ∂pi ∂pi ∂qi i=1 Dunque ∂ω dω = + {ω, H} dt ∂t 34 (2.21) Le parentesi di Poisson godono di alcune importanti proprietà algebriche che possono essere verificate immediatamente: {A, B} = −{B, A} (2.22) {A, B + C} = {A, B} + {A, C} (2.23) {A, BC} = {A, B}C + B{A, C} (2.24) Inoltre, essendo qi e pi variabili indipendenti si ha {qi , qj } = {pi , pj } = 0, 2.3 {qi , pj } = δij (2.25) Onde Un’onda e’ una perturbazione che si propaga attraverso lo spazio trasportando energia ma non materia. Ad eccezione della radiazione elettromagnetica, ed a livello teorico della radiazione gravitazionale, che possono propagarsi nel vuoto, gli altri tipi di onde si propagano in un mezzo che, per deformazione, e’ in grado di produrre forze elastiche di ritorno. Attraverso il mezzo, le onde possono viaggiare e trasferire energia da un punto all’altro, senza che alcuna particella del mezzo venga dislocata permanentemente. Ogni punto, od ogni particella materiale, interagisce con le particelle vicine ed e’ quindi in grado di trasferire energia. Non esiste, quindi, un trasporto di massa associato, ogni punto oscilla attorno a una posizione fissa. Intuitivamente il concetto di onda e’ associato al trasporto di una perturbazione nello spazio, ma non e’ associato con il moto del mezzo che occupa lo spazio stesso. In un’onda, l’energia vibrazionale si muove dalla sorgente sotto forma di perturbazione senza un moto collettivo del mezzo in cui si propaga. La teoria delle onde rappresenta una particolare branca della fisica teorica che riguarda lo studio delle onde indipendentemente dalla loro origine fisica. Questa peculiarita’ deriva dal fatto che la teoria matematica delle onde puo’ essere usata per descrivere fenomeni ondulatori in contesti anche molto differenti. Per esempio l’acustica si distingue dall’ottica per il fatto che la prima si occupa del trasporto vibrazionale di energia meccanica, mentre la seconda di perturbazioni del campo elettrico e magnetico. Concetti come massa, inerzia, quantita’ di moto, elasticita’ diventano quindi cruciali per descrivere i processi ondulatori acustici, al contrario dell’ottica. La struttura particolare del mezzo introduce inoltre alcuni fattori di cui bisogna tenere conto, come ad esempio i fenomeni vorticosi per l’aria e l’acqua o la complessa struttura cristallina nel caso di alcuni solidi. Per esempio, basandosi sull’origine meccanica delle onde acustiche, ci puo’ essere un movimento nello spazio e nel tempo di una perturbazione se e solo se il mezzo non e’ ne’ infinitamente flessibile ne’ infinitamente rigido. Se tutte le parti che compongono il mezzo si dispongono in modo rigido l’una rispetto all’altra, non sara’ possibile alcun movimento relativo infinitesimo e quindi non ci sara’ alcuna onda (ad esempio l’ idealizzazione del 35 corpo rigido). Al contrario, se tutte le parti sono indipendenti l’una dall’altra senza alcun tipo di interazione reciproca, non vi sara’ alcuna onda in quanto non ci sara’ trasmissione di energia fra le varie parti componenti del corpo. Altre proprieta’ tuttavia possono essere usate per descrivere indifferentemente tutti i tipi di onde. Per esempio, le onde periodiche presentano una cresta (punto piu’ alto) ed un ventre (punto piu’ basso). Si possono poi distinguere onde longitudinali e trasversali. Nelle onde trasversali la vibrazione e’ perpendicolare alla direzione di propagazione (ad esempio le onde di una corda vibrante, in cui le parti infinitesime che costituiscono la corda stessa si muovono verso l’ alto e verso il basso in verticale, mentre l’onda si propaga orizzontalmente). Le onde longitudinali sono invece caratterizzate da una vibrazione concorde con la direzione di propagazione dell’onda (ad esempio le onde sonore, le particelle dell’aria si muovono nella stessa direzione di propagazione del suono). Esistono tuttavia onde che sono sia longitudinali che trasversali e sono dette onde miste (ad esempio le onde sulla superficie del mare). Tutte le onde hanno un comportamento comune in situazioni standard e possiedono le seguenti proprieta’: • Riflessione: quando una onda cambia direzione incidendo su un materiale riflettente. • Rifrazione: il cambio di direzione di un’onda causata dal passaggio tra due mezzi (ad esempio con densita’ diversa). • Diffrazione: la diffusione delle onde, per esempio quando passano per una fessura stretta (piu’ correttamente piccola rispetto alla lunghezza d’onda) • Interferenza: la somma vettoriale (possono annullarsi) di due onde che entrano in contatto • Dispersione: la divisione di un’onda in sotto onde in dipendenza della loro frequenza. Un’onda e’ polarizzata se puo’ oscillare solo in una direzione. La polarizzazione di un’onda trasversale descrive la direzione di oscillazione, nel piano perpendicolare alla direzione di moto. Onde longitudinali come quelle sonore non hanno polarizzazione, in quanto per queste onde la direzione di oscillazione e’ lungo la direzione di moto. Un’onda puo’ essere polarizzata con un filtro polarizzatore. Nel caso dell’ottica questo filtro puo’ essere una lente Polaroid. A seconda del mezzo in cui si propagano e della caratteristica fisica che usiamo per rappresentarle si hanno: • onde elastiche o di spostamento, in cui poniamo l’attenzione sullo spostamento delle particelle; • onda di velocita’, se poniamo l’attenzione sulla velocita’ delle particelle; 36 • onda di densita’, se studiamo la densita’ volumica e per questo ne e’ associata un’ onda di pressione. • radiazione elettromagnetica che riguarda un insieme di onde come luce, onde radio, raggi X nel cui caso la propagazione non ha bisogno di un mezzo, le onde posso propagarsi ne vuoto; 2.3.1 Descrizione delle onde Come abbiamo detto, le onde sono caratterizzate da funzioni delle coordinate spaziali e del tempo. Sappiamo inoltre dal teorema di Fourier (vedi dopo) che una funzione (periodica o no) puo’ essere decomposta in termini di componenti (funzioni) periodiche, quali seno e/o coseno. La caratteristica specifica di una funzione periodica e’ il periodo T , definito come il tempo nel quale una funzione ritorna al valore iniziale. In formule f (t + T ) = f (t) (2.26) Il periodo e’ strettamente collegato alla frequenza ν cioe’ il numero di periodi per unita’ di tempo; se quest’unita’ e’ il secondo allora la frequenza si misura in hertz. Queste grandezze sono correlate nel modo seguente: 1 (2.27) T Ad un periodo temporale corrisponde un periodo spaziale detto lunghezza d’onda λ che e’ legata al periodo dalla velocita’ di propagazione dell’onda ν= λ = vT (2.28) Un’onda viene spesso descritta per mezzo della sua frequenza angolare (ω, radianti/secondo); quest’ultima e’ correlata alla frequenza ν secondo la formula: ω= 2π = 2πν. T (2.29) Non tutte le onde sono sinusoidali (ovvero hanno la forma della funzione seno e/o coseno). Come abbiamo detto, in generale si possono esprimere come somma di sinusoidi, ma questa somma non e’ necessariamente una sinuosoide. Un esempio di onda non sinusoidale e’ l’impulso che si muove lungo una corda poggiata per terra. Matematicamente si ha che un’onda (teorema di Fourier) puo’ essere rappresentata tramite la somma X A(x, t) = Ak sin(kx − ωt) (2.30) k con ω = kv e v la velocita’ di propagazione dell’onda. La quantita’ k si chiama anche il vettore d’onda. Si definisce anche come lunghezza d’onda la quantita’: k= 2π λ 37 (2.31) vediamo dunque che k= 2π ω = v vT (2.32) e, confrontando con la precedente λ = vT (2.33) Dunque la lunghezza d’onda corrisponde allo spazio di un punto che si muove con velocita’ v in un periodo. Un’ onda sinusoidale di questo tipo e’ una soluzione particolare dell’equazione generale delle onde ed e’ quella che di solito e’ studiata in un primo approccio ai fenomeno ondulatori. Notiamo che kx − ωt = k(x − vt) (2.34) dunque l’argomento della funzione sinusoidale dipende solo dalla differenza x − vt. Come vedremo tra un po’ una funzione di x − vt rappresenta un’onda che si propaga verso destra, mentre una funzione di x + vt un’onda che si propaga in direzione opposta. In generale si vede facilmente che generiche funzioni di x − vt o di x + vt soddisfano l’equazione delle onde: ∂ 2 φ(x, t) 1 ∂ 2 φ(x, t) − =0 ∂x2 v 2 ∂t2 (2.35) La soluzione piu’ generale di questa equazione dipende da due funzioni arbitrarie φ(x, t) = f (x − vt) + g(x + vt) (2.36) Per le considerazioni precedenti sin(kx±ωt) sono soluzioni particolari dell’equazione delle onde. Il fatto che una soluzione generica la si possa esprimere come somma di onde sinusoidali e’ conseguenza della linearita’ dell’equazione delle onde. Cioe’ se f1 e f2 sono due soluzioni, anche una generica combinazione αf1 + βf2 (2.37) con α e β costanti arbitrarie, e’ una soluzione. Per capire meglio il significato di queste soluzioni consideriamo f (x − vt) e supponiamo che la f sia una gaussiana (vedi Figura 2.3 f (y) = e−y 2 /2∆2 (2.38) Quando y = x−vt possiamo vedere come questa curva cambia al passare del tempo. Come si vede dai grafici in Figura 2.4, la curva si sposta con una velocita’ pari a 2, cioe’ pari al parametro v. Questo si capisce facilmente considerando il valore f (0) = 1. Quando x − vt = 0 il valore di f e’ sempre lo stesso. Questo accade in tutti i punti tali che x(t) = vt. Analogamente se calcoliamo, per esempio, f (0.2), in tutti i punti per cui x(t) = vt + 0.2 la curva avra’ sempre lo setsso valore. Dunque 38 1.0 0.8 0.6 0.4 0.2 -4 2 -2 4 Figura 2.3: La curva gaussiana considerata nel testo. f f f 1.0 1.0 1.0 0.8 0.8 0.8 0.6 0.6 0.6 0.4 0.4 0.4 0.2 0.2 0.2 x -4 -2 2 4 6 8 x -4 2 -2 4 6 8 x -4 -2 2 4 6 Figura 2.4: La curva gaussiana, rappresentata in funzione di x, e’ fissata ai tempi t = 0, t = 1 e t = 2 Il parametro v e’ fissato a 2. la curva si propaga nello spazio con una velocita’ pari a v, cioe’ al parametro che appare nella equazione delle onde. Consideriamo una soluzione sinusoidale ω φ(x, t) = A sin(kx − ωt) = A sin k x − t (2.39) k Per quanto detto prima questa puo’ essere soluzione solo se v= ω k (2.40) Ricordando ancora le relazioni λ= si ha 2π , k ν= φ(x, t) = A sin 2π ω 2π x − νt (2.41) (2.42) λ Ma seno e coseno hanno un periodo di 3600, o 2π in radianti. Dunque l’espressione (2.42) e’ periodica sia nello spazio che nel tempo, con periodi dati rispettivamente 39 8 d λ ν ν/ 2 2λ Figura 2.5: Illustrazione della relazione tra frequenza e lunghezza d’onda. da λ e T = 1/ν. Infatti x x+λ φ(x + λ, t) = A sin 2π − νt = A sin 2π − νt + 2π = φ(x, t) λ λ (2.43) Analogamente x+λ − ν(t + 1/ν) = φ(x, t + 1/ν) = A sin 2π λ x = A sin 2π − νt − 2π = φ(x, t) (2.44) λ Abbiamo visto che vale la relazione λ = λν = v T (2.45) dove v = c, con c la velocita’ della luce nel caso di onde elettromagnetiche. Questa relazione puo’ essere capita anche dalla Figura 2.5 dove sono mostrati due treni d’onde ad un tempo fissato. I due treni hanno la stessa lunghezza d, quello superiore ha 10 creste e dato che la lunghezza d’onda non e’ altro che la distanza tra due creste (ricordarsi la periodicita’ spaziale) , avremo per il treno d’onda superiore d 10 (2.46) d = 2λ 5 (2.47) λ= mentre per quello inferiore λ′ = 40 Se le onde viaggiano ad una velocita’ v, dopo un tempo t = d/v, entrambi i treni saranno passati al di la’ dello schermo. Quindi per il treno superiore saranno passate 10 onde e 5 per quello inferiore. Pertanto le frequenze (il numero di onde per unita’ di tempo) saranno date da ν= 10 , t ν′ = 5 ν = t 2 (2.48) Abbiamo cosi’ mostrato che λν = λ′ ν ′ = 2.3.2 d =v t (2.49) L’interferenza 2 2 1 1 5 -5 5 -5 -1 -1 -2 -2 2 2 1 1 5 -5 5 -5 -1 -1 -2 -2 Figura 2.6: Le quattro figure mostrano, da sinistra verso destra, la somma di due onde sfasate rispettivamente di 00 , 450 , 900 e 1800 (nella figura gli angoli sono espressi in radianti e corrispondono a 0, π/4, π/2 e π radianti rispettivamente). Il fenomeno di interferenza nasce dalla maniera in cui si compongono due onde luminose della stessa frequenza ma con fase diversa. nella Figura 2.6 si mostra la somma di due coseni sfasati di un angolo α cos(θ) + cos(θ + α) (2.50) A seconda del valore di α si ottengono risultati diversi. In particolare, quando le onde sono in fase (prima illustrazione in alto) si ottiene un’onda che in ogni punto ha un valore doppio, mentre quando la differenza di fase e’ 1800 (o π) si ottiene un’onda nulla, poiche’ cos(θ + π) = − cos θ. 41 L’interferenza di due raggi luminosi fu stabilita con una famosa esperienza dovuto a Young. Una discussione piu’ approfondita verra’ fatta in seguito. Qui basta ricordare che nell’esperimento due onde (con la stessa frequenza) provenienti da fenditure diverse vengono fatte incidere su uno schermo. Queste onde sono descritte da 2π (x − λνt) (2.51) φ(x, t) = A sin λ Dato che la x misura la distanza a partire da una data origine, per esempio la sorgente, il valore della x con cui le due onde arrivano sullo schermo e’ in genere diverso tra loro. Avremo cosi una differenza di fase a seconda della distanza percorsa. Segue cosi’ il fenomeno per cui in certe zone dello schermo si hanno dei massimi o dei minimi di intensita’ (che, ricordiamo, varia con il quadrato del campo e quindi come il quadrato della somma delle due onde). Infatti, ricordiamo, che il campo elettrico ed il campo magnetico, sono grandezze vettoriali e come tali si compongono con le regole della somma vettoriale (si sommano tra loro le componenti). La direzione del campo elettrico esprime anche la polarizzazione di un’onda elettromagnetica ed esiste sempre la possibilita’ di decomporre un vettore lungo due direzioni perpendicolari tra loro e nello stesso piano del vettore. Per esempio un campo elettrico diretto lungo l’asse delle x ha componenti (E, 0, 0) e lo si puo’ decomporre lungo gli assi x′ e y ′ ortogonali tra loro e, per esempio, a 450 con il campo, ottenendo ~ = √1 (E, −E) E (2.52) 2 dove ora le componenti sono rispetto al nuovo riferimento (vedi Figura 2.7). x' y y' E x ~ decomposto lungo gli assi (x′ , y ′). Figura 2.7: Il campo elettrico E 2.3.3 Il meccanismo della visione Veniamo adesso ai processi di indagine fisica quali, per esempio, la misura di posizione di una particella. Queste osservazioni vengono fatte, di norma, inviando sul42 l’oggetto in esame delle onde elettromagnetiche. Quello che si osserva e’ il disturbo prodotto dall’oggetto sull’onda stessa (vedi Figura 2.8). In generale, il meccanismo consiste nell’invio di un’onda elettromagnetica sull’oggetto che si vuole esaminare. L’onda viene riflessa dall’oggetto e il nostro occhio, od un rivelatore, osserva l’onda Sorgente Oggetto Osservatore Figura 2.8: Il meccanismo della visione. riflessa che contiene le informazioni sull’oggetto che si sta osservando. Per fare una buona misura di posizione e’ necessario fare uso di onde elettromagnetiche che abbiano lunghezza d’onda piccola rispetto alle dimensioni dell’oggetto. Per esempio, in Figura 2.9, vediamo che un oggetto piccolo rispetto alla lunghezza d’onda non produce disturbo, mentre lo produce se e’ grande. Figura 2.9: L’oggetto a sinistra (piccolo rispetto alla lunghezza d’onda) non produce disturbo, mentre quello a destra (grande) lo produce. 2.4 Gli inizi della meccanica quantistica La teoria classica tratta, in generale, sistemi macroscopici per i quali non ci siano problemi nel pensarli rappresentati in termini delle coordinate e delle velocita’. D’altra parte quando si ha a che fare con corpi microscopici, e quindi al di fuori della portata diretta dei nostri sensi, il problema cambia radicalmente. Sebbene questo aspetto sia stato inizialmente ignorato cercando di estrapolare la descrizione classica 43 a queste nuove circostanze, le evidenze sperimentali mostravano che questa estrapolazione non funzionava. La prima indicazione in questo senso venne dal problema del corpo nero. 2.4.1 Il corpo nero L’ipotesi dei quanti fu formulata da Max Planck (fisico tedesco) nel 1900 in corrispondenza dei suoi studi sul corpo nero. E’ comune esperienza che un metallo riscaldato sino all’incandescenza emette radiazioni luminose. Per esempio a 850 0 K (un po’ meno di 600 0 C) un metallo emette luce rossa. Aumentando la temperatura si vede il giallo ed il colore si sposta lentamente verso il blu sino a circa 2000 0 K dove si vede il bianco cioe’ una mescolanza di tutti i colori del visibile. La ricerca di Planck aveva lo scopo di determinare lo spettro della radiazione emessa da un corpo incandescente, ma questa radiazione dipende dal corpo che si scalda. Esiste pero’ una situazione ideale, quella del corpo nero, cioe’ un corpo che assorbe completamente le radiazioni che lo colpiscono, per cui la radiazione che emette non dipende ne’ dalla forma ne’ dalla sostanza del corpo stesso e questo permette una indagine delle proprieta’ intrinseche della radiazione. Un corpo nero si puo’ realizzare, Figura 2.10: Come si può realizzare un corpo nero. come mostrato in Figura 2.10, con una scatola chiusa nella quale venga praticato un piccolo forellino che, in pratica, lascia entrare la luce ma ne fa uscire solo una piccolissima quantità. La Figura 2.11 mostra che il risultato del calcolo classico dell’intensità emessa in funzione della frequenza dell’onda elettromagnetica è in contrasto con i dati sperimentali. Inoltre, dato che il calcolo classico da’ una intensità crescente con la frequenza, si vede che, integrando su tutte le frequenze per determinare l’intensità totale della radiazione emessa, si ottiene un risultato infinito (catastrofe ultravioletta), cosa fisicamente assurda. Le curve sperimentali mostrano invece un andamento che va esponenzialmente a zero per grandi frequenze. All’equilibrio termico le pareti del corpo nero e la radiazione saranno in equilibrio termico. Si puo’ 44 Intensita' (unita' arbitrarie) calcolo classico (Rayleigh-Jeans) a T = 2000 0K T = 2000 0K T = 1500 0K T = 850 0K 0 2 4 6 8 frequenza (unita' arbitrarie) Figura 2.11: Intensità della luce emessa da un corpo nero in funzione della frequenza misurata sperimentalmente. La linea tratteggiata (di Raileigh e Jeans) mostra il risultato del calcolo fatto a partire dalla teoria classica dell’elettromagnetismo. quindi affrontare il problema cercando di descrivere la materia delle pareti all’equilibrio. Dato che le pareti sono fatte da atomi, cioe’ da nuclei ed elettroni carichi, queste particelle oscillano con la frequenza stessa del campo a cui sono sottoposte. Quindi, in un modello molto semplice (ma come detto le proprieta’ del corpo nero non dipendono dal materiale) le pareti del corpo nero possono essere pensate come oscillatori che vibrano alle frequenze del campo elettromagnetico presente nella cavita’(vedi Figura 2.12). Dato che questi oscillatori sono carichi e trattandosi di un moto accelerato (la velocita’ dell’oscillatore cambia durante l’oscillazione) essi riemettono radiazione elettromagnetica (che corrisponde alla radiazione riflessa). A A t t= 3/4 T t=0 t = T/2 t=T t = T/4 T Figura 2.12: La figura di sinistra mostra una pallina attaccata a d una molla. Sulla destra è rappresentata l’ampiezza delle oscillazioni in funzione del tempo. Il moto di un oscillatore e’ caratterizzato da un’ampiezza A ed un periodo T. La frequenza dell’oscillatore, cioè il numero delle oscillazioni fatte in un secondo è 45 l’inverso del periodo 1 (2.53) T Invece, l’ampiezza dell’oscillazione dipende dall’energia conferita (cioe’ dalla forza applicata). Secondo la fisica classica l’energia dell’oscillatore puo’ assumere qualunque valore. Se pero’ si ha un insieme di oscillatori ad una data temperatura allora tutti gli oscillatori hanno mediamente la stessa energia. Dato che si hanno infinite frequenze l’energia totale del corpo nero risulterebbe infinita (catastrofe ultravioletta). Planck (1900) risolse questo problema assumendo che un singolo oscillatore di frequenza ν potesse avere solo valori discreti di energia ν= E = nhν (2.54) dove h è la costante di Planck che ha le dimensioni di un’azione (energia× tempo) e vale h ≈ 6.626 × 10−34 J · s. (2.55) mentre n è un intero positivo. Inoltre assunse che la distribuzione di energia relativa ai singoli oscillatori non potesse superare il valore previsto dalla fisica classica, vedi Figura 2.13. Come si vede il numero di modi di oscillazione possibili diminuisce al crescere della frequenza, mentre nel caso classico rimane costante. Quindi nell’ipotesi di Planck la catastrofe ultravioletta viene evitata. E = hνn n=5 n=4 n=3 energia classica n=2 n=1 frequenza Figura 2.13: La figura mostra il numero di modi possibili per ogni valore di n al variare della frequenza. 46 2.4.2 Einstein e i fotoni Einstein in un lavoro fondamentale del 1905 riprendeva l’analisi di Planck del corpo nero in quanto riteneva che l’idea di identificare la distribuzione di energia della radiazione em all’interno del corpo con la distribuzione di energia degli oscillatori non fosse corretta, ma piuttosto che si dovesse passare all’idea che la radiazione stessa fosse quantizzata secondo la formula di Planck, cioe’ che ad ogni radiazione di frequenza ν dovesse associarsi un quanto di energia (il fotone) pari a hν. E’ possibile che anche Planck avesse avuto un’idea simile ma ritenenendola eretica avesse preferito trasferire la quantizzazione a livello della materia, sulla quale all’epoca ben poco si sapeva, mentre le proprieta’ della radiazione em che derivavano dalle equazioni di Maxwell facevano parte del credo dei fisici. L’idea di Einstein era eretica dato che apparentemente si allontanava dal comportamento ondulatorio della radiazione che era ben nota dagli esperimenti di diffrazione ed interferenza. Queste ultime proprieta’ discendono direttamente dalle equazioni di Maxwell in cui all’epoca c’era una fede incrollabile. L’idea rivoluzionaria di Einstein era che la luce possedesse, oltre ad un aspetto ondulatorio riflesso dalla presenza della frequenza della radiazione nella formula di Planck, anche un aspetto corpuscolare che si manifestava con l’assorbimento e l’ emissione della radiazione per quantita’ discrete di energia, il quanto hν. Solo piu’ tardi, nel 1916, mostro’ che al fotone era necessario associare un impulso dato dalla relazione p = E/c. L’ipotesi del fotone fu confermata sperimentalmente da Compton nel 1923 che studio’ il comportamento degli elettroni sotto l’azione di un’onda elettromagnetica e mostro’ che il risultato non e’ in accordo con le idee classiche ma che invece, in tali circostanze, la radiazione elettromagnetica si comporta come un insieme di corpuscoli. Dunque, Einstein, contrariamente a Planck, ipotizzava che un campo em in una cavità si comportasse come un sistema di oscillatori armonici, e che l’energia em che competeva ad una data frequenza ν fosse dovuta ad un insieme di corpuscoli indipendenti in numero pari a: U n= (2.56) hν dove U e’ l’energia em associata all’onda. In altri termini l’energia dell’onda si ripartisce tra n corpuscoli (fotoni) ognuno di energia E = hν. In questo modo l’interpretazione di Einstein del corpo nero era che la luce veniva emessa come un insieme di fotoni ognuno con energia hν. Applicando questa idea anche all’assorbimento Einstein fu in grado di spiegare in modo semplice l’effetto fotoelettrico. L’effetto consiste nell’emissione di elettroni da parte di metalli irraggiati con la radiazione e.m.. I principali fatti sperimentali a questo riguardo sono: 1) - esiste una frequenza di soglia ν0 che dipende dal metallo irraggiato. 2) - L’energia cinetica degli elettroni emessi varia tra 0 ed un massimo che dipende in modo lineare dalla frequenza ν0 , ma non dipende dall’intensità della radiazione. 3) - Il numero di elettroni emessi per secondo e per unità di superficie è proporzionale all’intensità della radiazione. 47 4) - L’estrazione degli elettroni avviene istantaneamente. La spiegazione classica del fenomeno assume che sulla superficie del metallo ci sia una barriera elettrica e che gli elettroni siano in pratica liberi all’interno. Per estrarre gli elettroni occorre compiere un lavoro w sufficiente a superare la barriera, detto lavoro di estrazione. Supponiamo che l’energia incidente sia distribuita in modo uniforme sulla superficie, occorrerà un certo tempo perché un elettrone accumuli l’energia sufficiente a superare la barriera. E’ possibile fare un calcolo in condizioni realistiche sul tempo necessario per l’estrazione e il risultato e’ che occorrono parecchie ore in netto contrasto con gli esperimenti. Inoltre in questo caso la velocità di emissione degli elettroni dovrebbe essere funzione dell’intensità della luce. Nell’ipotesi dei fotoni si assume invece che l’estrazione avvenga perché il singolo elettrone assorbe il singolo fotone, cioè con un assorbimento localizzato, il processo risulta istantaneo e detta K l’energia cinetica massima che può assumere l’elettrone, si ha hν = w + K (2.57) Inoltre all’aumentare dell’intensità aumenterà il numero di fotoni emessi ma non la loro energia. Questa ipotesi si può verificata. Riportando in un grafico (vedi Fig. 2.14) K in funzione di ν si può determinare sia w che la costante di Planck. K tan α = h α ν -w Figura 2.14: L’energia cinetica degli elettroni misurata nell’esperimento sull’effetto fotoelettrico in funzione della frequenza 2.4.3 Il problema atomico All’inizio del 900 molti fisici erano interessati al problema della struttura atomica. Molti modelli erano stati proposti ma quando nel 1911 Rutherford e collaboratori 48 studiarono l’urto di particelle alpha6 sugli atomi, divenne chiaro che l’atomo doveva essere costituito da un nucleo centrale, in cui si concentrava in pratica tutta la massa dell’atomo, e da elettroni esterni, molto piu’ leggeri. Le dimensioni tipiche atomiche sono dell’ordine di 10−8 cm., mentre quelle del nucleo circa 10−12 − 10−13 . In linea di principio il problema del moto degli elettroni (carichi negativamente) nel campo della forza coulombiana generata da un nucleo carico positivamente si poteva affrontare e risolvere tramite la meccanica classica. In particolare, il caso dell’atomo di idrogeno, composto da una carica centrale positiva e dall’elettrone di carica opposta era matematicamente identico a quello del moto di un pianeta nel campo gravitazionale del sole. Infatti la forza gravitazionale e quella elettrica dipendono entrambe dall’inverso del quadrato della distanza e danno luogo allo stesso tipo di equazione differenziale. D’altra parte, anche senza fare molti conti si capisce il tipo di problema a cui si va incontro. Infatti un elettrone, in analogia ai pianeti, girera’ attorno al nucleo e quindi si muovera’ di moto accelerato. D’altra parte la teoria di Maxwell dell’elettromagnetismo ci dice che una carica accelerata perde energia in modo proporzionale al quadrato della sua accelerazione. Dunque l’elettrone perde via via energia e corrispondentemente si avvicina sempre piu’ al nucleo7 . E’ allora semplice vedere che un elettrone che sia inizialmente ad una distanza dell’ordine del raggio atomico (10−8 cm.) e’ destinato a cadere sul nucleo in un tempo dell’ordine di 10−11 secondi. Ovviamente questo significherebbe che la materia come noi la conosciamo non puo’ esistere. Nel 1908, Walter Ritz scopri’ una semplice proprieta’ delle frequenze della radiazione elettromagnetica emesse da un atomo. Questa proprietà prende il nome di Principio di Combinazione e dice che tutte le frequenze, ν, emesse da un dato atomo si possono scrivere nella semplice forma ν = νn − νm , n, m = 1, 2, 3, · · · (2.58) dove le frequenze νn sono caratteristiche dell’atomo considerato. Fu Bohr, nel 1913, a suggerire che associando ad ogni frequenza ν emessa dall’atomo, l’emissione di un fotone di energia E = hν, era possibile spiegare il principio di Ritz come conseguenza della variazione dell’energia dell’atomo dovuta all’emissione (o all’assorbimento) di un fotone hν = En − Em (2.59) Inoltre Bohr, pur rimanendo nell’ambito della meccanica classica, fece due nuove importanti assunzioni. La prima fu che non tutte le energie fossero possibili per l’elettrone nell’atomo o, detto in altro modo, che non tutte le orbite di raggio arbitrario8 fossero permesse, ma solo quelle per cui il momento orbitale e’ quantizzato /, L = mvr = nh 6 /h = h 2π (2.60) La particella alpha (α) e’ il nucleo dell’elio ed e’ costituita da due protoni e due neutroni Una buona analogia e’ quella di un satellite artificiale in orbita terrestre che a causa dei vari attriti perde energia e quindi alla fine cade sulla terra 8 Per semplicita’ considereremo solo orbite circolari 7 49 con m la massa dell’elettrone, v la sua velocita’, r il raggio dell’orbita e h la costante di Planck. Infine Bohr postulava, contrariamente al risultato classico, che l’elettrone, ruotando attorno al nucleo, non emettesse energia em, ma emettesse solo quando l’elettrone passa da un’orbita all’altra. Questa ipotesi fu detta ipotesi degli stati stazionari, nel senso che un elettrone che si trova nello stato corrispondente ad uno dei possibili valori dell’energia quantizzata, non puo’ emettere radiazione. Sotto queste condizioni, ed usando la meccanica classica, si potevano facilmente calcolare le energie (quantizzate) delle possibili orbite, e nel caso dell’atomo di idrogeno il risultato era m e4 (2.61) En = − 2 2 , n = 1, 2, · · · , ∞ 2n /h con e il valore assoluto della carica dell’elettrone 1, 602 ×10−19 Coulomb. Il risultato si accordava benissimo con un risultato empirico dovuto a Balmer che dava appunto le frequenze emesse come 1 1 ν=R − , m = 3, 4, · · · (2.62) 22 m2 Dunque le ipotesi di Bohr erano in accordo con i dati empirici ed inoltre permettevano il calcolo di R (costante di Rydberg) in termini di costanti fondamentali (m, e, h). Ovviamente, il problema della instabilita’ atomica non era veramente risolto dalla teoria di Bohr, ma semplicemente evitato con l’ipotesi delle orbite stazionarie. 2.4.4 La meccanica delle onde e quella delle matrici Dopo questi successi della teoria atomica di Bohr ci furono ulteriori sviluppi specie nella generalizzazione al caso delle orbite ellittiche dovuta a Sommerfeld e Watson (1915), ma i progressi furono lenti, anche perche’ si rimaneva in un ambito di pensiero eminentemente classico, al quale veniva aggiunto (in modo piu’ o meno arbitrario) un qualche postulato di quantizzazione. Il passo successivo, piu’ significativo sul piano concettuale, e’ dovuto a De Broglie nel 1923. Questo passo fu di una importanza decisiva perche’ in qualche modo buttava a mare l’intera costruzione classica. In altri termini l’idea di De Broglie non era quella di correggere ed introdurre delle regole quantistiche all’interno della teoria classica ma, bensi, di costruire una meccanica su basi concettuali nuove. De Broglie suppose che l’idea di una descrizione duale della luce in termini corpuscolari ed ondulatori la si potesse estendere anche alle particelle. Dunque si trattava di associare una descrizione ondulatoria a quella di particella. De Broglie penso’ che questo si potesse fare lasciandosi guidare dalla descrizione duale che si da per le onde luminose. Partando dalla relazione che lega l’energia, E, trasportata da un raggio luminoso monocromatico all’impulso, p della radiazione stessa9 E = pc (2.63) 9 La luce esercita su una superficie su cui venga riflessa una pressione di radiazione. La luce rimbalzando cede una certo impulso alla superficie che a sua volta genera una forza e quindi una 50 possiamo scrivere E = pc = p(νλ) (2.64) dove si e’ usato la relazione tra frequenza e lunghezza d’onda per un’onda luminosa (λ = c/ν). Ma la relazione di Planck ci dice che E = hν (2.65) hν = p(νλ) ⇒ h = pλ (2.66) e quindi e finalmente la relazione fondamentale di De Broglie p= h λ (2.67) Einstein per primo aveva attribuito ai fotoni l’impulso (2.67), ma l’idea di De Broglie era di associare anche ai corpi materiali di impulso p un’onda con una lunghezza d’onda pari a h/p. Come si vede l’impulso e’ inversamente proporzionale alla lunghezza d’onda, per cui a particelle di grande impulso sono associate piccole lunghezze d’onda. Come vedremo nella sezione successiva, un’onda da’ luogo a fenomeni di interferenza o di diffrazione passando attraverso a delle fenditure, solo se la lunghezza d’onda e’ dello stesso ordine di grandezza delle fenditure stesse. Qualora la lunghezza d’onda sia piccola tali fenomeni non si manifestano. In tali circostanze un raggio luminoso ha comportamento molto simile a quello di una particella. A scopo esemplificativo consideriamo una palla di massa m = 0.5Kg che si muova con una velocita’ di 3 m/sec. Il suo impulso sara’ p = mv = 0.5 × 3 = 1.5Kg × m/sec (2.68) Il valore della lunghezza d’onda associata e’ pari a10 λ= h 6.626 × 10−34 joule × sec = = 4.4 × 10−34 m p 1.5Kg × m/sec (2.69) Quando si fa passare un fascio di luce attraverso un foro (vedi Figura 2.15), la massima deviazione che subisce il raggio luminoso (contrariamente ad un fascio di particelle che passerebbero tirando a diritto) e’ data da un angolo θ che approssimativamente risulta (per λ << d) λ (2.70) θ≈ d pressione sulla superficie. Per un’onda monocromatica si verifica facilmente come E e p siano correlate. Il fenomeno e’ analogo a quello in cui una palla rimbalzando a terra, produce una forza (pressione) sul pavimento 10 Le dimensioni di h sono quelle di un’azione, quindi energia × t o, [h] = m(ℓ/t)2 × t = mℓ2 /t. Quindi [h/mv] = ℓ 51 Quindi se consideriamo un foro dell’ordine di 10 cm, cioe’ 0.1m segue 4.4 × 10−34 = 4.4 × 10−33 radianti (2.71) 0.1 Se assumiamo che la nostra palla continui il suo percorso sino ai confini dell’universo (le cui dimensioni sono stimate in 1025 m, segue che la deviazione subita e’ pari a 4.4 × 10−8m, cioe’ quasi dell’ordine delle dimensioni atomiche. Dunque per un oggetto macroscopico gli effetti ondulatori associati all’aspetto ondulatorio della materia non sono osservabili. Diverso e’ il caso di un elettrone in un atomo. Le θ≈ xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx θ d xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx xx Figura 2.15: Il fenomeno della diffrazione velocita’ tipiche sono dell’ordine di 108 m/sec e la massa dell’elettrone e’ dell’ordine di 10−30 Kg. Dunque p = 10−22 Kg × m/sec e 6.6 × 10−34 = 6.6 × 10−12 m (2.72) 10−22 Dunque la lunghezza d’onda dell’elettrone in un atomo e’ dell’ordine di grandezza delle dimensioni atomiche. In questa situazione l’aspetto ondulatorio non puo’ essere certo trascurato. Una maniera molto semplice per capire le profonde conseguenze di tutto questo e’ di considerare ancora l’atomo di idrogeno. Supponiamo che l’elettrone faccia un’orbita circolare. In questo caso l’onda associata dovra’ adattarsi all’atomo stesso. La condizione e’ che si formi un’onda stazionaria e la condizione geometrica di continuita’ e’ che il diametro della circonferenza percorsa dall’elettrone sia un multiplo intero di lunghezze d’onda (vedi Figura 2.16) λ≈ 2πr = nλ (2.73) Moltiplicando questa equazione per l’impulso dell’elettrone si ha 2πpr = npλ = nh 52 (2.74) Dunque si trova che il momento angolare dell’elettrone sull’orbita (dato proprio dal prodotto pr) e’ quantizzato e pari a / L = pr = nh (2.75) in accordo con la equazione (2.60). Da questa condizione di quantizzazione si ricavano facilmente le energie possibili per l’atomo di idrogeno date nell’equazione (2.61). Figura 2.16: La quantizzazione dell’atomo di idrogeno secondo De Broglie La teoria di De Broglie fu confermata nel 1927 in un esperimento di Davisson e Germer che osservarono la diffrazione degli elettroni sugli atomi di un cristallo. In pratica la distanza interatomica funge da fenditura e quindi si realizza la condizione di avere lunghezze d’onda paragonabili a quelle delle dimensioni della fenditura. Il risultato dell’esperimento e’ mostrato in Figura 2.17. Il 19 Luglio 1925 Heisenberg pubblico’ un lavoro fondamentale che dette luogo a quella che fu chiamata la meccanica delle matrici. Heisenberg partiva dall’idea che in fisica si deve parlare solo di quantita’ osservabili, cioe’ di quantita’ che e’ possibile misurare. La conseguenza immediata era che non si poteva parlare delle orbite degli elettroni che nessun esperimento dell’epoca avrebbe mai potuto osservare e misurare. Le uniche informazioni che si avevano sulla struttura atomica erano le frequenza della luce emessa dagli atomi e l’intensita’ di queste radiazioni. Quindi Heisenberg partiva dall’idea che le energie degli elettroni fossero quantizzate e date dalla formula di Bohr (2.61). Successivamente Heisenberg notava che classicamente la radiazione emessa dipende dal dipolo elettrico che e’ essenzialmente la distanza dell’elettrone dal nucleo moltiplicata per la carica dell’elettrone. D’altra parte, nelle ipotesi di Bohr la radiazione emessa dipende dai due livelli energetici tra i quali l’elettrone fa la sua transizione. Ovviamente in questa transizione la distanza dell’elettrone rispetto al nucleo cambia, ma in un modo che dipende dal livello iniziale e finale. Questo significa che la posizione dell’elettrone durante la transizione non puo’ essere 53 Figura 2.17: La figura di diffrazione ottenuta nell’esperimento di Davisson Germer determinata. Alla posizione x andra’ sostituito un numero xnm che dipende dai livelli tra i quali avviene la transizione. In maniera analoga ci si trova costretti ad introdurre la velocita’ e l’accelerazione dell’elettrone in termini di quantita’ del tipo ẋnm e ẍnm . Classicamente si hanno le equazioni del moto (nel caso unidimensionale) ẍ = f (x) (2.76) Secondo Heisenberg queste equazioni rimangono valide ma sostituendo alle variabili numeriche la doppia infinita’ di nuove variabili del tipo xnm . Il problema immediato che sorgeva era l’interpretazione di f (x) nella (2.76). La soluzione e’ immediata se f (x) e’ una funzione lineare, come per l’oscillatore armonico. Con una serie di argomentazioni Heisenberg riusciva a mostrare che se x → xnm allora x2 → x2nm = X (2.77) xnr xrm (2.78) r E’ allora chiaro come si ottengono le potenze successive, per esempio X X x3nm = x2nr xrm = xnm xrs xsm r (2.79) rs e cosi via. Heisenberg noto’ anche che in generale X X (xy)nm = xnr yrm 6= (yx)nm = ynr xrm r (2.80) r Subito dopo il lavoro di Heisenberg, il 27 Settembre 1925, Born e Jordan, notarono che le quantita’ del tipo xnm possono essere pensate come gli elementi di una 54 matrice (che indicheremo con X) e che la regola di prodotto data in (2.78) altro non e’ che il prodotto righe per colonne di due matrici. Questi autori furono anche in grado di dimostrare che le matrici associate alle variabili classiche x e p soddisfano la seguente regola (regola di commutazione) / [X, P ]− ≡ XP − P X = ih (2.81) Poco piu’ di un mese dopo, il 7 Novembre 1925 Dirac arrivava alla stessa regola di commutazione per via completamente indipendente. Inoltre Dirac mostrava che la matrice X (oggi detta operatore di posizione) soddisfa l’equazione i Ẋ = − [X, H] /h (2.82) dove H = H(X, P ) e’ l’hamiltoniana espressa in termini delle matrici X e P e quindi una matrice essa stessa. Dirac notava anche l’analogia che esiste tra questa equazione e la (2.21), quando si scelga x come variabile dinamica ẋ = {x, H} (2.83) / con la parentesi di Poise si mettano in corrispondenza il commutatore −i[X, H]/h son {x, H}. Dirac il 7 Novembre 1925 e pochi giorni dopo, il 16 Novembre, Heisenberg, Born e Jordan lasciarono perdere la strada originale di Heisenberg concentrandosi invece sulla formulazione di una nuova meccanica in cui le variabili di posizione e di impulso non fossero numeri ordinari ma matrici non commutanti tra loro. Questi autori fornirono la prima trattazione completa della meccanica delle matrici. Il 17 Gennaio 1926 Schrödinger pubblico’ il primo dei suoi lavori in cui riusciva a dare una formulazione precisa delle intuizioni di De Broglie. Cio’ che Schrödinger fece fu di scrivere un’equazione analoga, in un certo senso, all’equazione per le onde elettromagnetiche. Nel caso dello stato stazionario di un atomo di energia En , l’equazione soddisfatta dalla funzione d’onda ψn (q) era ∂ / H q, −ih ψn (q) = En ψn (q) (2.84) ∂q La funzione H(q, p) e’ l’hamiltoniana classica sulla quale Schrödinger effettuava la sostituzione ∂ / (2.85) p → −ih ∂q Per l’atomo di idrogeno si ha H(~x, ~p) = e2 p~ 2 − 2m |~x| e dunque ~ =− / ∇) H(~x, −ih 55 /h2 e2 2 ~ |∇| − 2m |~x| (2.86) (2.87) L’equazione differenziale che ne risultava era ben nota nella fisica matematica e non e’ difficile trovare i valori En per i quali esistono soluzioni che si annullano all’infinito11 . In questo modo Schrödinger ricavo’ la formula di Bohr per le energie dell’atomo di idrogeno. Il lavoro di Schrödinger ebbe molta risonanza anche perche’ faceva uso di equazioni differenziali, sulle quali i fisici matematici dell’epoca erano molto preparati, invece di usare un’algebra matriciale di conoscenza non comune. Inoltre Schrödinger generalizzo’ la sua equazione d’onda al caso non stazionario ∂ ∂ψ(q, t) / / ψ(q, t) (2.88) = H q, −ih ih ∂t ∂q Erwin Schrödinger realizzo’ molto presto che la funzione d’onda per un sistema di molti elettroni non poteva essere definita nello spazio ordinario a tre dimensioni. Per esempio, nel caso di due elettroni essa doveva dipendere dalle coordinate di entrambi e quindi doveva essere una funzione di sei variabili spaziali e del tempo. Ci si trovava davanti ad una generalizzazione mai vista prima, si aveva a che fare con oggetti definiti in uno spazio astratto multidimensionale ed inoltre le funzioni in oggetto assumevano valori complessi, come e’ chiaro dal fatto che in entrambe le equazioni di Schrödinger, sia la (2.84) che la (2.88), compare esplicitamente l’unita’ immaginaria. 2.4.5 Il significato probabilistico della funzione d’onda Uno dei problemi della teoria atomica di Bohr era quello relativo al meccanismo di emissione e di assorbimento dei quanti di luce. Nel 1915-16 Einstein non riuscendo a trovare questi meccanismi uso’ un metodo statistico per determinare le probabilita’ relative. In questo modo fu capace di ritrovare la formula di Planck per la radiazione di corpo nero. Rimaneva pero’ l’interrogativo sui meccanismi di base, cioe’ su cosa provocava questi fenomeni. Un problema analogo si era presentato a Rutherford nel 1900 quando aveva cercato di formulare una teoria fenomenologica della radioattivita’. Anche Rutherford fece uso di metodi statistici introducendo la probabilita’ di decadimento di un nucleo ed il concetto di mezza vita, cioe’ in quanto tempo una popolazione atomica si dimezza. I due problemi (quello atomico e quello della radioattivita’) erano molto simili, anche l’emissione da parte di un atomo puo’ infatti essere pensata come una sorta di decadimento. Restava pero’ nell’animo di Einstein l’idea che questa descrizione fosse provvisoria e che la si dovesse un giorno sostituire con una spiegazione deterministica al momento in cui si fosse formulata una teoria adeguata. Come vedremo la risposta della meccanica quantistica e’ che invece non esiste nessuna spiegazione deterministica dei decadimenti, e che invece la natura probabilistica dei fenomeni atomici e’ una legge fondamentale della natura. Nelle considerazioni atomiche esisteva anche un altro elemento di incomprensione 11 Schrödinger pensava correttamente che essendo l’elettrone presente solo in vicinanza del nucleo, la funzione d’onda correlata dovesse annullarsi all’infinito 56 e cioe’ da dove viene e dove va il fotone al momento dell’emissione o dell’assorbimento. La risposta a questa particolare domanda risiede nella teoria quantistica della radiazione o piu’ in generale nella teoria dei campi quantizzati che pero’ non considereremo in questo corso. Venendo alla questione dell’interpretazione probabilistica della meccanica quantistica, fu Max Born che il 25 Giugno del 1926 (e piu’ compiutamente il mese successivo) scopri’, per primo, il significato empirico della funzione d’onda, che poi dette luogo all’interpretazione di Copenhagen della meccanica quantistica. Born aveva in mente le considerazioni di Einstein ed in particolare il fatto che l’energia associata ad una radiazione di frequenza ν in un dato volume V , dello spazio puo’ essere interpretata come dovuta ad n fotoni di energia hν. Dunque in termini di fotoni l’energia sara’ data da nhν. Questo significa che nel dato volume ci sono n fotoni. Se l’energia totale dell’onda (cioe’ quella relativa a tutto lo spazio) corrisponde a N fotoni, allora n/N e’ la probabilita’ di trovare un fotone nel volume V . Ma la densita’ di energia e’ proporzionale al quadrato del campo em, e quindi la probabilita’ n/N puo’ essere calcolata dal quadrato del campo em. Dopo queste considerazioni l’analisi di Born si concentro’ sul processo di collisione di un elettrone su un atomo analizzandolo in analogia con la diffrazione dei raggi X. In questo modo arrivo’ a realizzare che l’elettrone poteva essere in tutti quei punti dello spazio dove la funzione d’onda era non nulla e che non c’era modo di dire dove esso fosse effettivamente dato che si trattava di un evento casuale. Quindi Born arrivo’ a teorizzare che la probabilita’, dP , affinche’ un elettrone si trovi nell’elemento di volume infinitesimo dV fosse data da dP = |ψ(~x)|2 dV (2.89) Da questa interpretazione seguiva la necessita’ di normalizzare la funzione d’onda, di richiedere cioe’ che Z |ψ(~x)|2 dV = 1 (2.90) dove l’integrale e’ fatto su tutto lo spazio. Il significato di questa equazione e’ che il trovare un elettrone in un qualunque punto e’ un evento certo, e quindi la probabilita’ corrispondente deve essere uguale ad uno. Come vedremo successivamente, la scelta del modulo quadro della funzione d’onda permette di ritrovare molto semplicemente le proprieta’ di diffrazione e di interferenza mostrate anche dai corpuscoli materiali. Ovviamente questa interpretazione da’ luogo a un problema concettuale molto importante. Infatti noi possiamo calcolare la probabilita’ che un elettrone dopo aver colliso con un atomo vada in una direzione assegnata, ma la teoria non ci offre alcun elemento per poter dire a priori in quale direzione l’elettrone potra’ andare. Quindi non possiamo mai dire dove si trovi una particella, possiamo solo dare la probabilita’ che si trovi in un certo punto. Dunque la meccanica quantistica deve essere una teoria strettamente probabilistica e pertanto atta a calcolare solo ed esclusivamente le probabilita’ degli eventi. Una situazione, solo apparentemente analoga, esiste in meccanica statistica. In questo caso si tratta con un numero molto grande di sistemi elementari ed e’ praticamente impossibile conoscere le condizioni iniziali 57 di tutti questi sistemi che ci permetterebbe di fare delle previsioni completamente deterministiche. Si e’ dunque costretti ad usare metodi probabilistici, ma questi sono dovuti ad ignoranza nostra. Invece nel caso della meccanica quantistica una concoscenza piu’ dettagliata della realta’ fisica e’ imposssibile. Questo fu reso molto piu’ chiaro dalla formulazione del principio di indeterminazione di Heisenberg (Marzo 1927). 2.4.6 Il principio di indeterminazione Heisenberg fece un’analisi critica dei processi di misura tenendo conto della dualita’ onda corpuscolo. L’idea era quella di misurare contemporaneamente posizione ed impulso di un elettrone. Per determinare accuratamente la posizione e’ necessario, come sappiamo, usare luce con lunghezza d’onda dell’ordine delle dimensioni dell’elettrone, quindi molta piccola. Ma il fotone trasporta un impulso dato da h/λ, quindi piccola lunghezza d’onda significa grande impulso. Supponiamo di voler misurare contemporaneamente l’impulso dell’elettrone. Dato che per la misura della posizione necessitiamo di fotoni di grande impulso, l’urto cambiera’ molto l’impulso dell’elettrone che quindi non potra’ essere determinato con buona approssimazione. Se vogliamo migliorare questa misura occorre usare fotoni di impulso piccolo, allora la lunghezza d’onda associata sara’ grande e la misura della posizione non risultera’ molto precisa. Mettendo insieme questi elementi Heisenberg riusciva a dimostrare che il prodotto delle indeterminazioni sulla posizione, ∆x e sull’impulso ∆px ha un limite inferiore /h (2.91) ∆x∆px ≥ 2 Il fatto che il limite inferiore non sia zero significa che non riusciremo mai a conoscere con infinita precisione (∆x = 0) la posizione di una particella e lo stesso vale per l’impulso. Questo e’ da contrastare con la meccanica classica in cui si ammette di poter conoscere con infinita precisione in qualunque istante posizione e impulso coniugato di una particella. In pratica queste indeterminazioni possono anche essere trascurabili. Vediamo alcuni esempi. Consideriamo una particella macroscopica di massa 1 grammo. Supponiamo di aver misurato la sua posizione con una precisione di un milionesimo di millimetro, cioe’ 10−9 m. Allora ∆v = /h 10−34 ≈ = 0.5 × 10−22 m/sec 2m∆x 2 × 10−3 10−9 (2.92) Vediamo che per una particella macroscopica gli effetti del principio di indeterminazione sono completamente trascurabili e mascherati dalle incertezze sulle misure dovute alla nostra strumentazione che molto difficilmente riuscira’ a raggiungere le precisioni di cui sopra. Molto diversa e’ la situazione per un elettrone in un atomo. Dato che le dimensioni di un atomo sono dell’ordine di 10−10 m dovremo misurare la posizione dell’elettrone molto meglio di cosi. Diciamo per esempio ∆x = 10−13 m 58 (cioe’ una precisione percentuale del per mille). Dato che per la massa dell’elettrone si ha m = 9 × 10−31 ≈ 10−30 Kg, segue ∆v = /h 10−34 ≈ = 0.5 × 109 m/sec 2m∆x 2 × 10−30 10−13 (2.93) La velocita’ di un elettrone in un atomo e’ tipicamente di 108 m/sec e quindi l’indeterminazione sulla velocita’ dell’elettrone e’ grandissima. Dunque nel caso atomico il principio di indeterminazione e’ importante ed infatti la fisica classica fallisce completamente e come si capisce risulta molto difficile parlare di traiettoria dell’elettrone o della sua orbita dato che conosciamo male posizione ed impulso. Esaminiamo infine il cammino di un elettrone in una camera a nebbia che e’ stata per molti anni un tipico rivelatore di particelle. L’elettrone nel suo cammino ionizza gli atomi che fungono da nucleo di condensazione e quindi lascia una traccia visibile all’osservatore. Tramite l’analisi di queste tracce e’ possibile determinare posizione e velocita’ dell’elettrone. Come si riconcilia questo con il principio di indeterminazione? La dimensione tipica delle tracce e’ di circa un millesimo di millimetro, 10−6 m. Si ha dunque per un elettrone ∆v = /h 10−34 ≈ = 0.5 × 102 m/sec −30 −6 2m∆x 2 × 10 10 (2.94) Ma in questi esperimenti la velocita’ degli elettroni e’ in genere superiore a 1/10 della velocita’ della luce, ≈ 3 × 108 m/sec, quindi 0.5 × 102 ∆v = ≈ 0.16 × 10−4 v 3 × 106 (2.95) Dunque, in base al principio di indeterminazione, possiamo conoscere la velocita’ con una precisione massima di 10−5. In pratica la precisione sperimentale e’ inferiore. In ogni caso il principio di indeterminazione costituisce un ostacolo vero e proprio all’idea di particelle che si muovono nello spazio descrivendo delle traiettorie, dato che non e’ possibile determinare contemporaneamente, con infinita precisione, posizione e velocita’. 2.4.7 Equivalenza della meccanica ondulatoria (Schrödinger) e della meccanica delle matrici (Heisenberg) Alla fine del 1926 Schrödinger e Dirac mostrarono la relazione tra la meccanica ondulatoria e la meccanica delle matrici. Prima di tutto osserviamo che esiste una relazione semplice tra le due equazioni di Schrödinger, quella che descrive onde stazionarie (2.84) e quella dipendente dal tempo (2.84). Precisamente l’evoluzione temporale di uno stato stazionario e’ data da / ψ(x, t) = e−iEn t/h ψn (x) 59 (2.96) Allora la relazione tra le funzioni d’onda degli stati stazionari (per esempio gli stati di energia definita di un atomo di idrogeno) con le matrici introdotte da Heisenberg per rappresentare le quantita’ x e p e’ data da Z Z ∂ ∗ ∗ / ψm (x)dx (2.97) xnm = ψn (x)xψm (x)dx, pnm = ψn (x) −ih ∂x Come vedremo queste equazioni hanno una interpretazione matematica molto semplice quando si considerino le funzioni d’onda come elementi astratti di uno spazio vettoriale (infinito-dimensionale) e le variabili dinamiche come operatori che agiscono su questo spazio. Queste considerazioni concludono di fatto la parte storica introduttiva. Prima pero’ di passare alla descrizione vera e propria della teoria, studieremo un caso particolare, quello dell’esperimento di interferenza di Young, perche’ ci permettera’ di capire molti degli aspetti di questa nuova meccanica. 2.5 L’esperimento di interferenza di Young L’esperimento che maggiormente mette in risalto gli aspetti fondamentali della meccanica quantistica è l’esperimento di interferenza di Young, o esperimento della doppia fenditura illustrato in Figura 2.18. Figura 2.18: Schema del dispositivo per l’esperimento di Young. In questo esperimento, un raggio luminoso viene scisso in due fasci per effetto delle due fenditure F1 e F2 producendo una figura di interferenza sullo schermo. Le frange di interferenza sono dovute ai diversi cammini percorsi dai due raggi che possono arrivare in fase o in opposizione di fase sullo schermo, producendo dei minimi o dei massimi di intensità luminosa, come mostrato in Figura 2.19. Tutto questo è perfettamente spiegabile nell’ambito della teoria ondulatoria della luce. Supponiamo adesso di analizzare al microscopio vari punti sullo schermo. 60 Figura 2.19: L’esperimento della doppia fenditura di Young dimostra l’interferenza della luce. Nel grafico (1) è mostrato lo schema dell’esperimento. Nella parte (2) viene mostrato l’effetto dell’interferenza costruttiva o distruttiva di due onde elettromagnetiche. In (3) viene mostrata la costruzione delle frange di interferenza sullo schermo di cui è dato il dettaglio nella parte destra della figura Sulla base dell’ipotesi ondulatoria della luce ci aspetteremmo di osservare delle distribuzioni uniformi, come mostrato nella parte sinistra di Figura 2.20. Ciò che invece viene osservato è rappresentato nella parte destra di Figura 2.20. Si vede un insieme di punti più o meno fitto a seconda della regione di intensità selezionata. Questo risultato è invece in accordo con la teoria corpuscolare della luce, cioè con l’ipotesi dei quanti o dei fotoni, per la quale l’assorbimento avviene per quantità discrete di energia. Una ulteriore osservazione si può fare confrontando tra loro punti situati nella stessa frangia di interferenza tramite un’ analisi microscopica. Il risultato è riportato in Figura 2.21. Come si vede il numero di punti osservati è mediamente lo stesso nei vari casi, ma la distribuzione è diversa e apparentemente casuale. D’altronde ci si rende immediatamente conto che l’ipotesi corpuscolare cade subito in gravi difficoltà. Questo si può capire effettuando l’esperimento in tre condizioni diverse, quali quelle illustrate in Figura 2.22. Nel caso a) si chiude la fenditura F2 e si osserva una distribuzione continua di intensità con un massimo in F1 , come mostrato in Figura 2.22. Questo è esattamente ciò che ci si attende dal punto di vista corpuscolare. Analogamente, se chiudiamo F1 si trova la distribuzione simmetrica, centrata in F2 . Se invece apriamo entrambe le fenditure, come sappiamo non si ottiene la curva a+ b di Figura 2.22, cioè la somma delle due curve precedenti, ma invece si trova la figura di interferenza. Indicando con I le intensità della luce, 61 Figura 2.20: Nella parte destra: cosa si dovrebbe osservare, in base alla teoria ondulatoria, guardando al microscopio le frange di interferenza prodotte nell’esperimento di Young. Nella parte sinistra cosa si osserva realmente al microscopio. Nei cerchi di sinistra l’osservazione di intensità massima, mentre nei cerchi di destra l’osservazione di tre zone di debole intensità Figura 2.21: L’analisi dettagliata di più punti situati nella stessa frangia di interferenza mostra che il numero medio di punti impressionati è lo stesso, ma cambia la loro distribuzione che appare del tutto casuale. si ha Ia+b 6= Ia + Ib (2.98) Ovviamente questo non è un problema dal punto di vista ondulatorio dato che nel caso della radiazione luminosa sappiamo che dobbiamo sommare i campi. Detta A l’ampiezza del campo si ha Aa+b = Aa + Ab (2.99) e dato che l’intensità luminosa è essenzialmente il modulo quadrato del campo segue |Aab |2 = |Aa |2 + |Ab |2 + A∗a Ab + Aa A∗b 6= |Aa |2 + |Ab |2 (2.100) D’altra parte abbiamo anche visto che sul piano microscopico la distribuzione dell’intensità sullo schermo non è ciò che ci si attende dall’ipotesi ondulatoria. Un 62 passo ulteriore si può fare riducendo l’intensità della sorgente. Questo non avrebbe alcun effetto sul risultato se tutto andasse come previsto dall’ipotesi ondulatorio. a+b a b F1 F2 Figura 2.22: L’esperimento di Young effettuato in tre condizioni diverse. Nel caso a) è chiusa la fenditura inferiore, non si hanno frange di interferenza e si osserva un massimo in corrispondenza della fenditura superiore. Il caso b) è identico al caso a) eccetto che si scambiano le due fenditure. Nel terzo caso le fenditure sono aperte e si osservano le frange di interferenza. Sul lato destro della figura sono riportate e le distribuzioni di intensità ottenute chiudendo la fenditura F2 , caso a), e la fenditura F2 , caso b). È anche riportata la somma delle due distribuzioni. Dal punto di vista corpuscolare le cose invece cambiano, dato che al limite si potrebbe far passare un solo fotone che potrebbe dare una sola immagine sullo schermo e certamente non produrre una figura di interferenza. In particolare si potrebbe cercare di capire cosa succede mandando una successione di fotoni, uno dietro l’altro. Con le tecniche odierne questo è un esperimento possibile, ma possiamo invece ottenere lo stesso risultato usando elettroni. Come sappiamo dall’esperimento di Davisson e Germer anche gli elettroni mostrano un aspetto ondulatorio. Quindi se si ripete l’esperimento di Young con elettroni ci attendiamo ancora una figura di interferenza. E questo è proprio ciò che si trova come mostrato in Figura 2.23. In questo caso possiamo ripetere varie volte l’esperimento utilizzando numeri diversi di elettroni, come illustrato in Figura 2.24. Vediamo che le frange si formano aumentando il numero di elettroni. Un risultato analogo nel caso della luce è quello di fotografie effettuate con pellicole poco sensibili (cioè con bassa densità di grani), oppure ingrandendo una determinata immagine sullo schermo di un computer. Per 63 Figura 2.23: Confronto tra le frange di interferenza ottenute nell’esperimento di Young con gli elettroni (frange superiori) e con la luce (frange inferiori). un numero basso di elettroni non si ha una immagine particolare, ma piuttosto una serie casuale di punti impressionati. Crescendo il numero degli elettroni i punti immagine sullo schermo si infittiscono in determinate zone sino a formare le frange di interferenza. La distribuzione dei punti, aumentando la statistica, appare quindi essere pilotata da quelle che sono le leggi dell’ottica ondulatoria. Pertanto, anche usando elettroni, la loro distribuzione numerica sullo schermo con entrambe le fenditure aperte, na+b , è diversa dalla somma delle distribuzioni con una sola fenditura aperta, na e nb . Da un punto di vista corpuscolare il fenomeno è chiaramente inspiegabile, dato che il fatto che un elettrone passi da F1 non cambia a seconda che la fenditura F2 sia aperta o chiusa. Chiaramente l’interpretazione classica dei fenomeni non può essere mantenuta a livello microscopico. Prendendo spunto da considerazioni di questa natura Born arrivò a formulare, come abbiamo gia’ accennato, l’attuale interpretazione probabilistica della meccanica quantistica. Abbiamo detto che la distribuzione dei punti sullo schermo appare regolata dalle leggi dell’ottica ondulatoria. Sembra allora naturale assumere che il campo elettromagnetico possa essere pensato come una ampiezza di probabilità per trovare un fotone in un certo punto. La probabilità si ottiene invece facendo il modulo quadrato. Questo spiega la distribuzione statistica dei punti sullo schermo e l’interferenza allo stesso tempo. Questo punto di vista può essere generalizzato agli elettroni e ad altre particelle, associando ad ognuna di esse una ampiezza di probabilità complessa, o funzione d’onda ψ(x) (2.101) il cui modulo quadro fornisce la probabilità di trovare la particella nel punto x: P (x) = |ψ(x)|2 64 (2.102) Figura 2.24: L’esperimento di Young ripetuto usando un numero crescente di elettroni. Da una immagine informe a) ottenuta con 28 elettroni si passa alla figura di interferenza c) prodotta con 10,000 elettroni . Ovviamente, come il campo elettromagnetico soddisfa le equazioni di Maxwell, anche le funzioni d’onda delle varie particelle dovranno soddisfare un’equazione che è quella che regola la distribuzione di probabilità. Questa equazione è l’equazione di Schrödinger che discuteremo in dettaglio nel seguito. In questa interpretazione probabilistica perde di senso il concetto di traiettoria di una particella: noi non siamo in grado di dire da dove sia passata la particella, se da F1 o da F2 ma possiamo dare solo la probabilità di trovarla in un certo punto dello spazio. Occorre menzionare che esiste un altro punto di vista, completamente equivalente, ed è l’idea della somma sui cammini di Feynman. In questo caso non si rinuncia all’idea di traiettoria, ma si cambiano le regole del gioco delle probabilità. Si assume cioè che siano le ampiezze di probabilità a comporsi con le regole della probabilità classica. Per esempio per due casi esclusivi, come il passaggio da F1 o F2 , si assume che l’ampiezza di probabilità totale sia ψa (x) + ψb (x) (2.103) dove le due ampiezze corrispondono al passaggio da F1 o da F2 . Pertanto avremo un effetto di interferenza nella probabilità. Come detto questo punto di vista è 65 completamente equivalente a quello di Born. Il solo problema è che la matematica associata è assolutamente non banale, e sebbene nei problemi più attuali il punto di vista di Feynamn sia il più usato, noi affronteremo lo studio seguendo l’approccio alla Born. Una cosa che e’ molto importante sottolineare e’ che se pensiamo ai fotoni o agli elettroni come corpuscoli, si potrebbe pensare di interpretare questo esperimento dicendo che si ha quella che viene chiamata una miscela statistica. Una miscela statistica significa, in questo caso, che abbiamo N particelle, con probabilita’ Pa (x) e Pb (x) di passare da F1 e F2 rispettivamente e di arrivare ad un punto x sullo schermo. Dunque in ogni punto x arriveranno N(x) = NPa (x) + NPb (x) (2.104) particella. In questo caso la probabilita’ e’ data da P (x) = N(x) = Pa (x) + Pb (x) N (2.105) e non si ha interferenza. L’interferenza e’ dovuta al fatto che il sistema e’ descritto da una funzione d’onda che e’ data dalla somma di due contributi ψ = ψa + ψb (2.106) con Pi = |ψi |2 e quindi calcolando il modulo quadro si ha un termine misto responsabile dell’interferenza. E’ da notare invece R che se misuriamo il numero di particelle che passano da F1 (che sara’ pari a N dxPa (x)), sapremo con certezza che il nuR mero di particelle che passano da F2 sara’ dato da N dxPb (x). Dunque la misura fatta in F1 determina automaticamente il numero di particelle che passano da F2 . Possiamo anche dire che se non effettuiamo la misura in F1 la funzione d’onda del sistema complessivo e’ ψ(x) = ψa (x) + ψb (x) (2.107) e non e’ possibile distinguere le due parti della funzione d’onda. Se invece misuriamo le particelle che passano in F1 separiamo il sistema in due parti, una descritta da ψa e l’altra descritta da ψb . In altri termini la misura cambia lo stato del sistema. Possiamo anche dire che mentre prima della misura lo stato tiene conto di entrambe le particelle, dopo la misura in F1 le particelle che passano da F2 perdono completamente memoria della loro relazione con quelle che sono passate da F1 . Questo e’ un punto di importanza estrema importanza e, come vedremo, dara’ luogo ad uno dei capisaldi della interpretazione di Copenhagen, il cosi detto postulato di riduzione della funzione d’onda. Vorremmo anche sottolinere che l’esperimento della doppia fenditura eseguito inviando un fotone alla volta e’ stato fatto solo a meta’ degli anni 80 a Parigi. Quello con elettroni (sempre un elettrone alla volta) da un team giapponese nel 1987. All’inizio degli anni 90 un gruppo tedesco ha usato atomi di elio, mentre 66 all’MIT e’ stato fatto con atomi di sodio. In tutti questi casi i risultati sono stati identici a quelli qui descritti usando un fascio luminoso. Nelle due sezioni successive mostreremo altri esempi di collasso del vettore di stato. 2.6 L’esperimento di Stern e Gerlach Discuteremo adesso l’esperimento di Stern e Gerlach, concepito nel 1921 da Stern e poi realizzato dai due nel 1922. Questo esperimento, cosi come quello della doppia fenditura mostra chiaramente l’insufficienza della fisica classica nel descrivere certi fenomeni. L’apparato sperimentale e’ mostrato nella seguente figura 2.25: z x x x x x x x x x x x x xxxxxxxxxxxxxxxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx forno xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx x x x x x x x x xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx x xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx x xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx x xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx x xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx x xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx x xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx x xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx x xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx x xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx x xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx x xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx x xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx x xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx x xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx x x x x x x x x x x x S A fascio atomico xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx collimatore a) A' xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxx xxxxxxxxx xxxxxxxxxxxxxxx x xxxxxx xxxxxxxxx xxxxxxxxxxxxxxx x xxxxxx xxxxxxxxx xxxxxxxxxxxxxxx x xxxxxx xxxxxxxxx xxxxxxxxxxxxxxx x xxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxx xxxxxxxxxxxxxxx x xxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxx xxxxxxxxxxxxxxx x xxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxx xxxxxxxxxxxxxxx x xxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxx xxxxxxxxxxxxxxx x xxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxx xxxxxxxxxxxxxxx x xxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxx A b) A' Figura 2.25: Disposizione dell’esperimento di Stern e Gerlach in figura a). In figura b) il particolare del magnete Degli atomi di argento vengono scaldati in un forno e poi inviati, tramite un collimatore, al magnete. Il magnete ha una struttura non omogenea. Un atomo di argento e’ costituito da un nucleo e da 47 elettroni, di cui 46 si possono visualizzare come una nube a simmetria sferica con zero momento angolare. Il momento 67 angolare nucleare puo’ essere ignorato in questa discussione12 . Dunque l’atomo si comporta come un atomo pesante con un momento magnetico dovuto allo spin (momento angolare intrinseco) del 47-mo elettrone. Il momento magnetico dell’atomo di argento risulta dunque proporzionale allo spin dell’elettrone. Si dimostra poi che la disomogeneita’ del campo magnetico lungo l’asse z produce una forza lungo questa direzione. L’atomo subisce allora una deviazione lungo l’asse z che dipende dall’orientazione del dipolo magnetico rispetto a questo asse. Precisamente e’ deviato verso il basso se il momento e’ orientato lungo l’alto e verso l’alto se e’ orientato verso il basso. Per valori intermedi dell’angolo l’atomo subisce deflessioni minori rispetto a questi casi limite. In altri termini questo apparato e’ in grado di misurare la componente dello spin (a cui il momento magnetico e’ proporzionale) lungo l’asse z. Dato che gli atomi sono orientati in modo casuale ci aspettiamo che il fascio atomico possa arrivare in qualunque posizione compresa tra i due casi limite sopra considerati. Invece cio’ che si osserva sperimentalmente sono due componenti distinte del fascio. Invece di osservare una fascia continua, si osservano due righe. Questo fenomeno fu chiamato di quantizzazione spaziale. Dunque solo due possibili valori della componente dello spin lungo l’asse z sono possibili, corrispondenti rispettivamente a spin up e spin down che indicheremo con Sz± . Numericamente risulta /h Sz± = ± (2.108) 2 E’ da notare che l’uso dell’asse z e’ puramente accidentale, potremmo tranquillamente girare l’apparato di 900 e separare ancora due componenti lungo l’asse y. Consideriamo adesso degli esperimenti di Stern e Gerlach sequenziali. Il primo caso e’ rappresentato in Figura 2.26a, dove un primo apparato di Stern e Gerlach, indicato con SGz separa il fascio in due componenti lungo l’asse z. Successivamente blocchiamo la componente Sz− e facciamo attraversare la componente Sz+ ancora uno apparato SGz. In questo caso solo la componente Sz+ emerge dal secondo SGz. Questo si spiega facilmente, dato che gli spin sono orientati lungo l’asse z dopo il primo SGz passano inalterati attraverso il secondo. Nel secondo caso in Figura 2.26b, la prima parte dell’apparato e’ identica al caso a), mentre il secondo apparato SGz e’ sostituito da uno orientato lungo l’asse x, detto SGx. La componente Sz+ viene separata in due componenti di uguale intensita’ corrispondenti ad una orientazione dello spin Sx± . Come si puo’ spiegare questo fatto? Si potrebbe pensare che il fascio Sz+ che emerge dal primo SGz e’ composto al 50% da atomi con Sz+ e Sx+ , mentre l’altro 50% é costituito da atomo con Sz+ e Sx− . Per vedere come questa spiegazione non sia corretta possiamo effettuare una ulteriore modifica aggiungendo alla configurazione b) un terzo SGz. Provvediamo inoltre a bloccare la componente Sx− emergente dall’apparato SGx. Quello che succede e’ che il fascio Sx+ , che per ipotesi 12 Il momento magnetico del nucleo e’ soppresso rispetto a quello dell’elettrone di un fattore me /mN . Nel caso dell’atomo di idrogeno questo fattore e’ 1/2000 e decresce all’aumentare del numero atomico 68 + Sz comp. + Sz comp. a) forno SGz Sz- xxxxxxxxxxxxxxxxxxxxxxxxxx SGz xx xx xx xx xx xx xx comp. + Sx comp. + Sz comp. b) forno SGz Sz xxxxxxxxxxxxxxxxxxxxxxxxx SGx xxx xxx xxx xxx xxx xxx xxxxxxxxxxxxxxxxxxxxxxxxxx - S x comp. comp. + Sx comp. + Sz comp. c) forno SGz Sz- No Sz- comp. + Sz comp. xxxxxxxxxxxxxxxxxxxxxxxxxx SGx xxx xxx xxx xxx xxx xxx comp. xxx xxx xxxxxxxxxxxxxxxx xxx xxx xxx xxxxxxxxx SGz - Sx comp. xxxxxxxx - Sz comp. Figura 2.26: Tre esperimenti di Stern e Gerlach di tipo sequenziale non conteneva atomi con polarizzazione di tipo Sz− viene separato in due componenti Sz± di uguale intensita’. Questo risultato mostra che la selezione del fascio Sx+ da parte dell’apparato SGx distrugge ogni informazione relativa ad Sz . Questo risultato illustra anche come non sia possibile, in meccanica quantistica, misurare simultaneamente Sz e Sx . 2.6.1 Analogia con la polarizzazione della luce L’ esperimento di Stern e Gerlach ha molte somiglianze con gli esperimenti che si possano fare usando luce polarizzata e dei filtri Polaroid. Un filtro Polaroid e’ una lamina di cristallo in grado di far passare solo onde elettromagnetiche i cui campi elettrici sono orientati lungo la direzione del filtro. Ricordiamo che un’onda piana elettromagnetica che si propaghi lungo l’asse z, corrisponde ad un campo elettrico e magnetico orientati nel piano (x, y) (perpendicolare alla direzione di propagazione) ed inoltre i campi sono perpendicolari tra loro. Tramite un filtro orientato lungo l’asse x (che chiameremo un filtro-x), un’onda comunque polarizzata diventa polarizzata secondo l’asse x, vedi la Figura 2.27. Chiaramente se ruotiamo un filtro-x di 900 orientandolo lungo l’asse y esso diventa un filtro-y. Dopo esser passata attraverso un filtro-x il campo elettrico dell’onda puo’ essere descritto come ~ = E0 ~x̂ cos(kz − ωt) E (2.109) dove ~x̂ e’ un vettore unitario lungo l’asse delle x. Analogamente un’onda polarizzata lungo l’asse y avra’ un campo elettrico dato da ~ = E0 ~ŷ cos(kz − ωt) E 69 (2.110) x E v z H y Figura 2.27: La disposizione dei campi elettrico e magnetico discussa nel testo In queste espressioni ω e’ la pulsazione, e k il numero d’onde, legate alla frequenza, ν, ed alla lunghezza d’onda λ, da ω = 2πν, k= 2π λ (2.111) Il legame con il periodo, T e la velocita’ di propagazione (c) e’ dato da ω= 2π , T c= λ ω = T k (2.112) Se facciamo passare la luce attraverso un filtro-x e poi attraverso un filtro-y che siano efficienti al 100%, all’uscita non avremo nessun fascio luminoso (vedi Figura 2.28). Supponiamo adesso di inserire tra il filtro-x ed il filtro y un filtro-x′ con la direzione x′ che formi un angolo di 450 rispetto all’asse delle x e sempre nel piano (x, y) (vedi Figura 2.29). Questa volta dal filtro-y esce un fascio di luce, nonostante che dopo il filtro-x non ci fosse piu’ componente dell’onda polarizzata in questa direzione. Cioe’, dopo che la luce passa attraverso il filtro x′ e’ del tutto irrilevante come fosse il fascio dopo il filtro-x. filtro-x filtro-y nessuna luce Figura 2.28: Due filtri Polaroid ad angolo retto tra loro bloccano completamente il fascio luminoso La situazione qui descritta e’ del tutto simile al caso considerato in Figura 2.26c, se si stabilisce la corrispondenza: atomi Sz± ⇔ luce polarizzata lungo x, y atomi Sx± ⇔ luce polarizzata lungo x′ , y ′ 70 (2.113) filtro-x filtro-x' (45 gradi) y filtro-y x' y' x Figura 2.29: Nella parte superiore i tre filtri x, x′ e y. Nella parte inferiore sono rappresentate le tre corrispondenti di polarizzazione del fascio con y ′ la direzione perpendicolare a x′ . Secondo l’elettrodinamica classica la spiegazione relativa e’ data dal fatto che la luce polarizzata lungo l’asse x′ la possiamo rappresentare nel seguente modo i E0 h E0~x̂′ cos(kz − ωt) = √ ~x̂ cos(kz − ωt) + ~ŷ cos(kz − ωt) 2 (2.114) cioe’ come una combinazione di due fasci, uno polarizzato lungo l’asse y e l’altro lungo l’asse x. Quindi quando questo fascio passa attraverso il secondo filtro-y, la sua componente x viene assorbita, mentre passa la componente y. L’analisi complessiva ci dice che dopo il primo filtro-x, il fascio puo’ essere visto come una combinazione lineare di fasci x′ ed y ′. Il filtro-x′ lascia passare solo la componente x′ . A sua volta, come gia’osservato, questo fascio puo’ essere visto come una combinazione di polarizzazione x ed y ed il secondo filtro y lascera’ passare solo la componente y. La corrispondenza che abbiamo stabilito suggerisce che, come la polarizzazione del campo elettromagnetico puo’ essere vista come un vettore bidimensionale nel piano (x, y), anche lo stato di spin di un atomo di argento puo’ essere pensato come un vettore bidimensionale in uno spazio astratto a due dimensioni da considerarsi distinto dallo spazio ordinario (x, y), Cosi come la polarizzazione lungo x′ e’ vista come combinazione lineare delle due polarizzazioni x ed y, potremo pensare allo stato Sx+ dell’atomo di argento come una combinazione lineare degli stati Sz± . Useremo per questi stati (vettori bidimensionali) la notazione di Dirac |Sz± i. In analogia a quanto accade per le onde elettromagnetiche ci aspettiamo allora per lo stato Sx+ 1 |Sx+ i = √ |Sz+ i + |Sz− i 2 71 (2.115) Quindi dall’apparato SGx esce una sovrapposizione di stati Sz± . Pertanto, mentre la componente Sz− verra’ bloccata, la componente Sz+ passera’ inalterata. In questo modo si riproducono i risultati di Figura 2.26c. Una questione da esaminare e’ come si possano descrivere gli stati dell’atomo di argento di tipo Sy± , dato che i due stati Sz± vengono gia’ usati per descrivere Sx± . Infatti lo stato Sx− e’ dato da 1 |Sx− i = √ −|Sz+ i + |Sz− i 2 (2.116) che risulta ortogonale a |Sz+ i. La risposta e’ suggerita ancora dalla polarizazione della luce. Infatti oltre alla polarizzazione x o y la luce puo’ avere anche una polarizzazione circolare. Questa puo’ essere descritta matematicamente usando combinazioni complesse dei campi lungo x ed y. Senza entrare in troppi dettagli diciamo che e’ possibile stabilire la seguente corrispondenza atomi Sy+ ⇔ luce polarizzata destrogira atomi Sy− ⇔ luce polarizzata levogira (2.117) In corrispondenza i vettori che descrivono gli stati Sy± in termini di Sz± sono dati da 1 |Sy± i = √ |Sz+ i ± i|Sz− i 2 (2.118) Dunque lo spazio bidimensionale necessario per descrivere lo spin risulta complesso. Cioe’ i vettori di questo spazio si costruiscono prendendo combinazioni complesse dei due vettori di base |Sz± i. Riassumendo, abbiamo visto che la meccanica quantistica fa uso di ampiezze di probabilità complesse che si possono sommare tra loro e che devono obbedire una equazione d’onda, che per la linearità delle ampiezze, deve essere lineare, perchè la somma di due soluzioni deve essere anch’essa una soluzione. Pertanto la struttura matematica che emerge da queste considerazioni è, come vedremo meglio in seguito, quella di uno spazio vettoriale complesso (spazio di Hilbert). 72