fausto de mari elementi di algebra lineare e di geometria analitica Fausto De Mari: Elementi di Algebra Lineare e di Geometria Analitica Copyright c 2018 Fausto De Mari. Tutti i diritti riservati. Questo testo viene diffuso gratuitamente per gli studenti che seguono corsi tenuti dall’autore e per chiunque fosse interessato ai contenuti trattati. E’ pertanto proibita la diffusione e la riproduzione, anche solo parziale, in ogni forma o mezzo, se fatta a scopo di lucro. (Versione Marzo 2018) CONTENTS 1 2 3 prerequisiti 1 1.1 Cenni di teoria degli insiemi 1.2 Applicazioni tra insiemi 6 1.3 Gruppi, Anelli e Campi 8 1 spazi vettoriali 13 2.1 Spazi vettoriali su un campo 13 2.2 Sottospazi 16 2.3 Dipendenza e indipendenza lineare 19 2.4 Spazi vettoriali di dimensione finita 21 2.5 Applicazioni lineari tra spazi vettoriali 27 2.6 Immagine e nucleo di un’applicazione lineare 2.7 Spazi euclidei reali 32 matrici e sistemi lineari 41 3.1 Generalità e operazioni tra matrici 41 3.2 Matrici a scala 43 3.3 Determinante di una matrice 48 3.4 Matrici Invertibili 52 3.5 Dipendenza lineare e rango di una matrice 3.6 Generalità sui sistemi lineari 58 3.7 Metodi di risoluzione 60 3.8 Sitemi lineari omogenei 65 3.9 Matrici e applicazioni lineari 68 3.10 Matrice del cambio di base 72 4 diagonalizzazione di endomorfismi e matrici 4.1 Autovalori, autovettori e autospazi 75 4.2 Endomorfismi diagonalizzabili 78 4.3 Matrici diagonalizzabili 82 5 geometria analitica 85 5.1 Sottospazi affini di Rn 85 5.2 Geometria affine in R2 89 5.3 Geometria affine in R3 91 5.4 Questioni metriche 100 31 54 75 iii 1 1.1 PREREQUISITI cenni di teoria degli insiemi Anche se è da ritenersi acquisita dagli studi precedenti una certa familiarità con la teoria degli insiemi, con la relativa nomenclatura e con la relativa simbologia, in questo primo paragrafo si riporta, per comodità del lettore, un brevissimo sunto dell’argomento. In teoria (elementare) degli insiemi, i concetti di ente, di insieme e di proprietà sono concetti primitivi. In maniera intuitiva, un insieme è una collezione di enti, o oggetti, di natura arbitraria. Gli insiemi si indicano con le lettere maiuscole dell’alfabeto ed i loro elementi con le lettere minuscole. Per indicare che un ente x è un elemento di un insieme S si scrive x ∈ S e si legge x appartiene ad S, la scrittura x 6∈ S indica invece che x non appartiene ad S ossia che x non è un elemento di S. Se P è una proprietà e x è un ente per il quale la proprietà P è vera si usa una delle scritture x : P o x|P e si legge x tale che P. Esistono delle proprietà che risultano false per ogni ente, come ad esempio la proprietà “x 6= x"; una proprietà che è falsa per ogni ente determina un insieme privo di elementi chiamato insieme vuoto che si denota col simbolo ∅. Un insieme può essere definito elencando i suoi elementi oppure specificando le proprietà soddisfatte dai suoi elementi. Ad esempio possiamo scrivere {0, 1, 2, 3, −1, −2} oppure {n ∈ Z | − 2 6 n 6 3} per indicare l’insieme dei numeri interi compresi tra −2 e 3. Nella precedente scrittura Z sta ad indicare l’insieme dei numeri interi relativi, più in generale per gli insiemi numerici le notazioni usuali sono: N0 = {0, 1, 2, 3, . . . } numeri naurali incluso lo 0; N numeri naturali escluso lo 0; Z numeri interi relativi (ossia positivi e negativi, incluso lo 0); Q numeri razionali (ovvero i quozienti di interi); R numeri reali. In un insieme l’ordine degli elementi è irrilevante, ad esempio le scritture {x, y} e {y, x} rappresentano lo stesso insieme, inoltre l’eventuale presenza di ripetizioni non modifica la natura dell’insieme, ad esempio i simboli {x, y}, {y, x} e {x, y, y} rappresentano tutti lo stesso insieme. Siano S e T insiemi. Si dice che S è contenuto in T , o che T contiene S, se ogni elemento di S è anche un elemento di T ; in tal caso si scrive S ⊆ T e si dice anche che S è una parte di T , o che S è un sottoinsieme di T , o che S è incluso in T oppure che T contiene S. In simboli si scrive S ⊆ T ⇔ ∀x x ∈ S ⇒ x ∈ T . Nella precendente scrittura compaiono i simboli “⇔" (equivalenza), “⇒" (implicazione) e “∀". Se P e Q sono due proposizioni si scrive P ⇒ Q, e si 1 prerequisiti 2 legge “P implica Q", per indicare che Q è conseguenza di P, mentre si scrive P ⇔ Q, e si legge “P se e solo se Q", per indicare che P ⇒ Q e che Q ⇒ P. Invece il simbolo “∀" traduce la parola “per ogni" e si chiama quantificatore universale. Un altro simbolo di cui si farà uso è “∃" che si chiama quatificatore esistenziale e traduce in simbolo la parola “esiste"; talvolta il quantificatore esistenziale precederà un punto esclamativo “∃!" e in tal caso questo simbolo tradurrà la parola “esiste ed è unico". Chiaramente l’insieme vuoto ∅ è contenuto in ogni insieme, mentre qualsiasi sia l’insieme S è sempre vero che S ⊆ S. Quindi, detto insieme delle parti di S l’insieme P(S) = {X | X ⊆ S}, si ha che P(S) non è mai vuoto perchè ad esso appartengono sempre gli insiemi ∅ e S. Si osservi anche che S = T se e solo se S ⊆ T e T ⊆ S. Si dice che l’insieme S è contenuto propriamente nell’insieme T se S ⊆ T e S 6= T ; in tal caso si scrive S ⊂ T e si dice anche che S è una parte propria di T , o che è un sottoinsieme proprio di T . Infine, la scrittura S 6⊆ T indica che S non è contenuto in T . Siano S e T insiemi. Si dice intersezione di S e T l’insieme S ∩ T i cui elementi appartengono sia ad S che T ; in particolare, due insiemi la cui intesezione è l’insieme vuoto si dicono disgiunti. Si dice unione di S e T l’insieme S ∪ T i cui elementi sono in S oppure in T ; infine, si dice differenza di S e T l’insieme S \ T di tutti gli elementi che sono in S ma non in T . Quindi: S ∩ T = {x | x ∈ S e x ∈ T }, S ∪ T = {x | x ∈ S o x ∈ T } e S \ T = {x | x ∈ S e x 6∈ T }. Se S, T e V sono insiemi, alcune delle proprietà dell’unione e dell’intersezione sono qui di seguito elencate: (i) S ∩ S = S e S ∪ S = S (proprietà iterativa); (ii) S ∩ T = T ∩ S e S ∪ T = T ∪ S (proprietà commutativa); (iii) (S ∩ T ) ∩ V = S ∩ (T ∩ V) e (S ∪ T ) ∪ V = S ∪ (T ∪ V) (proprietà associativa); (iv) (S ∪ T ) ∩ V = (S ∩ V) ∪ (T ∩ V) (proprietà distributiva dell’intersezione rispetto all’unione); (v) (S ∩ T ) ∪ V = (S ∪ V) ∩ (T ∪ V) (proprietà distributiva dell’unione rispetto all’intersezione). Siano x ed y enti. Si dice coppia di prima coordinata x e di seconda coordinata y l’insieme (x, y) = {{x}, {x, y}} Sostanzialmente la coppia (x, y) indica un insieme in cui l’ordine degli elementi ha un peso, che è per questo differente dall’insieme {x, y}, e precisamente è un insieme in cui il “primo" elemento è x e il “secondo" elemento è y. E’ infatti semplice accorgersi che (x1 , y1 ) = (x2 , y2 ) ⇔ x1 = x2 e y1 = y2 1.1 cenni di teoria degli insiemi Il concetto di coppia si estende al concetto di terna (x, y, z), che potrebbe essere definita formalmente come la coppia di prima coordinata (x, y) e seconda coordinata z, e così via possono essere definite le quadruple, le quintuple, o più in generale le n-uple (con n > 2). In maniera informale possiamo dire che una n-upla è un insieme ordinato di n elementi (x1 , x2 , . . . , xn ) in cui x1 è il primo elemento, x2 è il secondo elemento, e così via xn è l’n-simo elemento, ed è inoltre un insieme che gode della seguente proprietà (x1 , x2 , . . . , xn ) = (y1 , y2 , . . . , yn ) ⇐⇒ x1 = y1 , x2 = y2 ,. . . , xn = yn . Se S e T sono due insiemi, si dice prodotto cartesiano di S e T l’insieme S × T = {(x, y) | x ∈ S e y ∈ T }; nel caso particolare in cui S = T invece che di prodotto cartesiano si parla di quadrato cartesiano e l’insieme S × S si denota anche con S2 . Si noti che (se anche S e T sono insiemi) S × T = S × T ⇔ S = S e T = T; (1) in particolare quindi S × T = T × S ⇔ S = T. Inoltre S × T = ∅ ⇔ S = ∅ oppure T = ∅. Esempio 1.1.1. Considerati gli insiemi S = {F, N} e T = {], [, \} si ha che S × T = {(F, ]), (F, [), (F, \), (N, ]), (N, [), (N, \)}. E’ abbastanza naturale estendere il concetto di prodotto cartesiano al caso di un numero arbitrario n > 2 di insiemi S1 , . . . , Sn , ponendo S1 × · · · × Sn = {(x1 , . . . , xn ) | xi ∈ Si ∀i = 1, . . . , n}; inoltre, in analogia col quadrato cartesiano, il simbolo Sn indicherà il prodotto cartesiano dell’insieme S per se stesso n volte. Anche in questo caso valgono le analoghe proprietà elencate in precedenza nel caso del prodotto cartesiano di due insiemi. Siano S e T insiemi non vuoti. Una corrispondenza di S in T è una coppia R = (S × T , G) dove G è un sottoinsieme dell’insieme S × T che viene detto grafico della corrispondenza; inoltre, un elemento x ∈ S si dice nella corrispondenza R con un elemento y ∈ T , e si scrive xRy, se risulta (x, y) ∈ G. Una corrispondenza di S in sé si dice relazione (binaria). Esempio 1.1.2. Considerati gli insiemi S = {F, N} e T = {], [, \}, una corrispondenza R di S in T si ottiene in corrispondenza della scelta dell’insieme {(F, \), (N, ]), (N, \)}: in questo caso si ha che FR\, NR] e NR\. 3 4 prerequisiti Si noti che in una corrispondenza è possibile che un elemento sia in corrispondenza con più elementi, così come in questo esempio accade per l’elemento N che è nella corrispondenza R sia con ] che con \. Si noti anche che la scelta dell’insieme vuoto come grafico definisce una corrispondenza in S × T , dunque in una corrispondenza è possibile pure che elementi di S non abbiano nessun corrispondente in T . Sia S un insieme non vuoto. Una relazione binaria R = (S × S, G) in S si dice relazione di equivalenza se è: (i) riflessiva: x R x per ogni x ∈ S; (ii) simmetrica: se x, y ∈ S sono tali che x R y allora y R x; (iii) transitiva: se x, y, z ∈ S sono tali che x R y e y R z allora x R z. Se R = (S × S, G) è una relazione di equivalenza ed x ∈ S, si dice classe di equivalenza di x modulo R il sottoinsieme degli elementi di S che sono nella relazione R con x, ossia [x]R = {y ∈ S | x R y}, e l’elemento x è detto rappresentante della classe di equivalenza [x]R . L’insieme S/R di tutte le classi di equivalenza modulo R si dice insieme quoziente di S modulo R. Si ha: • Per ogni x ∈ S risulta x ∈ [x]R ; in particolare, [x]R 6= ∅. • Se x, y ∈ e se [x]R 6= [y]R allora [x]R ∩ [y]R = ∅; mentre [x]R = [y]R se e soltanto se x R y. [ • S= [x]R . x∈S Le tre precedenti proprietà si possono riassumere dicendo che l’insieme quoziente S/R costituisce una partizione di S. Esempio 1.1.3. Se S è un insieme non vuoto, considerata la diagonale di S × S, ovvero l’insieme G = {(x, x) : x ∈ S}, la relazione identica in S ιS = (S × S, G) è una relazione di equivalenza, e per ogni x ∈ S risulta [x]ιS = {x}. Esempio 1.1.4. Si consideri la relazione binaria R in Q definita ponendo aRb se e solo se a − b ∈ Z. Tale relazione è 1) riflessiva: infatti a − a = 0 ∈ Z per ogni a ∈ Q; 2) simmetrica: se a, b ∈ Q e a − b ∈ Z allora b − a = −(a − b) ∈ Z, quindi se aRb anche bRa; 3) transitiva: se a, b, c ∈ Q sono tali che aRb e bRc allora a − b e b − c sono numeri interi relativi, dunque anche a − c = (a − b) + (b − c) ∈ Z e così aRc. 1.1 cenni di teoria degli insiemi Pertanto R è una relazione di equivalenza in Q e si ha, in particolare, che [0]R = {a ∈ Q | a − 0 ∈ Z} = Z. Esempio 1.1.5. Siano S = {a, b, c} e R = (S × S, G) dove G = {(a, a), (b, b), (a, c), (c, c), (c, a)}; è una relazione di equivalenza e si ha che [a]R = {a, c} = [c]R e [b]R = {b}. Esempio 1.1.6. Nell’insieme delle rette (del piano o dello spazio) della geometria elementare, la relazione k definita dalla posizione rks se e solo se r ed s sono coincidenti oppure parallele (si ricordi che due rette sono parallele se sono complanari e non incidenti), risulta essere una relazione di equivalenza; la classe di equivalenza [r]k di una retta r modulo k viene chiamata direzione della retta r. In conclusione a questo paragrafo, si vuole presentare un importante risultato di cui spesso si fa uso nelle dimostrazioni. Pur assumendo qui note le proprietà che caratterizzano l’insieme dei numeri naturali, si ricorda che se X è un sottoinsieme non vuoto di N, allora il minimo di X è l’elemento m di X tale che m 6 x per ogni x ∈ X. Principio di induzione: Sia X un insieme non vuoto di numeri naturali e si assuma che X abbia per minimo m. Se n + 1 ∈ X ogni qual volta anche n ∈ X, allora X = {n ∈ N | n > m}. Gli esempi che seguono mostrano come si applica il principio di induzione. Esempio 1.1.7. Si provi che per ogni numero naturale n > 1 risulta 1+2+···+n = n(n + 1) . 2 (2) Essendo 1(1 + 1) 2 la precedente identità è verificata per n = 1. Supponiamo che la (2) sia verificata per n e andiamo a vedere se è o meno verificata per n + 1. Essendo 1= 1 + 2 + · · · + n + (n + 1) = n(n + 1) (n + 1)(n + 2) + (n + 1) = 2 2 la (2) è vera anche per n + 1 e così, invocando il principio di induzione, possiamo concludere che l’identità (2) è soddisfatta da ogni numero naturale n > 1. In realtà per convicersi che si sta applicando effettivamente il principio di induzione si dovrebbe considerare l’insieme X di tutti i numeri naturali n per i quali l’identità (2) è verificata. L’argomento precedente prova che 1 ∈ X, e che n + 1 ∈ X se conosciamo che n ∈ X; pertanto essendo 1 il minimo di X possiamo concludere che X = N o in altre parole che la (2) è vera per ogni numero naturale n > 1. 5 6 prerequisiti Esempio 1.1.8. Si provi che se S è un insieme con n > 1 elementi, allora P(S) ha 2n elementi. Se S ha un solo elemento, allora P(S) = {∅, S} e quindi l’asserto è vero se n = 1. Sia quindi n > 1 e sia l’asserto sia vero per n. Supponiamo che S abbia n + 1 elementi. Fissato un elemento x di S, risulta S = {x} ∪ T dove T = S \ {x} è un insieme di n elementi; in particolare, l’ipotesi assicura che P(T ) ha 2n elementi. Evidentemente i sottoinsiemi di S o sono elementi di P(T ) o si ottengono come unione tra {x} ed un sottoinsieme di T , dunque in P(S) c’è il doppio degli elementi di P(T ) ovvero ci sono 2 · 2n = 2n+1 elementi. Possiamo pertanto applicare il principio di induzione, e concludere che l’asserto è vero per ogni n ∈ N. 1.2 applicazioni tra insiemi Considerati due insiemi non vuoti S e T , un’applicazione (o funzione) f di S in T è una corrispondenza f = (S × T , G) tale che per ogni elemento x ∈ S esiste un unico elemento y ∈ T per cui (x, y) ∈ G; in tal caso si usa scrivere f : S → T , inoltre l’insieme S si dice dominio, l’insieme T si dice codominio, l’insieme G si dice grafico e, per ogni x in S, l’unico elemento y di T per cui (x, y) ∈ G si denota col simbolo f(x) e si dice immagine di x mediante f (talvolta si dice pure che y corrisponde ad x rispetto ad f). Con queste notazioni, quindi, risulta G = {(x, f(x)) | x ∈ S}; inoltre si scrive pure f : x ∈ S → f(x) ∈ T . Si noti che se U è una parte non vuota di S, la posizione fU : x ∈ U → f(x) ∈ T definisce ancora un’applicazione che si dice applicazione indotta da f su U o anche restrizione di f ad U. Se X ⊆ S si dice immagine di X mediante f il sottoinsieme di T f(X) = {f(x) | x ∈ X}; in particolare, si pone Im f = f(S) e si parla semplicemente di immagine di f. Se invece Y ⊆ T , si dice antiimagine (o controimmagine) di Y mediante f il sottoinsieme di S f−1 (Y) = {x ∈ S | f(x) ∈ Y}. Tra tutte le applicazioni di un insieme non vuoto S in sè, una che spesso incontreremo è l’applicazione identica ovvero l’applicazione ιS : x ∈ S → x ∈ S. Esempio 1.2.1. Se S = {201, 5, 73}, T = {a, b} e G = {(201, a), (5, a), (73, a)} allora è semplice accorgersi che f = (S × T , G) è un’applicazione, così com’è evidente che gli insiemi {(5, a), (73, b)} e {(201, a), (5, a), (5, b), (73, a)} non possono essere il grafico di nessuna applicazione di S in T , il primo perchè non contiene nessuna coppia di prima coordinata 201, il secondo perchè contiene due coppie distinte di prima coordinata 5. Inoltre, ad esempio, se X = {201, 5} allora f(X) = {a}, mentre se Y = {b} allora f−1 (Y) = ∅. 1.2 applicazioni tra insiemi Si osservi che se f = (S × T , G) e g = (S × T , G) sono due applicazioni, allora f = g se e solo se le coppie (S × T , G) e (S × T , G) coincidono, e quindi se e soltanto se S × T = S × T e G = G. Pertanto, ricordando la (1), si può concludere che due applicazioni coincidono se e solo se hanno stesso dominio, stesso codominio e stesso grafico. Un’applicazione f : S → T si dice: - Iniettiva: se elementi distinti del dominio hanno immagini distinte, il che equivale a richiedere che se f(x) = f(y) allora x = y. - Suriettiva: se ogni elemento del codominio è immagine di qualche elemento del dominio; in simboli, ∀y ∈ T ∃x ∈ S tale che f(x) = y. - Biettiva: se è sia iniettiva che suriettiva e quindi se ∀y ∈ T ∃!x ∈ S tale che f(x) = y. Un’applicazione biettiva di un insieme non vuoto S in sé è detta anche permutazione di S. Si noti che l’applicazione identica è banalmente biettiva e dunque è una permutazione. Esempio 1.2.2. Nell’insieme Z dei numeri interi relativi, l’applicazione definita dalla posizione f(x) = x2 non è né iniettiva, perchè f(x) = f(−x), né suriettiva, perchè i numeri negativi non sono immagine di alcun elemento di Z mediante f; invece l’applicazione definita dalla posizione g(x) = 2x è evidentemente iniettiva ma non è suriettiva, perchè i numeri dispari non sono immagine mediante g di alcun numero intero. Ancora, sempre in Z, l’applicazione definita da h(x) = x + 1 è biettiva ed infine k(x) = x se x è positivo o nullo x + 1 se x è negativo è evidentemente suriettiva ma non è iniettiva essendo k(0) = 0 = k(−1). Siano S, T ed U insiemi non vuoti e siano f : S → T e g : T → U applicazioni. Se x ∈ S allora f(x) ∈ T ed ha senso valutare g(f(x)), è possibile quindi definire un’applicazione g ◦ f : S → U mediante la posizione (g ◦ f)(x) = g(f(x)) per ogni x ∈ S. L’applicazione g ◦ f si dice applicazione composta di f e g. E’ opportuno sottolineare che, affinchè si possano comporre due applicazioni, il codomio di quella più a destra deve coincidere con (o almeno essere contenuto in) quello dell’applicazione più a sinistra. Esempio 1.2.3. Riferendoci alle applicazioni di Z in sè dell’esempio 1.2.2, si ha che (g ◦ h)(x) = g(h(x)) = g(x + 1) = 2(x + 1) = 2x + 2 mentre (h ◦ g)(x) = h(g(x)) = h(2x) = 2x + 1. Si noti che l’esempio 1.2.3 prova che la composizione di applicazioni non gode della proprietà commutativa, ovvero in generale si ha che f ◦ g 6= g ◦ f; invece, quando possibile, la composizione di applicazioni gode della proprietà associativa ovvero se f, g ed h sono tre applicazioni di cui è possibile considerarne le composte, risulta (f ◦ g) ◦ h = f ◦ (g ◦ h), 7 8 prerequisiti infatti, (f ◦ g) ◦ h e f ◦ (g ◦ h) hanno stesso dominio e codominio, ed inoltre qualsiasi sia l’elemento x nel dominio di h risulta ((f ◦ g) ◦ h)(x) = (f ◦ g)(h(x)) = f(g(h(x))) = f((g ◦ h)(x)) = (f ◦ (g ◦ h))(x). Un’applicazione f : S → T si dice invertibile quando esiste un’applicazione g : T → S tale che f ◦ g = ιT e g ◦ f = ιS ; in tal caso è semplice accorgersi che una tale applicazione g è unica, infatti se h : T → S è anch’essa tale da essere f ◦ h = ιT e h ◦ f = ιS si ha che h = h ◦ ιT = h ◦ (f ◦ g) = (h ◦ f) ◦ g = ιS ◦ g = g. Dunque una tale applicazione g se esiste è unica; essa viene detta applicazione inversa di f e si usa denotarla col simbolo f−1 . Evidentemente è sempre invertibile, e coincide con la sua inversa, l’applicazione identica. Esempio 1.2.4. L’applicazione h(x) = x + 1 di Z in sé, considerata nell’esempio 1.2.2, è invertibile e ha per inversa h−1 : x ∈ Z → x − 1 ∈ Z. Proposizione 1.2.5. Siano S e T insiemi non vuoti e sia f : S → T un’applicazione. Allora f è invertibile se e soltanto se f è biettiva. Dimostrazione. Sia f invertibile e sia g : T → S tale che f ◦ g = ιT e g ◦ f = ιS . Allora per ogni y ∈ T si ha che y = f(g(y)) con g(y) ∈ S e quindi f è suriettiva, inoltre se f(x) = f(x0 ) allora risulta x = g(f(x)) = g(f(x0 )) = x0 sicchè f è anche iniettiva e quindi è biettiva. Viceversa, supponiamo che f sia biettiva. Allora per ogni y ∈ T esiste un unico xy ∈ S tale che y = f(xy ), così la posizione g(y) = xy definisce un’applicazione g : T → S. Se y ∈ T allora f(g(y)) = f(xy ) = y e quindi f ◦ g = ιT . D’altra parte se x ∈ S risulta g(f(x)) = xf(x) = x essendo f iniettiva e f(xf(x) ) = f(x), così g ◦ f = ιS . Pertanto f è invertibile. Se f : S −→ T è un’applicazione biettiva tra gli insiemi non vuoti S e T si ha quindi che f è invertibile. Evidentemente, anche la sua inversa f−1 è invertibile e ha per inversa proprio f; in particolare anche f−1 è biettiva. Dunque se esiste un’applicazione biettiva di S in T allora ne esiste anche una di T in S. Due insiemi non vuoti S e T si dicono equipotenti se esiste un’applicazione biettiva di S in T (o di T in S). 1.3 gruppi, anelli e campi Siano A ed S insiemi non vuoti. Un’operazione esterna ad S con dominio di operatori in A è un’applicazione ⊥ : A × S −→ S. Se a ∈ A e x ∈ S, l’immagine ⊥(a, x) della coppia (a, x) mediante ⊥ si denota col simbolo a⊥x (e si legge a composto x). Nel caso particolare in cui è A = S, si parla di operazione interna ad S, o semplicemente di operazione in S. Se ⊥ : S × S −→ S è un’operazione interna ad S, si dice che: - ⊥ è associativa se ∀x, y, z ∈ S risulta (x⊥y)⊥z = x⊥(y⊥z), - ⊥ è commutativa se ∀x, y ∈ S risulta x⊥y = y⊥x. 1.3 gruppi, anelli e campi Se poi ∗ è un’altra operazione interna ad S si dice che - ∗ è distributiva rispetto a ⊥ se comunque presi x, y, z ∈ S si ha che (x⊥y) ∗ z = (x ∗ z)⊥(y ∗ z) e z ∗ (x⊥y) = (z ∗ x)⊥(z ∗ y). Esempio 1.3.1. Se S è un qualsiasi insieme e P(S) è l’insieme delle parti di S, le applicazioni ∩ : (X, Y) ∈ P(S) × P(S) −→ X ∩ Y ∈ P(S) e ∪ : (X, Y) ∈ P(S) × P(S) −→ X ∪ Y ∈ P(S) sono operazioni in P(S) e sono associative, commutative e ciascuna è distributiva rispetto all’altra. Sia S un insieme non vuoto, e siano ⊥1 , . . . , ⊥n operazioni in S, alcune delle quali eventualmente esterne. La (n + 1)-upla (S, ⊥1 , . . . , ⊥n ) si chiama struttura algebrica ad n operazioni in S, e l’insieme S si dice sostegno della struttura algebrica. Quando non da luogo ad equivoco, la struttura algebrica si identifica col solo sostegno. Siano S un insieme non vuoto e ⊥ un’operazione in S. Una parte non vuota X di S si dice stabile (o anche chiusa) rispetto all’operazione ⊥ se risulta x⊥y ∈ X qualsiasi siano gli elementi x ed y di X; in tal caso, l’applicazione indotta ⊥X : (x, y) ∈ X × X −→ x⊥y ∈ X è un’operazione interna ad X che si dice indotta da ⊥ su X. Con abuso di notazione, l’operazione ⊥X spesso si denota con lo stesso simbolo ⊥ utilizzato per l’operazione in S. Chiaramente le operazioni indotte da operazioni associative (rispettivamente, commutative) sono associative (rispettivamente, commutative). Analogamente, se ⊥ : A × S −→ S è un’operazione esterna ad S con dominio di operatori in A, una parte A-stabile di S è un sottoinsieme X di S tale che a⊥x ∈ X per ogni a ∈ A e per ogni x ∈ X; in tal caso ⊥X : (a, x) ∈ A × X −→ a⊥x ∈ X è un’operazione esterna ad X con dominio di operatori in A che spesso si denota ancora col simbolo ⊥. Una struttura algebrica (S, ⊥), dove ⊥ è un’operazione interna nell’insieme non vuoto S, si dice monoide se ⊥ è associativa ed esiste un elemento neutro, ovvero un elemento u ∈ S tale che x ⊥ u = x = u ⊥ x per ogni x ∈ S. Si noti che se S è un monoide allora l’elemento neutro è unico, infatti se u0 fosse un altro elemento neutro si avrebbe u = u ⊥ u0 = u0 . Un elemento x di un monoide (S, ⊥) si dice simmetrizzabile se esiste un elemento x 0 in S, che viene detto simmetrico (rispetto a ⊥), tale che x ⊥ x0 = u = x0 ⊥ x (qui u denota l’elemento neutro di S). Si noti che se l’elemento x è simmetrizzabile allora il simmetrico è unico, infatti se x0 e x00 sono entrambi simmetrici di x, si ha x0 = x0 ⊥ u = x0 ⊥ (x ⊥ x00 ) = (x0 ⊥ x) ⊥ x00 = u ⊥ x00 = x00 . 9 10 prerequisiti Esempio 1.3.2. Se S è un insieme, la struttura algebrica (P(S), ∪) è un monoide commutativo il cui elemento neutro è l’insieme vuoto, ma nessun elemento diverso dal vuoto è simmetrizzabile. Così come anche (P(S), ∩) è un monoide commutativo di elemento neutro l’insieme S e in cui nessun elemento diverso da S è simmetrizzabile. Una struttura algebrica (G, ⊥), dove ⊥ è un’operazione interna nell’insieme non vuoto G, si dice gruppo se ⊥ è associativa, dotata di elemento neutro e se ogni elemento di G è simmetrizzabile rispetto a ⊥ (quindi se G è un monoide in cui ogni elemento è simmetrizzabile). Un gruppo (G, ⊥) si dice poi abeliano se ⊥ gode anche della proprietà commutativa. Per un gruppo sussiste la seguente: Proposizione 1.3.3. Sia G un gruppo e siano a e b due elementi di G. Allora esite un unico elemento x di G tale che a ⊥ x = b, ed esiste un unico elemento y di G tale che y ⊥ a = b. Dimostrazione. Sia a0 il simmetrico di a rispetto a ⊥. Allora, denotato con u l’elemento neutro del gruppo, si ha che b = u ⊥ b = (a ⊥ a0 ) ⊥ b = a ⊥ (a0 ⊥ b); d’altra parte se c è un elemento di G tale che a ⊥ c = b, si ha c = u ⊥ c = (a0 ⊥ a) ⊥ c = a0 ⊥ (a ⊥ c) = a0 ⊥ b. L’altro caso si prova in modo analogo e quindi si omette. Sia G un gruppo e siano x, y ed a elementi di G. Dalla proposizione 1.3.3 segue che se a ⊥ x = a ⊥ y allora x = y (e si dice che a è “cancellabile a sinistra”), così come se x ⊥ a = y ⊥ a allora x = y (ovvero a è anche “cancellabile a destra”). Questa proprietà si esprime dicendo che l’operazione è regolare o anche che vale la “legge di cancellazione”. Quindi in un gruppo l’operazione è sempre regolare. In un gruppo (non abeliano), in genere, si usa denotare l’operazione moltiplicativamente, cioè col simbolo di prodotto ·, in tal caso l’unità si denota col simbolo 1 e il simmetrico di un elemento x si indica con x−1 e si dice pure inverso. Nel caso di gruppi abeliani invece è solita la notazione additiva, cioè l’operazione si denota col simbolo di somma +, in tal caso l’unità si denota col simbolo 0 e si dice zero, il simmetrico di un elemento x si dice opposto e si denota col simbolo −x ed inoltre in luogo di x + (−y) si usa scrivere x − y. Esempio 1.3.4. Sono gruppi abeliani (Z, +), (Q, +), (R, +), dove + denota la somma ordinaria, ed anche (Q \ {0}, ·) ed (R \ {0}, ·), dove · denota il prodotto ordinario. Invece (N, +) non è un gruppo, perché 0 l’unico elemento dotato di opposto. Si noti pure che, sebbene rispetto alla somma non sia un gruppo, in N la somma è regolare. In particolare, in un gruppo l’operazione è sempre regolare, ma un’operazione può essere regolare pur non rendendo una struttura algebrica un gruppo. Ancora, non sono gruppi nè Z nè Z \ {0} rispetto all’operazione di prodotto ordinario, perchè 1 è l’unico elemento invertibile. 1.3 gruppi, anelli e campi Esempio 1.3.5. Considerato un insieme non vuoto S sia Sym(S) l’insieme delle permutazioni su S. La composizione di applicazioni definisce evidentemente un’operazione interna in Sym(S) che, per quanto osservato in precendenza, è associativa; inoltre è evidente che la permutazione identica è unità e che ogni permutazione f ha per simmetrico f−1 . Dunque Sym(S) è un gruppo. In generale, Sym(S) è non abeliano. Infatti, supposto che S contenga (almeno) tre elementi distinti a, b e c e considerate in S le applicazioni definite dalle seguenti posizioni: a se x = b b se x = a f(x) = x se x ∈ S \ {a, b} e a se x = c c se x = a g(x) = x se x ∈ S \ {a, c} è facile accorgersi che sia f che g sono permutazioni su S e che risulta f(g(c)) = f(a) = b e g(f(c)) = g(c) = a, dunque f ◦ g 6= g ◦ f. Supponiamo ora di avere un insieme non vuoto R su cui sono definite due operazioni interne, che denotiamo con + e ·. La struttura algebrica (R, +, ·) si dice anello se: 1R (R, +) è un gruppo abeliano. 2R · gode della proprietà associativa, ovvero (x · y) · z = x · (y · z) per ogni x, y, z ∈ R. 3R · gode della proprietà distributiva rispetto a + ovvero se per ogni x, y e z in R risulta (x + y) · z = xz + yz e x · (y + z) = xy + xz. L’anello R si dice poi commutativo se l’operazione di prodotto gode anche della proprietà commutativa (ossia x · y = y · x per ogni x, y ∈ R), si dice invece unitario se anche il prodotto ha un elemento neutro ovvero se esiste un elemento, che solitamente è detto unità e si denota col simbolo 1, tale che 1 · x = x = x · 1 per ogni x ∈ R. Un anello commutativo unitario R si dice campo se ogni elemento non nullo è invertibile (ovvero dotato di simmetrico rispetto al prodotto) e quindi se per ogni x ∈ R esiste in R un elemento, che si denota con x−1 , tale che xx−1 = 1 = x−1 x. Spesso nel seguito si userà la lettera K per denotare un campo. Esempio 1.3.6. Evidentemente la somma e il prodotto ordinario rendono l’insieme Z dei numeri interi relativi un anello commutativo unitario; mentre somma e prodotto unitario rendono un campo sia l’insieme Q dei numeri razionali che l’insieme R dei numeri reali. Proposizione 1.3.7. Sia K un campo. Si ha: (i) Per ogni elemento a di K risulta a · 0 = 0. (ii) Se a, b ∈ K risulta (−a)b = −(ab) = a(−b). (iii) Se a, b ∈ K con a 6= 0, allora da ab = 0 segue b = 0. 11 prerequisiti 12 Dimostrazione. Se a ∈ K, usando le proprietà di anello valide in K si ha: a0 = a(0 + 0) = a0 + a0 e a0 = a0 + 0 quindi a0 = 0 per la proposizione 1.3.3 e la (i) è provata. Per provare la (ii) si noti che 0 = a0 = a(b − b) = ab + a(−b) e 0 = ab + (−(ab)) quindi sempre la proposizione 1.3.3 assicura che −(ab) = a(−b). In modo simile si ha pure che −(ab) = (−a)b. Infine per provare la (iii) si noti che essendo a 6= 0 esiste l’inverso a−1 di a e risulta b = 1b = (a−1 a)b = a−1 (ab) = a−1 0 = 0 come si voleva. Si noti che, nella precendete, per le condizioni (i) e (ii) non serve che K sia un campo, ma basta che K sia un anello; invece per la (iii) è essenziale che K sia un campo e questa condizione è anche detta “legge di annullamento del prodotto”. Esempio 1.3.8. Esistono campi il cui sostegno è un insieme con un numero finito di elementi. Giusto per citarne uno, ma senza soffermarci nella verifica che effettivamente questo sia un campo, si consideri un insieme K formato da due elementi qualsiasi, ad esempio K = {, 4}; se in questo insieme defininamo due operazioni interne ponendo + = , + 4 = 4, 4 + = 4, 4+4 = e · = , · 4 = , 4 · = , 4·4 = 4 si ottiene che (K, +, ·) è un campo e risulta, in particolare, 0 = e 1 = 4 (quindi in K si ha che 1 + 1 = 0). 2 2.1 S PA Z I V E T T O R I A L I spazi vettoriali su un campo Siano (V, +) un gruppo abeliano, (K, +, ·) un campo e ⊥ : (λ, v) ∈ K × V −→ λ⊥v ∈ V un’operazione esterna in V con dominio di operatori in K. La struttura algebrica (V, +, ⊥) si dice uno spazio vettoriale su K (o un K-spazio vettoriale) se qualsiasi siano gli elementi λ, µ ∈ K e u, v ∈ V risulta: 1V λ⊥(u + v) = (λ⊥u) + (λ⊥v); 2V (λ + µ)⊥v = (λ⊥v) + (µ⊥v); 3V λ⊥(µ⊥v) = (λµ)⊥v; 4V 1⊥v = v. In tal caso, gli elementi di V si dicono vettori e quelli di K scalari. Nel seguito l’operazione esterna ⊥ sarà denotata moltiplicativamente; inoltre, salvo avviso contrario, si parlerà semplicemente di spazio vettoriale ritenendo fissato il campo K. Proposizione 2.1.1. Sia V uno spazio vettoriale. Se λ e µ sono elementi di K ed u e v sono elementi di V, risulta: (i) λv = 0 se e solo se λ = 0 oppure v = 0; (ii) λ(−v) = (−λ)v = −(λv); (iii) (λ − µ)v = λv − µv; (iv) λ(u − v) = λu − λv. Dimostrazione. (i) Usando la condizione 2V della definizione, si ha 0v = (0 + 0)v = 0v + 0v da cui 0v = 0 per la regolarità della somma; mentre usando la condizione 1V della definizione si ha λ0 = λ(0 + 0) = λ0 + λ0 da cui λ0 = 0 sempre per la regolarità della somma. Viceversa, se λv = 0 e λ 6= 0 allora dalle condizioni 3V e 4V della definzione segue v = 1v = (λ−1 λ)v = λ−1 (λv) = λ−1 0 e quindi la prima parte della dimostrazione garantisce che v = 0. (ii) Dalla (i) e dalla condizione 1V della definizione, segue che 0 = λ0 = λ(v + (−v)) = λv + λ(−v) 13 spazi vettoriali 14 sicchè λ(−v) = −(λv); d’altra parte sempre la (i) e questa volta la condizione 2V della definizione assicurano che 0 = 0v = (λ + (−λ))v = λv + (−λ)v sicchè (−λ)v = −(λv). (iii) Usando la condizione 2V della definzione, come conseguenza della (ii) si ha che (λ − µ)v = λv + (−µ)v) = λv − µv. (iv) Dalla condizione 1V della definizione e dalla (ii) segue che λ(u − v) = λu + λ(−v) = λu − λv. Esempio 2.1.2. Sia K un campo e si consideri l’insieme Kn = {(x1 , . . . , xn ) | x1 , . . . , xn ∈ K} di tutte le n-uple di elementi di K. Gli elementi di Kn si dicono pure vettori numerici. In Kn è possibile definire un’operazione interna + ponendo (x1 , . . . , xn ) + (y1 , . . . , yn ) = (x1 + y1 , . . . , xn + yn ) (3) comunque si considerino gli elementi (x1 , . . . , xn ) e (y1 , . . . , yn ) di Kn ; si noti che le somme che compaiono nella n-upla al secondo membro della precedente posizione rappresenta la somma tra elementi di K. Le proprietà della somma di K permettono di provare analoghe proprietà per questa somma ora definita. Comunque si considerano gli elementi (x1 , . . . , xn ), (y1 , . . . , yn ) e (z1 , . . . , zn ) di Kn , dalla associatività della somma in K segue l’associatività della somma in Kn : [(x1 , . . . , xn ) + (y1 , . . . , yn )] + (z1 , . . . , zn ) = = (x1 + y1 , . . . , xn + yn ) + (z1 , . . . , zn ) = = ((x1 + y1 ) + z1 , . . . , (xn + yn ) + zn ) = = (x1 + (y1 + z1 ), . . . , xn + (yn + zn )) = = (x1 , . . . , xn ) + (y1 + z1 , . . . , xn + zn ) = = (x1 , . . . , xn ) + [(y1 , . . . , yn ) + (z1 , . . . , zn )] e analogamente la commutatività della somma tra elementi di K consente di stabilire che (x1 , . . . , xn ) + (y1 , . . . , yn ) = (y1 , . . . , yn ) + (x1 , . . . , xn ) cioè anche la somma tra elementi di Kn è commutativa. Evidentemente poi (x1 , . . . , xn ) + (0, . . . , 0) = (x1 , . . . , xn ) = (0, . . . , 0) + (x1 , . . . , xn ) e (x1 , . . . , xn ) + (−x1 , . . . , −xn ) = (0, . . . , 0) = (−x1 , . . . , −xn ) + (x1 , . . . , xn ) In definitiva, la somma definita in (3) rende Kn un gruppo abeliano in cui l’elemento neutro è 0 = (0, . . . , 0) e in cui −(x1 , . . . , xn ) = (−x1 , . . . , −xn ) 2.1 spazi vettoriali su un campo In Kn andiamo a definire anche un’operazione esterna con dominio di operatori in K, ponendo λ · (x1 , . . . , xn ) = (λx1 , . . . , λxn ) per ogni λ ∈ K e per ogni (x1 , . . . , xn ) ∈ Kn ; evidentemente anche qui i prodotti che compaiono nella n-upla al secondo membro della precente identità rappresentano il prodotto tra elementi di K, inoltre nel seguito il prodotto in Kn verrà indicato per giustapposizione ovvero si scriverà semplicemente λ(x1 , . . . , xn ) in luogo di λ · (x1 , . . . , xn ). Comunque si considerano gli elementi (x1 , . . . , xn ), (y1 , . . . , yn ) e (z1 , . . . , zn ) di Kn e gli elementi λ, µ ∈ K, è facile accorgersi che dalla proprietà distributiva del prodotto rispetto alla somma valida tra elementi di K segue: 1. λ[(x1 , . . . , xn ) + (y1 , . . . , yn )] = λ(x1 , . . . , xn ) + λ(y1 , . . . , yn ); 2. (λ + µ)(x1 , . . . , xn ) = λ(x1 , . . . , xn ) + µ(x1 , . . . , xn ); inoltre l’associatività del prodotto tra elementi di K assicura che 3. (λµ)(x1 , . . . , xn ) = λ[µ(x1 , . . . , xn )]; ed infine è evidente che 4. 1(x1 , . . . , xn ) = (x1 , . . . , xn ). Pertanto la struttura algebrica (Kn , +, ·) è uno spazio vettoriale detto spazio vettoriale numerico su K e gli elementi di Kn si dicono pure vettori numerici. Si noti esplicitamente che K = K1 e le operazioni di somma e prodotto qui definite concidono con le operazioni di somma e prodotto che rendono K un campo. Esempio 2.1.3. Siano K un campo e K[x] l’insieme dei polinomi a coefficienti in K (qui per semplicità, così da ritrovare in K[x] un insieme già noto, si può pensare a K come al campo dei numeri razionali o al campo dei numeri reali); allora K[x] è un altro esempio di spazio vettoriale su K. Infatti, l’usuale operazione di addizione tra polinomi rende K[x] un gruppo abeliano ed inoltre, considerati il generico polinomio a0 + a1 x + · · · + an xn a coefficienti in K e λ ∈ K, la posizione λ · (a0 + a1 x + · · · + an xn ) = λa0 + λa1 x + · · · + λan xn definisce un’operazione esterna in K[x] con dominio di operatori in K e la struttura algebrica (K[x], +, ·) è un K-spazio vettoriale. Esempio 2.1.4. Sia K un campo. Una matrice A (di tipo) m × n sul campo K è una tabella ad m righe ed n colonne di elementi di K (per una definizione formale si veda il successivo paragrafo 3.1); indicando il generico elemento di A che si trova sulla i-ma riga e j-ma colonna col simbolo aij , si scrive poi A= a11 a21 .. . a12 a22 .. . ... ... .. . a1n a2n .. . am1 am2 ... amn , 15 16 spazi vettoriali o in modo compatto A = (aij ). L’insieme di tutte le matrici m × n su K si denota con Mm,n (K). Nell’insieme Mm,n (K) si definisce un’operazione interna di somma ponendo (aij ) + (bij ) = (aij + bij ). E’ facile accorgersi che con l’operazione così definita Mm,n (K) è un gruppo abeliano in cui lo zero è la matrice nulla O (cioè la matrice O = (oij ) i cui elementi oij sono tutti uguali allo zero 0 del campo K), e in cui l’opposto della matrice (aij ) è la matrice −(aij ) = (−aij ). Se λ ∈ K e A = (aij ) ∈ Mm,n (K), è possibile poi definire un’operazione esterna di prodotto della matrice A per lo scalare λ ponendo λA = (λaij ) di Mm,n (K). E’ semplice accorgersi che la struttura algebrica (Mm,n (K), +, ·) è un K-spazio vettoriale. Esempio 2.1.5. Siano V uno spazio vettoriale su un campo K ed S un insieme non vuoto qualsiasi. Si denoti con V S l’insieme di tutte le applicazioni con dominio S e codominio V. Se f, g ∈ V S e λ ∈ K, siano f + g e λf le applicazioni di S in V definite rispettivamente dalle posizioni (f + g)(x) = f(x) + g(x) e (λ · f)(x) = λf(x) ∀x ∈ S. Si definisce così un’operazione interna + in V S ed un’operazione esterna · in V S con dominio di operatori in K, rispetto alle quali è semplice accorgersi che V S risulta essere uno spazio vettoriale su K. In particolare, quindi, l’insieme KK di tutte le applicazioni di K in sé è dotato di una struttura di K-spazio vettoriale. 2.2 sottospazi Sia V uno spazio vettoriale. Una parte W di V si dice K-sottospazio vettoriale di V, o semplicemente sottospazio vettoriale di V, e si scrive W 6 V, se: 1S W 6= ∅; 2S per ogni u, v ∈ W risulta u + v ∈ W (cioè W è stabile rispetto alla somma di V); 3S per ogni u ∈ W e per ogni λ ∈ K risulta λu ∈ W (cioè W è stabile rispetto al prodotto esterno di V). In tal caso, le operazioni definite in V inducono delle operazioni in W rispetto alle quali anche W è uno spazio vettoriale; inoltre considerato un qualsiasi elemento w di W si ha che 0w = 0 ∈ W e per ogni v ∈ W è −v = (−1)v ∈ W (cfr. proposizione 2.1.1) . Chiaramente, V e {0} sono sottospazi di V detti banali. In particolare, {0} è detto sottospazio nullo, mentre i sottospazi di V diversi da V sono detti sottospazi propri. E’ semplice inoltre accorgersi che W 6 V se e solo se ∀ u, v ∈ W e ∀ λ, µ ∈ K risulta λu + µv ∈ W. 2.2 sottospazi Esempio 2.2.1. Nello spazio vettoriale numerico R3 , il sottoinsieme X = {(x, y, z) ∈ R3 | y = 0} è un sottospazio. Infatti, se (x1 , 0, z1 ) e (x2 , 0, z2 ) sono elementi di X e λ, µ ∈ R allora λ(x1 , 0, z1 ) + µ(x2 , 0, z2 ) = (λx1 + µx2 , 0, λz1 + µz2 ) ∈ X. Invece Y = {(x, y, z) ∈ R3 | x > 0} non è un sottospazio di R3 perchè esso non è stabile rispetto all’operazione esterna, infatti (1, 1, 1) ∈ Y mentre invece (−1) · (1, 1, 1) 6∈ Y. Esempio 2.2.2. Se K è un campo e n ∈ N, l’insieme Kn [x] dei polinomi di grado al più n è un sottospazio di K[x], infatti se si considerano due polinomi f = a0 + a1 x + · · · + an xn e g = b0 + b1 x + · · · + bn xn di grado al più n, comunque si scelgano λ, µ ∈ K si ha che λf + µg = (λa0 + µb0 ) + (λa1 + µb1 )x + · · · + (λan + µbn )xn è ancora un polinomio di Kn [x]. Esempio 2.2.3. Consideriamo lo spazio vettoriale Mn (K) delle matrici quadrate di ordine n sul campo K e il suo sottoinsieme di tutte le matrici simmetriche: S = {A ∈ Mn (K) : At = A}. Se A, B ∈ S e λ ∈ K si ha subito che (A + B)t = At + Bt = A + B e (λA)t = λAt = λA. Dunque S è un sottospazio vettoriale. Esempio 2.2.4. Siano k ∈ N0 ed I un intervallo di R. Nell’ R-spazio vettoriale RI di tutte le applicazioni di I in R, un esempio di sottospazio vettoriale è dato dall’insieme Ck (I) di tutte le applicazioni di I in R per le quali esistono tutte le derivate fino al k-esimo ordine, e tali derivate sono applicazioni continue. Un altro esempio di sottospazio è l’insieme C∞ (I) di tutte le applicazioni di I in R dotate di derivata continua di ogni ordine. E’ inoltre semplice accorgersi che, fissata una parte non vuota X di I, l’insieme {f ∈ RI | f(x) = 0 ∀x ∈ X} è un sottospazio mentre {f ∈ RI | f(x) ∈ Q ∀x ∈ I} non è un sottospazio. Esempio 2.2.5. Nello spazio vettoriale numerico R2 , considerando i sottospazi X = {(t, 2t) | t ∈ R} e Y = {(t, t) | t ∈ R}, si ha che (1, 2) ∈ X e (1, 1) ∈ Y ma (2, 3) = (1, 2) + (1, 1) non appartiene a X ∪ Y, sicchè X ∪ Y non è stabile rispetto alla somma e quindi non è un sottospazio di R2 . In generale, quindi, come l’esempio precedente mostra, l’unione di sottospazi può non essere un sottospazio. Differente è il caso dell’intersezione di sottospazi. 17 18 spazi vettoriali Proposizione 2.2.6. Sia V uno spazio vettoriale e siano W1 , . . . , Wn sottospazi di V. Allora W1 ∩ · · · ∩ Wn è un sottospazio di V. Dimostrazione. Poichè il vettore nullo è in ogni sottospazio, si ha che il vettore nullo è in W1 ∩ · · · ∩ Wn e quindi W1 ∩ · · · ∩ Wn 6= ∅. Ora, se λ, µ ∈ K e u, v ∈ W1 ∩ · · · ∩ Wn , allora u e v ∈ Wi per ogni i = 1, . . . , n, conseguentemente anche λu + µv ∈ Wi per ogni i = 1, . . . , n e quindi λu + µv è in W1 ∩ · · · ∩ Wn . Pertanto W1 ∩ · · · ∩ Wn è un sottospazio di V. Sia V uno spazio vettoriale. Una combinazione lineare di v1 , . . . , vn ∈ V è una somma del tipo λ1 v1 + · · · + λn vn dove λ1 , . . . , λn ∈ K sono degli scalari detti coefficienti della combinazione lineare. Considerata poi una parte non vuota X di V, sia L[X] il sottoinsieme di V i cui elementi sono le combinazioni lineari, a coefficienti in K, dei vettori che sono in X: L[X] = {λ1 x1 + · · · + λn xn | n ∈ N; λ1 , . . . , λn ∈ K; x1 , . . . , xn ∈ X}. Proposizione 2.2.7. Siano V uno spazio vettoriale e X una parte non vuota di V. Allora (i) L[X] è un sottospazio di V che contiene X; (ii) Se W è un sottospazio di V che contiene X, allora W contiene anche L[X]. Dimostrazione. Evidentemente X è contenuto in L[X] ed inoltre L[X] è un sottospazio di V perchè se u, v ∈ L[X], allora u e v sono combinazioni lineari di elementi di X e, se λ, µ ∈ K, anche λu + µv è combinazione lineare di elementi di X e pertanto è un elemento di L[X]. Se poi W è un sottospazio di V che contiene X, allora W deve contenere tutte le combinazioni lineari di elementi di X e pertanto L[X] è contenuto in W. Se X è una parte non vuota di V, la proposizione 2.2.7 assicura che L[X] è un sottospazio di V e che tra i sottospazi di V esso è il “più piccolo” (rispetto all’inclusione) a contenere X. Il sottospazio L[X] si dice sottospazio di V generato da X. Evidentemente, se X è un sottospazio di V risulta L[X] = X. Inoltre se X = {x1 , . . . , xn } è una parte finita di V, allora il sottospazio generato da X si denota anche con L[x1 , . . . , xn ]. La precedente definizione si estende anche al caso in cui X sia l’insieme vuoto ponendo L[∅] = {0}. Se V è uno spazio vettoriale e W1 , W2 , . . . , Wn sono sottospazi di V, si dice sottospazio somma di W1 , W2 , . . . , Wn il sottospazio W1 + W2 + · · · + Wn = L[W1 ∪ W2 ∪ · · · ∪ Wn ]. Come semplice conseguenza dalla definizione di spazio generato da una parte, si ha che lo spazio somma è l’insieme di tutte le somme del tipo w1 + w2 + · · · + wn con ogni wi elemento del rispettivo Wi : W1 + W2 + · · · + Wn = {w1 + w2 + · · · + wn | wi ∈ Wi ∀i = 1, . . . , n}. Il sottospazio W di V è somma diretta dei sottospazi W1 , W2 , . . . , Wn se (a) W = W1 + W2 + · · · + Wn ; 2.3 dipendenza e indipendenza lineare (b) Wi ∩ (W1 + · · · + Wi−1 + Wi+1 + · · · + Wn ) = {0} per ogni i = 1, . . . , n; in questo caso si scrive W = W1 ⊕ W2 ⊕ · · · ⊕ Wn . Sussiste la seguente proprietà, la cui verifica viene lasciata per esercizio. Esercizio 2.2.8. Siano V uno spazio vettoriale e W1 , . . . , Wn sottospazi di V. Un sottospazio W di V è somma diretta dei sottospazi W1 , . . . , Wn se e solo se ogni elemento di W si scrive in modo unico come somma w1 + · · · + wn con wi ∈ Wi per ogni i = 1, . . . , n. Esempio 2.2.9. Consideriamo lo spazio vettoriale numerico R3 e gli insiemi X = {(2t, 0, t) | t ∈ R} ed Y = {(0, s, 0) | s ∈ R}. E’ semplice accorgersi che X e Y sono sottospazi di R3 , inoltre si ha che X = L[(2, 0, 1)], Y = L[(0, 1, 0)] e X + Y = L[(2, 0, 1), (0, 1, 0)] = {(2s, t, s) | s, t ∈ R}. Essendo evidente che X ∩ Y = {0}, si ha che X + Y = X ⊕ Y. 2.3 dipendenza e indipendenza lineare Siano V uno spazio vettoriale ed X una parte non vuota di V. Si dice che un elemento v di V dipende da X se v ∈ L[X], e quindi se esistono degli elementi x1 , . . . , xn ∈ X tali che v = λ1 x1 + · · · + λn xn con λ1 , . . . , λn ∈ K. Evidentemente se v dipende da X allora v dipende da una parte finita di X. Si osservi che se v ∈ X, allora v = 1 · v dipende da X; inoltre, se Y è una parte non vuota di X, ogni elemento di V che dipende da Y dipende anche da X. E’ anche chiaro che il vettore nullo dipende da ogni parte non vuota di V, essendo 0 = 0 · v per ogni v ∈ V. I vettori v1 , v2 , . . . , vn a due a due distinti di V si dicono linearmente dipendenti se esistono degli scalari non tutti nulli λ1 , λ2 , . . . , λn ∈ K tali che λ1 v1 + λ2 v2 + · · · + λn vn = 0; differentemente, i vettori v1 , v2 , . . . , vn si dicono linearmente indipendenti se non sono linearmente dipendenti, cioè se da λ1 v1 + λ2 v2 + · · · + λn vn = 0 segue che λ1 = λ2 = · · · = λn = 0. Se v1 , . . . , vn sono vettori a due a due distinti di V, facendo uso delle proprietà valide in uno spazio vettoriale, si ha che λ1 v 1 + λ2 v 2 + · · · + λn v n = 0 con λi 6= 0, se e solo se −1 −1 −1 vi = −λ−1 i λ1 v1 − · · · − λi λi−1 vi−1 − λi λi+1 vi+1 − · · · − λi λn vn ; in particolare, vi ∈ L[v1 , . . . , vi−1 , vi+1 , . . . , vn ], 19 20 spazi vettoriali se e soltanto se L[v1 , . . . vn ] = L[v1 , . . . , vi−1 , vi+1 , . . . , vn ]. Pertanto i vettori v1 , . . . , vn sono linearmente dipendenti se e solo se (almeno) uno di essi dipende dall’insieme formato dai restanti vettori. In particolare, nel caso di due vettori v1 e v2 si ottiene che essi sono dipendenti se e solo se esiste uno scalare non nullo λ ∈ K tale che v1 = λv2 e v2 = λ−1 v1 , o in altre parole, se e solo se ciascuno di essi appartiene al sottospazio vettoriale generato dall’altro. Se V è uno spazio vettoriale, una sua parte X si dice libera o indipendente se è vuota oppure se comunque si considerano degli elementi a due a due distinti x1 , . . . , xn in X, essi sono linearmente indipendenti. Se X non è libera, allora si dice che X è legata o dipendente. Quindi X è legata se X è non vuota ed esiste una combinazione lineare nulla λ1 x1 + · · · + λn xn = 0 di elementi x1 , . . . , xn di X con scalari λ1 , . . . , λn non tutti nulli. Chiaramente X è libera se e solo se è libera ogni sua parte finita, ed è anche chiaro che ogni sottoinsieme di V che contiene una parte legata è legato. Sicchè essendo 1 · 0 = 0, ogni parte che contiene {0} è legata. Invece, se v ∈ V \ {0}, allora la (i) della proposizione 2.1.1 assicura che {v} è una parte libera di V. Si noti inoltre che i vettori v1 , . . . , vn sono linearmente dipendenti (rispettivamente indipendenti) se e solo se la parte {v1 , . . . , vn } è legata (rispettivamente libera), dunque il prossimo risultato è semplicemente una generalizzazione di quanto osservato poco fa. Proposizione 2.3.1. Sia V uno spazio vettoriale sul campo K e sia X una parte di V. Allora (i) X è legata se e solo se esiste un elemento v di X che dipende da X \ {v}. (ii) X è libera se e solo se non esiste alcun elemento v in X che dipenda da X \ {v}. Dimostrazione. Essendo (ii) la negazione della (i), basta provare la (i). Sia X una parte legata, allora X è non vuota ed esistono x1 , . . . , xn ∈ X e λ1 , . . . , λn ∈ K tali che λ1 x1 + · · · + λn xn = 0 e λi 6= 0 per qualche i ∈ {1, . . . , n}. Allora xi dipende da {x1 , . . . , xi−1 , xi+1 , . . . , xn } e quindi anche da X \ {xi }. Reciprocamente, supponiamo esita un elemento v di X che dipenda da X \ {v}. Allora esistono degli elementi x1 , . . . , xn in X \ {v} e degli scalari λ1 , . . . , λn in K tali che v = λ1 x1 + · · · + λn xn . Così 1 · v − λ1 x1 − · · · − λn xn = 0 è una combinazione lineare nulla di elementi di X con coefficienti non tutti nulli e pertanto X è legata. Dunque se V è uno spazio vettoriale e X è una sua parte, X è legata se e solo se esiste un vettore v ∈ X che dipende da X \ {v}, il che equivale all’essere L[X] = L[X \ {v}]. Un’altra utile proprietà è la seguente. Proposizione 2.3.2. Sia V uno spazio vettoriale sul campo K e siano X una parte di V e v ∈ V. Se X è libero e X ∪ {v} è legato, allora v dipende da X. 2.4 spazi vettoriali di dimensione finita Proof. Evidentemente v 6∈ X. Siano λ, λ1 , . . . , λn elementi non tutti nulli di K e siano x1 , . . . , xn elementi di X tali che λv + λ1 x1 + · · · + λn xn = 0. Poichè 0v = 0 ed X è una parte libera, segue che λ 6= 0 e quindi v = −λ−1 λ1 x1 − · · · − λ−1 λn xn . Sicchè v dipende da X, come si voleva. Sia V uno spazio vettoriale. Una parte X di V si dice sistema di generatori di V se si ha che V = L[X]. Chiaramente l’insieme vuoto è un sistema di generatori di {0}, mentre un insieme non vuoto X è un sistema di generatori di V se e solo se ogni elemento di V dipende da X, in particolare V è un sistema di generatori per V. Lo spazio vettoriale V si dice finitamente generato se ha un sistema di generatori finito. In particolare, se X è una parte finita di V allora il sottospazio L[X] è uno spazio vettoriale finitamente generato. Una parte X si dice base per V se X è una parte libera ed un sistema di generatori per V. Quindi l’insieme vuoto è una base per lo spazio nullo {0}, ed evidentemente lo spazio nullo è l’unico ad avere per base l’insieme vuoto. Esempio 2.3.3. Consideriamo lo spazio vettoriale numerico R3 ed i sottospazi X = L[(2, 0, 1)] e Y = L[(0, 1, 0)]. Chiaramente {(2, 0, 1)} è una base per X e {(0, 1, 0)} è una base per Y. Se λ, µ ∈ K sono tali che 0 = λ(2, 0, 1) + µ(0, 1, 0) = (2λ, µ, λ) allora λ = µ = 0. Quindi (2, 0, 1) e (0, 1, 0) sono linearmente indipendenti e così {(2, 0, 1), (0, 1, 0)} è una base per X ⊕ Y. Concludiamo enunciando il seguente importante risultato la cui dimostrazione richiede delle conoscenze di teoria degli insiemi più approfondite e che pertanto si omette; nel prossimo paragrafo se ne darà una dimostrazione in un caso particolare. Teorema 2.3.4. Ogni spazio vettoriale possiede una base ed inoltre due basi di uno stesso spazio vettoriale sono equipotenti tra loro. 2.4 spazi vettoriali di dimensione finita Si vogliono qui di seguito analizzare le proprietà degli spazi vettoriali che hanno una base finita. Lemma 2.4.1. (Lemma di Steinitz) Siano X = {x1 , . . . , xn } ed Y = {y1 , . . . , ym } due parti finite di uno spazio vettoriale V. Se X è libero ed è contenuto in L[Y], allora n 6 m. 21 22 spazi vettoriali Dimostrazione. Senza ledere le generalità, si può supporre V = L[Y]. Per assurdo sia n > m. Ogni vettore in X è combinazione lineare degli elementi di Y e quindi si può scrivere x1 = λ1,1 y1 + · · · + λ1,m ym con ogni λ1,i ∈ K e con almeno un λ1,i 6= 0, altrimenti sarebbe x1 = 0 e X sarebbe una parte legata. A meno di rinominare gli indici, supponiamo sia λ1,1 6= 0. Allora −1 −1 y1 = λ−1 1,1 x1 − λ1,1 λ1,2 y2 − · · · − λ1,1 λ1,m ym , e così y1 dipende da {x1 , y2 , . . . , ym }. Pertanto L[Y] ⊆ L[x1 , y2 , . . . , ym ], quindi V = L[x1 , y2 , . . . , ym ] e come prima si può ottenere che x2 = λ2,1 x1 + λ2,2 y2 + · · · + λ2,m ym per opportuni scalari λ2,1 , . . . , λ2,m . Poichè x2 è non nullo, qualche λ2,i deve essere non nullo. D’altra parte, se fosse λ2,2 = · · · = λ2,m = 0, allora λ2,1 6= 0 e {x1 , x2 } sarebbe una parte legata contenuta nella parte libera X. Questa contraddizione prova che esiste i ∈ {2, . . . , m} tale che λ2,i 6= 0. Anche questa volta, a meno di rinominare gli indici, possiamo supporre sia λ2,2 6= 0. Quindi −1 −1 −1 y2 = −λ−1 2,2 λ2,1 x1 + λ2,2 x2 − λ2,2 λ2,3 y3 − · · · − λ2,2 λ2,m ym . e pertanto V = L[x1 , x2 , y3 , . . . , ym ]. Iterando questo ragionamento, si ottiene che V = L[x1 , x2 , . . . , xm ] e pertanto xm+1 dipende da {x1 , . . . , xm }. Conseguentemente {x1 , . . . , xm , xm+1 } è una parte legata, il che è assurdo essendo essa contenuta nella parte libera X. Questa contraddizione prova che n 6 m. Corollario 2.4.2. Sia V uno spazio vettoriale generato da n vettori. Allora ogni parte libera di V è finita e contiene al più n elementi. Dimostrazione. Sia L una parte libera di V, allora ogni parte finita X di L è libera ed essendo V generato da un numero finito n di elementi, il lemma di Steinitz 2.4.1 ci assicura che X ha al più n elementi; in particolare, L è finito di ordine al più n. Teorema 2.4.3. (Estrazione di una base da un sistema di generatori) Sia V uno spazio vettoriale e sia S un sistema finito di generatori per V. Allora S contiene una base per V. Dimostrazione. Supponiamo sia S = {v1 , . . . , vn } e, per ogni i = 1, . . . , n, poniamo Xi = {v1 , . . . , vi }; sicchè, S = Xn . Se Xn è libero, allora Xn è una base; se invece Xn è lagato, la proposizione 2.3.1 assicura che esiste un vettore tra i vi che dipende dai restanti e, a meno di rinominare i vettori in Xn , si può supporre che questo vettore sia proprio vn , sicchè V = L[Xn ] = L[Xn−1 ] e dunque Xn−1 è un sistema di generatori di V. Ora, se Xn−1 è libero allora esso è una base altrimenti, come fatto prima per Xn , si può supporre che Xn−2 sia un sistema di generatori di V. Evidentemente così proseguendo si arriverà a provare che un certo Xi è una base per V. 2.4 spazi vettoriali di dimensione finita Proviamo ora il teorema 2.3.4 nel caso particolare di spazi vettoriali finitamente generabili. Teorema 2.4.4. (Teorema di esistenza ed equipotenza delle basi) Sia V uno spazio vettoriale generato da un numero finto n di elementi. Allora V contiene una base finita di ordine m 6 n e ogni sua base ha m elementi. Dimostrazione. Se V = {0}, allora V ha per base l’insieme vuoto e l’insieme vuoto è l’unica base possibile per V, dunque si può supporre che V non sia lo spazio nullo ovvero che V abbia un sistema di generatori S fatto di n > 1 vettori non nulli. Il Teorema 2.4.3 assicura che S contiene una base B di V; evidentemente, B ha un numero finito m di elementi e risulta m 6 n. Sia ora B1 un’altra base per V. Essendo V = L[B], il corollario 2.4.2 assicura che B1 è un insieme finito che contiene un numero k di elementi con k 6 m. D’altra parte B è contenuto in V = L[B1 ], e quindi ancora il lemma di Steinitz 2.4.1 assicura che m 6 k, pertanto k = m ed il risultato è provato. Sia V uno spazio vettoriale non nullo. Si dice che V ha dimensione finita (su K), se V ha una base finita. Se V ha una base finita B di ordine m, allora B è un sistema di generatori finito di V e il teorema 2.4.4 assicura che ogni altra base di V ha esattamente m elementi. E’ lecito allora definire l’intero m come la dimensione di V (su K); in tal caso, si scrive dimK (V) = m o semplicemente dim(V) = m. Per convenzione, anche lo spazio vettoriale nullo ha dimensione finita pari a 0. Evidentemente uno spazio vettoriale ha dimensione 0 se e solo se esso è lo spazio vettoriale nullo. Teorema 2.4.5. (Teorema del completamento di una parte libera ad una base) Sia V uno spazio vettoriale di dimensione finita n. Allora ogni parte libera L di V può essere completata ad una base (cioè L è contenuta in una base). Dimostrazione. Il corollario 2.4.2 assicura che L è un insieme finito. Poichè V ha dimensione finita, esso possiede una base finita B ed evidentemente S = L ∪ B è un sistema di generatori finito per V. Essendo S finito, tra i sottoinsiemi liberi di S che contengono L ne esiste uno B con il numero maggiore di elementi. Allora B è libero, inoltre per ogni v ∈ S \ B l’insieme B ∪ {v} è legato e quindi v dipende da B per la proposizione 2.3.2. Così V = L[S] = L[B] e pertanto B è base. Corollario 2.4.6. Sia V uno spazio vettoriale di dimensione finita n. Allora ogni parte libera con n elementi è una base, ed ogni sistema di generatori con n elementi è una base. Dimostrazione. Segue subito dal teorema 2.4.3 e dal teorema 2.4.5. Il teorema 2.3.4, o se si preferisce il teorema 2.4.4, assicura che ogni spazio vettoriale (finitamente generato) è dotato di basi. L’utilità della nozione di base è espressa nell’enunciato del prossimo risultato il quale, in un certo senso (e come poi si vedrà formalmente in seguito), mostra che i vettori dello spazio possono essere individuati, una volta fissata una base, mediante vettori numerici. 23 24 spazi vettoriali Teorema 2.4.7. Siano V uno spazio vettoriale ed X = {x1 , . . . , xn } una parte finita di V. Allora X è una base per V se e solo se ogni elemento v di V si scrive come combinazione lineare v = λ1 x1 + · · · + λn xn in cui i coefficienti λ1 . . . , λn ∈ K sono univocamente determinati. Dimostrazione. Se X è una base per V e v ∈ V, allora v = λ1 x1 + · · · + λn xn con λ1 , . . . , λn ∈ K. Supponiamo sia anche v = µ1 x1 + · · · + µn xn con µ1 , . . . , µn ∈ K. Allora (λ1 − µ1 )x1 + · · · + (λn − µn )xn = 0 e quindi, essendo X una parte libera, per ogni i = 1, . . . , n deve essere λi − µi = 0. Pertanto λi = µi per ogni i = 1, . . . , n e quindi i coefficienti λi sono univocamente determinati. Reciprocamente, poichè ogni elemento di V è combinazione lineare di elementi di X si ha che X è un sistema di generatori di V. Inoltre se λ1 x1 + · · · + λn xn = 0 allora è λ1 x1 + · · · + λn xn = 0x1 + · · · + 0xn e quindi l’unicità dei coefficienti assicura che λ1 = · · · = λn = 0. Pertanto X è anche una parte libera e dunque è una base per V. Sia V uno spazio vettoriale di dimensione finita. Un riferimento di V è una base B = (x1 , . . . , xn ) vista come n-upla ordinata. Se v un elemento di V, il teorema 2.4.7 assicura che esistono e sono univocamente determinati degli elementi λ1 , . . . , λn ∈ K tali che v = λ1 x1 + · · · + λn xn . Questi elementi λ1 , . . . , λn si dicono compomenti del vettore v nel riferimento B, e si dice anche che il vettore numerico (λ1 , . . . , λn ) è il vettore coordinato (o delle componenti) di v in B. Osserviamo esplicitamente che se u è un altro vettore di componenti (µ1 , . . . , µn ) allora risulta v + u = (λ1 + µ1 )x1 + · · · + (λn + µn )xn e così l’unicità delle componenti, espressa nel teorema 2.4.7, assicura che il vettore v + u ha per componenti (λ1 + µ1 , . . . , λn + µn ). Allo stesso modo se λ ∈ K allora il vettore λv ha componenti (λλ1 , . . . , λλn ). Esempio 2.4.8. Siano K un campo ed n ∈ N. Per ogni i = 1, . . . , n, posto ei = (0, ..., 0, 1, 0, ..., 0) ←−−→ i ←−−→ è immediato accorgersi che l’insieme {e1 , . . . , en } è una base per Kn ,detta base canonica (o anche naturale o standard); in particolare, dim(Kn ) = n. Evidentemente, poi, rispetto al riferimento canonico (e1 , . . . , en ) il generico vettore (k1 , . . . , kn ) di Kn ha per componenti k1 , . . . , kn . Esempio 2.4.9. Lo spazio dei polinomi K[x] su un campo K, invece, non è finitamente generato e quindi non ha dimensione finita. Infatti, comunque si prende una parte finita X di K[x] detto m il massimo dei gradi dei polinomi che formano X il polinomio xm+1 , non essendo esprimibile come combinazione lineare di polinomi di grado al più m, non dipende da X 2.4 spazi vettoriali di dimensione finita e pertanto X non genera K[x]. D’altra parte però, se n ∈ N, il sottospazio Kn [x] dei polinomi di grado al più n ha come sistema di generatori la parte B = {1, x, x2 , . . . , xn }. Facilmente si prova che B è anche una parte libera, dunque è una base e così dim(Kn [x]) = n + 1. Si noti che il generico polinomio a0 + a1 x + · · · + an xn di Kn [x] ha (a0 , a1 , . . . , an ) come vettore delle componenti rispetto al riferimento (1, x, x2 , . . . , xn ). Esempio 2.4.10. Consideriamo lo spazio vettoriale Mm,n (K) delle matrici m × n sul campo K. Si noti che 0 ... 1 a11 . . . a1n 1 ... 0 . .. .. . .. = a .. . . . .. . 11 . . .. + . . .. + · · · + a1n .. . am1 ... amn 0 ... 0 0 ... .. . . + · · · + am1 . . 1 ... 0 ... 0 0 0 ... .. . . .. + · · · + a mn . . . 0 0 ... 0 .. . 1 sicchè, detta Mij è la matrice il cui unico elemento non nullo è l’elemento di posto (i, j) che è 1, si ha che l’insieme B = {Mij | i = 1, . . . , m e j = 1, . . . , n} è un sistema di generatori per lo spazio vettoriale Mm,n (K). D’altra parte è semplice accorgersi che B è anche un insieme libero, pertato B è una base per Mm,n (K), detta talvolta base canonica di Mm,n (K); in particolare, dim(Mm,n (K)) = mn. Si osservi che la generica matrice a11 . . . a1n .. .. .. . . . am1 ... amn ha componenti (a11 , . . . , a1n , a21 , . . . , a2n , . . . , am1 , . . . , amn ) rispetto al riferimento canonico (Mij | i = 1, . . . , m e j = 1, . . . , n). Passiamo ora a provare alcune relazioni tra la dimensione di uno spazio vettoriale e la dimensione di un suo sottospazio. Proposizione 2.4.11. Sia V uno spazio vettoriale di dimensione finita e sia W un suo sottospazio. Allora W ha dimensione finita e risulta essere dim(W) 6 dim(V). Inoltre, dim(W) = dim(V) se e solo se W = V. Dimostrazione. Evidentemente si può supporre che W non sia lo spazio nullo. Dunque W contiene un vettore non nullo v e chiaramente {v} è una parte libera; in particolare, l’insieme F = {X ⊆ W | X è libera} è non vuoto. Poichè ogni parte libera di W è una parte libera di V, il corollario 2.4.2 assicura che ogni parte libera di W ha al più n = dim(V) elementi. Ha senso quindi fissare in F un elemento B il cui numero di elementi sia il massimo tra gli ordini delle parti libere di W (che sono in F). Se v ∈ W \ B, la massimalità dell’ordine di B assicura che la parte B ∪ {v} è 25 26 spazi vettoriali legata e quindi v dipende da B per la proposizione 2.3.2. Segue così che B è anche un sistema di generatori, e quindi è una base, per W; in particolare la dimensione di W essendo l’ordine di B è al più pari alla dimensione di V. Se poi dim(W) = dim(V) allora il corollario 2.4.6 assicura che B è anche base di V e pertanto V = L[B] = W. Teorema 2.4.12. (Formula di Grassmann) Sia V uno spazio vettoriale di dimensione finita e siano W1 e W2 suoi sottospazi. Allora dim(W1 + W2 ) = dim(W1 ) + dim(W2 ) − dim(W1 ∩ W2 ). Dimostrazione. Per la proposizione 19, i sottospazi W1 , W2 e W1 ∩ W2 hanno tutti dimensione finita. Il teorema 2.4.5 assicura che è possibile completare una base B = {v1 , . . . , vr } di W1 ∩ W2 a basi B1 = {v1 , . . . , vr , u1 , . . . , us } e B2 = {v1 , . . . , vr , w1 , . . . , wt } di W1 e W2 , rispettivamente. Chiaramente ciascuno dei vettori vi , uj e wk appartiene a W1 + W2 . Inoltre, poichè ogni elemento di W1 è combinazione lineare dei vettori vi e uj mentre ogni elemento di W2 è combinazione lineare dei vettori vi e wk , ne segue che ogni elemento di W1 + W2 è combinazione lineare dei vi , uj e wk . Dunque i vettori in questione sono generatori di W1 + W2 , ovvero B1 ∪ B2 è un sistema di generatori per W1 + W2 e così, al fine di provare che B1 ∪ B2 è una base per W1 + W2 resta da provare che B1 ∪ B2 è libero. Considerando una combinazione lineare nulla α1 v1 + · · · + αr vr + β1 u1 + · · · + βs us + γ1 w1 + · · · + γt wt = 0 (4) si ha che α1 v1 + · · · + αr vr + β1 u1 + · · · + βs us = −γ1 w1 − · · · − γt wt ∈ W1 ∩ W2 dunque α1 v1 + · · · + αr vr + β1 u1 + · · · + βs us = δ1 v1 + · · · + δr vr e così il teorema 2.4.7 garantisce, in particolare, che β1 = · · · = βs = 0. Pertanto la (4) diventa α1 v1 + · · · + αr vr + γ1 w1 + · · · + γt wt = 0 ed essendo B2 libero, si ha che α1 = · · · = αr = γ1 = · · · = γt = 0. Così B1 ∪ B2 è libero, come si voleva. Poichè B1 ∪ B2 ha r + s + t elementi, segue che dim(W1 + W2 ) = r + s + t = (r + s) + (r + t) − r = = dim(W1 ) + dim(W2 ) − dim(W1 ∩ W2 ). Nel caso sia invece W1 ∩ W2 = {0}, un ragionamento analogo al precedente prova che l’unione tra una base di W1 ed una base di W2 è una base per W1 + W2 , così anche in questo caso il risultato sussiste. Sia V uno spazio vettoriale di dimensione finita su un campo K e siano W1 e W2 due sottospazi di V tali che il loro spazio somma W sia una somma diretta W = W1 ⊕ W2 . Allora W1 ∩ W2 = {0} e quindi la formula di Grassman 2.4.12 assicura che dim(W) = dim(W1 ) + dim(W2 ), inoltre procedendo come nella dimostrazione del teorema 2.4.12 si ottiene che una base per W è l’unione tra una base di W1 e una base di W2 . Più in generale, è un semplice esercizio provare che se W è somma diretta dei sottospazi W1 , . . . , Wt , fissata una base Bi in ciascun Wi , una base per W è l’insieme B = B1 ∪ · · · ∪ Bt . 2.5 applicazioni lineari tra spazi vettoriali 2.5 applicazioni lineari tra spazi vettoriali Siano V e W spazi vettoriali su un campo K. Un’applicazione ϕ : V −→ W si dice applicazione lineare oppure omomorfismo se comunque si considerano gli elementi u e v in V e uno scalare λ ∈ K, risulta: 1L ϕ(u + v) = ϕ(u) + ϕ(v); 2L ϕ(λu) = λϕ(u). Equivalentemente l’applicazione ϕ è lineare se e solo se ϕ(λu + µv) = λϕ(u) + µϕ(v) ∀u, v ∈ V e ∀λ, µ ∈ K. Un’applicazione lineare si dice monomorfismo se è iniettiva, mentre si dice epimorfismo se è suriettiva. Un omomorfismo biettivo invece si dice isomorfismo e gli spazi vettoriali V e W si dicono isomorfi se esiste un isomorfismo di V in W. Un’applicazione lineare di V in sé si dice endomorfismo e un endomorfismo biettivo si dice automorfismo. Proposizione 2.5.1. Se ϕ : V −→ W è un’applicazione lineare tra gli spazi vettoriali V e W su un campo K, allora: (i) ϕ(0) = 0; (ii) ϕ(−v) = −ϕ(v) per ogni v ∈ V; (iii) ϕ(u − v) = ϕ(u) − ϕ(v) per ogni u, v ∈ V. Dimostrazione. Si ha che ϕ(0) = ϕ(0 + 0) = ϕ(0) + ϕ(0) e così ϕ(0) = 0. Se v ∈ V allora 0 = ϕ(0) = ϕ(v − v) = ϕ(v) + ϕ(−v) e quindi ϕ(−v) = −ϕ(v). Segue che se u è un altro elemento di V allora risulta ϕ(u − v) = ϕ(u) + ϕ(−v) = ϕ(u) − ϕ(v). Esempio 2.5.2. Qualsiasi siano i K-spazi vettoriali V e W si ha che sia l’applicazione identica ιV che l’applicazione nulla v ∈ V −→ 0 ∈ W sono lineari. Ancora, l’applicazione (a, b, c) ∈ R3 −→ ax ∈ R[x] è evidentemente lineare, invece ϕ : (x, y) ∈ R2 −→ (y2 , x) ∈ R2 non è lineare infatti ϕ(x, x) + ϕ(0, y) = (x2 , x) + (y2 , 0) = (x2 + y2 , x) e ϕ(x, x + y) = (x2 + 2xy + y2 , x). Il prossimo risultato fornisce un metodo per costruire applicazioni lineari; esso mostra inoltre che un’applicazione lineare è univocamente determinata dai trasformati dei vettori di una base del dominio. 27 28 spazi vettoriali Teorema 2.5.3. (Teorema fondamentale delle applicazioni lineari) Siano V e W due spazi vettoriali non nulli su un campo K, con V di dimesione finita n. Fissato un riferimento R = (e1 , . . . , en ) in V e scelti n vettori non necessariamente distinti w1 , . . . , wn in W, esiste un’unica applicazione lineare ϕ : V −→ W tale che ϕ(e1 ) = w1 , . . . , ϕ(en ) = wn . Dimostrazione. Se v è un elemento di V e se (λ1 , . . . , λn ) sono le componenti di v rispetto ad R, la posizione ϕ(v) = λ1 w1 + · · · + λn wn definisce un’applicazione ϕ : V −→ W (si noti che ϕ è un’applicazione perchè le componenti di un vettore sono univocamente determinate per il teorema 2.4.7). Se u è un altro elemento di V di componenti (µ1 , . . . , µn ), allora il vettore v + u ha componenti (λ1 + µ1 , . . . , λn + µn ) e così ϕ(u + v) = (λ1 + µ1 )w1 + · · · + (λn + µn )wn = = (λ1 w1 + · · · + µn wn ) + (µ1 w1 + · · · + µn wn ) = = ϕ(u) + ϕ(v); d’altra parte se λ ∈ K allora il vettore λv ha componenti (λλ1 , . . . , λλn ) e quindi ϕ(λv) = (λλ1 )w1 + · · · + (λλn )wn = = λ(λ1 w1 + · · · + µn wn ) = λϕ(v). Pertanto ϕ è lineare. Evidentemente poi ϕ(e1 ) = w1 , . . . , ϕ(en ) = wn . Se ψ : V −→ W è un’altra applicazione lineare tale da risultare w1 = ψ(e1 ), . . . , wn = ψ(en ), e v = λ1 e1 + · · · + λn en è il generico elemento di V, si ha ψ(v) = ψ(λ1 e1 + · · · + λn en ) = = λ1 ψ(e1 ) + · · · + λn ψ(en ) = = λ1 w1 + · · · + λn wn = = λ1 ϕ(e1 ) + · · · + λn ϕ(en ) = = ϕ(λ1 e1 + · · · + λn en ) = = ϕ(v) e pertanto ψ = ϕ. L’applicazione ϕ definita nella dimostrazione della teorema 2.5.3 si dice ottenuta estendendo per linearità le posizioni v1 = ϕ(e1 ), . . . , vn = ϕ(en ). Esempio 2.5.4. Consideriamo l’R-spazio vettoriale R2 [x] dei polinomi di grado al più 2 a coefficienti reali, e in esso supponiamo fissato il riferimento R = (1, 1 + x, x + x2 ); in particolare, il generico elemento di R2 [x] a0 + a1 x + a2 x2 si scrive rispetto ai vettori del riferimento R (in modo unico) come (a0 − a1 + a2 )1 + (a1 − a2 )(1 + x) + a2 (x + x2 ). Consideriamo poi l’R-spazio vettoriale R2 e in esso i vettori v1 = (1, 2) e v2 = (1, 3). 2.5 applicazioni lineari tra spazi vettoriali Poniamo ϕ(1) = ϕ(x + x2 ) = v1 e ϕ(1 + x) = v2 (5) ed estendiamo per linearità ϕ(a0 + a1 x + a2 x2 ) = ϕ((a0 − a1 + a2 )1 + (a1 − a2 )(1 + x) + a2 (x + x2 )) = = (a0 − a1 + a2 )v1 + (a1 − a2 )v2 + a2 v1 = = (a0 − a1 + 2a2 )v1 + (a1 − a2 )v2 = = (a0 + a2 , 2a0 + a1 + a2 ) L’applicazione ϕ : R2 [x] −→ R2 così ottenuta è l’applicazione lineare che estende per linearità le posizioni (5). Proposizione 2.5.5. Siano ϕ : V −→ W e ψ : W −→ U due applicazioni lineari tra i K-spazi vettoriali U, V e W. Allora anche ψ ◦ ϕ : V −→ U è lineare. Dimostrazione. Siano v1 , v2 ∈ V e λ, µ ∈ K allora ψ ◦ ϕ(λv1 + µv2 ) = ψ(ϕ(λv1 + µv2 )) = = ψ(λϕ(v1 ) + µϕ(v2 )) = = λψ(ϕ(v1 )) + µψ(ϕ(v2 )) = = λ((ψ ◦ ϕ)(v1 )) + µ((ψ ◦ ϕ)(v2 )). Proposizione 2.5.6. Sia ϕ : V −→ W un’applicazione lineare tra gli spazi vettoriali V e W su un campo K. Se X è un sottospazio vettoriale di V allora ϕ(X) è un sottospazio di W; inoltre, se S è un sistema di generatori per X allora ϕ(S) è un sistema di generatori per ϕ(X). Dimostrazione. Chiaramente, ϕ(X) 6= ∅ essendo X 6= ∅. Se λ, µ ∈ K e se u, v ∈ ϕ(X), allora esistiono x, y ∈ X tali che u = ϕ(x) e v = ϕ(y) e si ha che λu + µv = λϕ(x) + µϕ(y) = ϕ(λx + µy) è ancora un elemento di ϕ(X). Dunque ϕ(X) è un sottospazio di W. Se S genera X e u ∈ ϕ(X), allora u = ϕ(x) con x in X, ma allora x è combinazione lineare di alcuni elementi x1 , . . . , xt di S per la proposizione 2.2.7, e quindi u è combinazione lineare degli elementi ϕ(x1 ), . . . , ϕ(xt ) di ϕ(S); pertanto ϕ(X) 6 L[ϕ(S)] nonché, evidentemente, ϕ(X) = L[ϕ(S)]. Proposizione 2.5.7. Se ϕ : V −→ W è un isomorfismo tra gli spazi vettoriali V e W su un campo K, allora anche l’inversa ϕ−1 : W −→ V è un isomorfismo. Dimostrazione. Chiaramente è sufficiente provare che ϕ−1 è lineare. Siano w1 , w2 ∈ W, allora la biettività di ϕ assicura che esistono e sono univocamente determinati gli elementi v1 , v2 ∈ V tali che w1 = ϕ(v1 ) e w2 = ϕ(v2 ). Pertanto se λ, µ ∈ K ϕ−1 (λw1 + µw2 ) = ϕ−1 (λϕ(v1 ) + µϕ(v2 )) = = ϕ−1 (ϕ(λv1 + µv2 )) = = λv1 + µv2 = = λϕ−1 (w1 ) + µϕ−1 (w2 ) e quindi ϕ−1 è lineare. 29 30 spazi vettoriali E’ semplice rendersi conto che ogni applicazione lineare trasforma vettori linearmente dipendenti in vettori linearmente dipendenti (basta ricordare la definizione e il fatto che ogni applicazione lineare manda il vettore nullo in sé stesso), ma non è detto che i trasformati di vettori linearmenti indipendenti siano ancora linearmente indipendenti basta prendere in considerazione, ad esempio, l’applicazione lineare che manda ogni vettore nel vettore nullo. Nel caso però l’applicazione lineare sia iniettiva, anche vettori linearmente indipendenti sono trasformati in vettori indipendenti. Proposizione 2.5.8. Sia ϕ : V −→ W è un monomorfismo tra spazi vettoriali sul campo K. Allora i vettori v1 , . . . , vt di V sono indipendenti se e solo se ϕ(v1 ), . . . , ϕ(vt ) sono vettori indipendenti di W. Dimostrazione. Se v1 , . . . , vt ∈ V sono indipendenti e λ1 , . . . , λt ∈ K sono tali che λ1 ϕ(v1 ) + · · · + λt ϕ(vt ) = 0, allora è ϕ(λ1 v1 + · · · + λt vt ) = 0 nonchè λ1 v1 + · · · + λt vt = 0 perchè anche ϕ(0) = 0 per la proposizione 2.5.1 e perchè ϕ è iniettiva. Pertanto λ1 = · · · = λn = 0 e ϕ(v1 ), . . . , ϕ(vt ) sono indipendenti. Viceversa, se ϕ(v1 ), . . . , ϕ(vt ) sono vettori indipendenti e λ1 v1 + · · · + λt vt = 0 allora è ϕ(λ1 v1 + · · · + λt vt ) = 0 per la proposizione 2.5.1. Così λ1 ϕ(v1 ) + · · · + λt ϕ(vt ) = 0 per la linearità di ϕ, quindi λ1 = · · · = λn = 0 e v1 , . . . , vt di V sono indipendenti. Dalla proposizione 2.5.6 e dalla proposizione 2.5.8 discende il seguente. Corollario 2.5.9. Sia ϕ : V −→ W è un monomorfismo tra spazi vettoriali sul campo K. Se X è un sottospazio di V e B è una base per X, allora ϕ(B) è una base per il sottospazio ϕ(X). Supponiamo che V sia uno spazio vettoriale non nullo di dimensione finita n sul campo campo K. Fissiamo un riferimento R = (e1 , . . . , en ) in V e indichiamo con (v)R il vettore delle componenti in R di v ∈ V. L’applicazione cR : v ∈ V −→ (v)R ∈ Kn è iniettiva per l’unicità delle componenti (cfr. teorema 2.4.7) ed è evidentemente anche suriettiva. E’ inoltre semplice provare che cR è lineare, pertanto cR è un isomorfismo detto isomorfismo coordinato associato al riferimento R, o anche coordinazione di V associata a R, o talvolta detto sistema di coordinate su V rispetto ad R. Teorema 2.5.10. Sia V uno spazio vettoriale su un campo K di dimensione finita. (i) Se n è la dimensione di V, allora V e Kn sono isomorfi. (ii) Se V 0 è un altro K-spazio vettoriale di dimensione finita, si ha che V e V 0 sono isomorfi se e solo se V e V 0 hanno la stessa dimensione. Dimostrazione. Evidentemente la considerazione dell’isomorfismo coordinato prova la (i). Per la (ii), si supponga innanzitutto che V e V 0 abbiano entrambi dimensione finita n. Fissato un riferimento R in V ed un riferimento R 0 in V 0 , segue dalla proposizione 2.5.5 e dalla proposizione 2.5.7 −1 0 che l’applicazione cR 0 ◦ ιKn ◦ cR è un isomorfismo di V in V . Viceversa se V e V 0 sono K-spazi vettoriali di dimensione finita e sono isomorfi, segue dalla proposizione 2.5.6 e dalla proposizione 2.5.8 che V e V 0 hanno la stessa dimensione. 2.6 immagine e nucleo di un’applicazione lineare Dai risultati esposti in questa sezione si evince che attraverso l’isomorfismo coordinato lo studio di determinate proprietà di un K-spazio vettoriale di dimensione n può essere ricondotto allo studio delle analoghe proprietà nello spazio vettoriale Kn . Chiariamo meglio questo con il seguente esempio. Esempio 2.5.11. Nello spazio vettoriale R3 [x] dei polinomi a coefficienti reali di grado al più 3, consideriamo i polinomi f1 = x3 + 2x, f2 = x − 1, f3 = 2x3 + 3x + 1, e f4 = x2 + 3x − 2 e determinamo una base per il sottospazio W = L[f1 , f2 , f3 , f4 ]. Consideriamo il riferimento R = (x3 , x2 , x, 1) e l’isomorfismo coordinato ad esso associato cR : ax3 + bx2 + cx + d ∈ R3 [x] −→ (a, b, c, d) ∈ R4 . Tramite cR il sottospazio W viene mandato nel sottospazio W 0 generato dai trasformati degli fi ovvero generato dai vettori w1 = (1, 0, 2, 0), w2 = (0, 0, 1, −1), w3 = (2, 0, 3, 1), e w4 = (0, 1, 3, −2). Dunque determiniamo una base per W 0 . Osservando che w3 = 2w1 − w2 e che αw1 + βw2 + γw4 = 0 se e solo se α = β = γ = 0, si ottiene subito che {w1 , w2 , w4 } è una base per W 0 ; pertanto una base per W è −1 −1 3 2 {c−1 R (w1 ), cR (w2 ), cR (w3 )} = {x + 2x, x − 1, x + 3x − 2} = {f1 , f2 , f4 }. 2.6 immagine e nucleo di un’applicazione lineare Sia ϕ : V −→ W un’applicazione lineare tra gli spazi vettoriali V e W su un campo K. Segue dalla proposizione 2.5.6 che il sottoinsieme di W Im ϕ = {ϕ(v) | v ∈ V} è un sottospazio, detto sottospazio immagine di ϕ. Si noti che sempre la proposizione 2.5.6 garantisce che se B è una base di V allora ϕ(B) è un sistema di generatori per Im ϕ; però ϕ(B) potrebbe non essere una base per Im ϕ (come ci si può convincere considerando ad esempio come ϕ l’omomorfismo nullo) ma, per il corollario 2.5.9, lo è sicuramente nel caso in cui ϕ sia iniettiva. Si dice, invece, nucleo di ϕ l’insieme ker ϕ = {v ∈ V | ϕ(v) = 0}. La proposizione 2.5.1 assicura che 0 ∈ ker ϕ, inoltre se u e v sono elementi di V tali che ϕ(u) = ϕ(v) = 0 e λ, µ ∈ K allora ϕ(λu + µv) = λϕ(u) + µϕ(v) = 0 sicchè ker ϕ è un sottospazio vettoriale di V. Proposizione 2.6.1. Sia ϕ : V −→ W un’applicazione lineare tra gli spazi vettoriali V e W su un campo K. Allora ϕ è iniettiva se e solo se ker ϕ = {0}. 31 32 spazi vettoriali Dimostrazione. Se ϕ è iniettiva, allora da ϕ(v) = 0 = ϕ(0) segue v = 0 e dunque ker ϕ = {0}. D’altra parte, se ker ϕ = {0} e u e v sono elementi di V tali che ϕ(u) = ϕ(v), allora ϕ(u − v) = ϕ(u) − ϕ(v) = 0, sicchè u − v ∈ ker ϕ = {0}. Così u = v e ϕ è iniettiva. Teorema 2.6.2. (Teorema della Dimensione) Sia ϕ : V −→ W un’applicazione lineare tra gli spazi vettoriali V e W su un campo K. Se V ha dimensione finita, allora dim(V) = dim(ker ϕ) + dim(Im ϕ). Dimostrazione. Se ker ϕ = {0} allora ϕ è iniettiva per la proposizione 2.6.1 e quindi i trasformati tramite ϕ degli elementi di una base di V formano una base di Im ϕ per il corollario 2.5.9, sicchè dim(V) = dim(Im ϕ) e l’asserto è vero. Supponiamo dunque che ker ϕ 6= {0}. Consideriamo {v1 , . . . , vt } una base per ker ϕ e completiamo ad una base B = {v1 , . . . , vt , vt+1 , . . . , vn } per V (cfr. teorema 2.4.5). Essendo ϕ(v1 ) = · · · = ϕ(vt ) = 0, la proposizione 2.5.6 assicura che Im ϕ è generato da B1 = {ϕ(vt+1 ), . . . , ϕ(vn )}. Se consideriamo una combinazione lineare nulla degli elementi di B1 a coefficienti in K 0 = λ1 ϕ(vt+1 ) + · · · + λn−t ϕ(vn ) = ϕ(λ1 vt+1 + · · · + λn−t vn ) otteniamo che λ1 vt+1 + · · · + λn−t vn ∈ ker ϕ e quindi, essendo B libero, si ha che λ1 = · · · = λn−t = 0. Pertanto B1 è una base per Im ϕ e risulta dim(ker ϕ) + dim(Im ϕ) = t + (n − t) = n = dim(V). L’asserto è provato. Corollario 2.6.3. Siano V e W due spazi vettoriali su un campo K aventi uguale dimensione (finita), e sia ϕ : V −→ W un’applicazione lineare. Sono equivalenti le seguenti affermazioni: (i) ϕ è iniettiva; (ii) ϕ è suriettiva; (iii) ϕ è biettiva. Dimostrazione. Per la proposizione 2.6.1, ϕ è iniettiva se e solo se ker ϕ = {0}, e quindi se e solo se dim(V) = dim(Im ϕ) per il teorema 2.6.2, ovvero (essendo dim(V) = dim(W)) se e solo se W = Im ϕ per la proposizione 19. Pertanto (i) e (ii) sono equivalenti tra loro e quindi sono equivalenti anche a (iii). 2.7 spazi euclidei reali Sia V un R-spazio vettoriale. Un’applicazione s : V × V −→ R è detta prodotto scalare in V, se è 2.7 spazi euclidei reali - Bilineare: Comunque si considerano i vettori u, v e w in V e comunque si considera un numero reale λ si ha s(u + v, w) = s(u, w) + s(v, w), s(u, v + w) = s(u, v) + s(u, w) e s(λu, v) = λs(u, v) = s(u, λv). - Simmetrica: s(u, v) = s(v, u) per ogni u e v in V. - Definita positiva: s(v, v) > 0 per ogni v ∈ V e s(v, v) = 0 se e solo se v = 0. Se s è un prodotto scalare, dalle proprietà precedenti seguono immediatamente le seguenti: (a) s(λ1 v1 + · · · + λt vt , w) = λ1 s(v1 , w) + · · · + λn s(vt , w), comunque si considerano gli elementi v1 , . . . , vt , w ∈ V e λ1 , . . . , λt ∈ R. (b) s(0, v) = s(v, 0) = 0 per ogni v ∈ V. Un R-spazio vettoriale in cui è definito un prodotto scalare si dice essere uno spazio euclideo (reale). Si noti che ogni sottospazio di uno spazio euclideo è uno spazio euclideo con l’applicazione indotta da s su esso. Salvo avviso contrario, nel seguito il prodotto scalare sarà denotato sempre con s. Esempio 2.7.1. Nell’R-spazio vettoriale Rn l’applicazione · : ((x1 , . . . , xn ), (y1 , . . . , yn )) ∈ Rn × Rn −→ x1 y1 + · · · + xn yn ∈ R è un prodotto scalare, detto prodotto scalare standard. In particolare, Rn è uno spazio euclideo. Esempio 2.7.2. E’ semplice accorgersi che l’applicazione s : Rn [x] × Rn [x] −→ R definita ponendo s(a0 + a1 x + · · · + an xn , b0 + b1 x + · · · + bn xn ) = a0 b0 + a1 b1 + · · · + an bn è un prodotto scalare dello spazio Rn [x], che pertanto è anch’esso uno spazio euclideo. Esempio 2.7.3. Se I = [a, b] ⊆ R, nello spazio vettoriale reale C0 (I) delle applicazioni continue di I in R un prodotto scalare è definito ponendo la posizione Zb s(f, g) = f(x)g(x)dx, ∀f, g ∈ C0 (I). a Infatti le proprietà richieste dalla definizione di prodotto scalare sono soddisfatte, l’unica cosa meno evidente è che s(f, f) = 0 implica che f sia l’applicazione nulla (f : x ∈ I → 0 ∈ R). Per vedere questo osserviamo che se f non è l’applicazione nulla, esistono ε > 0 ed un punto x0 ∈ I tali che f(x0 )2 > ε. Per la continuità di f, esiste poi un intorno ]c, d[⊆ I di x0 tale che f(x)2 > ε per ogni x ∈]c, d[, e quindi Zb Zd Zd s(f, f) = f(x)2 dx > f(x)2 dx > εdx = ε(d − c) > 0. a c c Pertanto da s(f, f) = 0 deve seguire che f(x) = 0 per ogni x. 33 34 spazi vettoriali Sia V uno spazio euclideo e sia v un elemento di V. Si dice modulo (o anche lunghezza) il numero p kvk = s(v, v). Evidentemente kvk > 0 e kvk = 0 se e solo se v = 0; inoltre, se λ ∈ R, allora kλvk = |λ|kvk. Un vettore di modulo 1 si dice versore. Se v è un vettore non nullo di V, si dice versore di v il vettore v vers(v) = ; kvk evidentemente vers(v) è un versore ed è di uso comune la locuzione normalizzare il vettore v per indicare che si vuole considerare vers(v) invece che v. Esempio 2.7.4. Nello spazio numerico Rn munito del prodotto scalare standard, se u = (x1 , . . . , xn ), si ha che u · u = x21 + · · · + x2n e quindi q kuk = x21 + · · · + x2n . Ancora, se si considera lo spazio vettoriale C0 ([0, 2π]) con il prodotto scalare definito nell’esempio 2.7.3, si ha che Z 2π i2π h1 =π s(sin x, sin x) = sin x2 dx = (x − sin x cos x) 0 2 0 √ √ e quindi k sin xk = π; analogamente anche k cos xk = π. Sussiste la seguente. Proposizione 2.7.5. Sia V uno spazio euclideo. Se u, v ∈ V si ha (i) Disuguaglianza di Cauchy-Schwarz: s(u, v)2 6 s(u, u)s(v, v) e in questa relazione vale l’uguaglianza se e solo se u e v sono linearmente dipendenti; (ii) Disuguaglianza di triangolare: ku + vk 6 kuk + kvk. Se u e v sono vettori non nulli dello spazio euclideo V, la disuguaglianza di Cauchy-Schwartz assicura che !2 s(u, v) 61 kukkvk o equivalentemente −1 6 s(u, v) 61 kukkvk e quindi esiste un unico angolo θ ∈ [0, π] tale che cos θ = s(u, v) , kukkvk d questo unico angolo θ si dice angolo tra i vettori u e v e si denota con u , v. I d vettori non nulli u e v si dicono ortogonali se u ,v = π , ovvero se s(u, v) = 0, 2 e in tal caso si scrive u ⊥ v. Poichè s(u, 0) = 0 qualsiasi sia il vettore u, per convenzione si assume che il vettore nullo sia ortogonale ad ogni altro vettore. 2.7 spazi euclidei reali Esempio 2.7.6. Nello spazio numerico R2 munito del prodotto scalare standard i vettori u = (1, 2) e v = (−2, 1) sono ortogonali essendo u · v = 1(−2) + 2(1) = 0. Ancora, se si considera lo spazio vettoriale C0 ([0, 2π]) con il prodotto scalare definito nell’esempio 2.7.3, si ha che Z 2π s(sin x, cos x) = Z 2π sin x cos xdx = 0 sin xd(sin x) = h1 0 2 i2π sin2 x =0 0 e pertanto sinx e cos x sono ortogonali. Teorema 2.7.7. (Teorema di Pitagora) Se u e v sono vettori ortogonali dello spazio euclideo V, allora ku + vk2 = kuk2 + kvk2 Dimostrazione. Essendo s(u, v) = 0, si ha che ku + vk2 = s(u + v, u + v) = = s(u, u) + 2s(u, v) + s(v, v) = = s(u, u) + s(v, v) = = kuk2 + kvk2 . Un insieme di vettori non nulli {v1 , . . . , vt } di uno spazio euclideo V si dice ortogonale se è formato da vettori a due a due ortogonali. Un insieme ortogonale fatto di versori si dice ortonormale. Chiaramente se v è un elemento non nullo V, allora {vers(v)} è un sistema ortonormale; più in generale, se {v1 , . . . , vt } è un insieme ortogonale allora {vers(v1 ), . . . , vers(vt )} è ortonormale. Esempio 2.7.8. Se n è un intero positivo, la base canonica di Rn e la base canonica di Rn [x] sono insiemi ortonormali rispetto al prodotto scalare definito nell’esempio 2.7.1 e nell’esempio 2.7.2, rispettivamente. Il prossimo risultato prova, in particolare, che due vettori non nulli di uno spazio eulideo non possono essere contemporaneamente proporzionali (cioè dipendenti) e ortogonali. Proposizione 2.7.9. Se S = {v1 , . . . , vt } è un insieme ortogonale di vettori non nulli di uno spazio euclideo, allora S è libero. Dimostrazione. Consideriamo una combinazione lineare nulla degli elementi di S λ1 v 1 + · · · + λt v t = 0 (con λ1 , . . . , λt ∈ R). Allora, se i ∈ {1, . . . , t}, 0 = s(0, vi ) = s(λ1 v1 + · · · + λt vt , vi ) = = λ1 s(v1 , vi ) + · · · + λi s(vi , vi ) + · · · + λt s(vt , vi ) = = λi s(vi , vi ) da cui λi = 0 essendo s(vi , vi ) 6= 0 perchè vi 6= 0. Pertanto S è libero. 35 36 spazi vettoriali Il teorema 2.4.4 assicura che ogni spazio vettoriale finitamente generato ha una base, e si vuole ora provare che a partire da una base di uno spazio euclideo di dimensione finita se ne può costruire un’altra che è anche un insieme ortogonale (o ortonormale). Dunque ogni spazio euclideo di dimensione finita ha una base ortogonale (o ortonormale). La dimostrazione del prossimo risultato prende il nome di processo di ortonormalizzazione di Gram-Schmidt. Teorema 2.7.10. Ogni spazio euclideo non nullo di dimensione finita ha una base ortogonale (o ortonormale). Dimostrazione. Sia V uno spazio euclideo non nullo di dimensione finita n e sia B = {v1 , . . . , vn } una sua base. Poniamo u 1 = v1 s(v2 , u1 ) u1 s(u1 , u1 ) s(v3 , u1 ) s(v3 , u2 ) u 3 = v3 − u1 − u2 s(u1 , u1 ) s(u2 , u2 ) .. . u 2 = v2 − u n = vn − n−1 X i=1 s(vn , ui ) ui s(ui , ui ) Osserviamo che ciasun vettore ui è non nullo, altrimenti si avrebbe che vi sarebbe combinazione lineare di u1 , . . . , ui−1 , e dunque anche di v1 , . . . , vi−1 , contro l’essere {v1 , . . . , vi } ⊆ B e B libero. Chiaramente {u1 } è un insieme ortogonale. Supponiamo di aver provato che {u1 , . . . , ui−1 } sia ortogonale. Per ogni j ∈ {1, . . . , i − 1} si ha s(vi , uk ) = s vi − i−1 X j=1 = s(vi , uk ) − s(vi , uj ) uj , uk = s(uj , uj ) i−1 X j=1 = s(vi , uk ) − s(vi , uj ) s(uj , uk ) = s(uj , uj ) s(vi , uk ) s(uk , uk ) = 0 s(uk , uk ) e dunque anche {u1 , . . . , ui−1 , ui } è ortogonale. Si ottiene pertanto che {u1 , . . . , un } è un insieme ortogonale fatto da vettori non nulli, pertanto esso è libero per la proposizione 2.7.9 e dunque, essendo n = dim(V), esso è una base per li corollario 2.4.6. In particolare, {vers(u1 ), . . . , vers(un )} è una base ortonormale di V. Esempio 2.7.11. Si è già osservato che nello spazio vettoriale numerico la base canonica è una base ortonormale rispetto al prodotto scalare standard. Come altro esempio consideriamo R3 col prodotto scalare standard e in esso 2.7 spazi euclidei reali 37 la base B costituita dai vettori v1 = (1, 1, 0), v2 = (2, 0, 0) e v3 = (0, 0, 1). Si vuole ortonormalizzare B. Si ha u1 = v1 = (1, 1, 0) s(v2 , u1 ) 2 u1 = (2, 0, 0) − (1, 1, 0) = (1, −1, 0) s(u1 , u1 ) 2 s(v3 , u1 ) s(v3 , u2 ) 0 0 u 3 = v3 − u1 − u2 = (0, 0, 1) − (1, 1, 0) − (1, −1, 0) = (0, 0, 1) s(u1 , u1 ) s(u2 , u2 ) 2 2 u 2 = v2 − e {u1 , u2 , u3 } è una base ortogonale di V. Inoltre ! √ √ 2 2 , ,0 2 2 ! √ √ 2 2 u2 1 vers(u2 ) = = √ (1, −1, 0) = ,− ,0 |u2 | 2 2 2 u 1 vers(u1 ) = 1 = √ (1, 1, 0) = |u1 | 2 vers(u3 ) = 1 u3 = (0, 0, 1) = (0, 0, 1) |u3 | 1 e {vers(u1 ), vers(u2 ), vers(u3 )} è una base ortonormale di V. Siano u e v vettori dello spazio euclideo V, con v non nullo. Il numero reale s(u, v) s(v, v) si dice coefficiente di Fourier di u rispetto a v, mentre il vettore projv (u) = s(u, v) v s(v, v) si dice proiezione ortogonale di u su v; si noti che projv (u) ∈ L[v]. Il prossimo risultato mostra, in particolare, che le componenti di un vettore rispetto ad una base ortogonale sono date dai coefficienti di Fourier del vettore in questione rispetto ai vettori della base fissata. Proposizione 2.7.12. Sia R = (e1 , . . . , en ) un riferimento ortogonale dello spazio euclideo V. Se u ∈ V, si ha che u= s(u, e1 ) s(u, e2 ) s(u, en ) e1 + e2 + . . . + en . s(e1 , e1 ) s(e2 , e2 ) s(en , en ) Inoltre, se R è ortonormale e v è un altro vettore di V, si ha che il prodotto scalare tra u e v è dato dal prodotto scalare standard (in Rn ) tra le componenti di u in R e le componenti di v in R. Dimostrazione. Essendo R ortogonale ed s bilineare, posto (u)R = (x1 , . . . , xn ) si ha che per ogni k = 1, . . . , n risulta ! n n X X s(u, ek ) = s xi ei , ek = xi s(ei , ek ) = xk s(ek , ek ) i=1 i=1 per cui xk = s(u, ek ) . s(ek , ek ) 38 spazi vettoriali Da cui, se poi R è ortonormale e v è un altro vettore di V le cui componenti in R sono (v)R = (y1 , . . . , yn ), si ricava ! n n n X X X s(u, v) = u, yi e i = yi s(u, ei ) = xi yi . i=1 i=1 i=1 Siano V uno spazio vettoriale euclideo ed X una parte non vuota di V. Un vettore v di V si dice ortogonale (o normale) ad X se v ⊥ x per ogni x ∈ X, in tal caso si scrive v ⊥ X. Sia poi X⊥ = {v ∈ V | v ⊥ X}. Si verifica facilmente che X⊥ è un sottospazio di V. Se W è un sottospazio, il sottospazio W ⊥ prende il nome di complemento ortogonale di W in V. E’ semplice convincersi che se S è un sistema di generatori per W allora un vettore v di V è ortogonale a W se e solo se v è ortogonale ad ogni vettore in S. Esempio 2.7.13. Determiniamo in R4 (con il prodotto scalare standard) il complemento ortogonale del sottospazio W = {(x, y, z, t) | x + y − z + t = 2y − t = t = 0}. E’ semplice accorgersi che una base per W è {(1, 0, 1, 0)}, dunque W ⊥ è costituito da tutti i vettori (x, y, z, t) di R4 tali che (x, y, z, t) · (1, 0, 1, 0) = 0, quindi W ⊥ = {(x, y, z, t) | x + z = 0} e pertanto una base per W ⊥ è costituita dai vettori (−1, 0, 1, 0), (0, 1, 0, 0) e (0, 0, 0, 1). Sussiste infine il seguente. Teorema 2.7.14. Sia V uno spazio euclideo di dimensione finita e sia W un sottospazio di V. Allora V = W ⊕ W ⊥ . Inoltre risulta essere (W ⊥ )⊥ = W e dim(W ⊥ ) = dim(V) − dim(W). Dimostrazione. Per il teorema 2.7.10, è lecito fissare in W una base ortogonale B = {v1 , . . . , vt }. Se v ∈ V, poniamo p(v) = projv1 (v) + · · · + projvt (v) = s(v, v1 ) s(v, vt ) v1 + · · · + vt . s(v1 , v1 ) s(vt , vt ) Evidentemente p(v) ∈ W e v = p(v) + (v − p(v)). Poichè per ogni i = 1, . . . , t risulta s(v − p(v), vi ) = s(v, vi ) − s(p(v), vi ) = = s(v, vi ) − t X s(v, vj ) s(vi , vj ) = s(vj , vj ) j=1 = s(v, vi ) − s(v, vi ) = 0, 2.7 spazi euclidei reali si ha che v − p(v) ∈ W ⊥ e quindi l’arbitrarietà di v assicura che V = W + W ⊥ . D’altra parte, se v ∈ W ∩ W ⊥ , allora v ∈ W e v ∈ W ⊥ , quindi s(v, v) = 0 e pertanto v = 0. Dunque W ∩ W ⊥ = {0} e così V = W ⊕ W ⊥ ; in particolare, per la formula di Grassmann 2.4.12 risulta dim(W ⊥ ) = dim(V) − dim(W). Ora, quanto provato assicura anche che V = W ⊥ ⊕ (W ⊥ )⊥ e che dim((W ⊥ )⊥ ) = dim(V) − dim(W ⊥ ) = = dim(V) − (dim(V) − dim(W)) = = dim(W), sicchè essendo W 6 (W ⊥ )⊥ risulta essere W = (W ⊥ )⊥ . 39 3 3.1 M AT R I C I E S I S T E M I L I N E A R I generalità e operazioni tra matrici Sia K un campo. Una matrice ad m righe ed n colonne su K (con m, n ∈ N), o semplicemente una matrice (di tipo) m × n su K, è un’applicazione dell’insieme {1, . . . , m} × {1, . . . , n} in K. Sia A : {1, . . . , m} × {1, . . . , n} −→ K una matrice m × n su K. Per ogni elemento (i, j) di {1, . . . , m} × {1, . . . , n} si pone aij = A(i, j) e si dice che aij è l’elemento di A di posizione (i, j), inoltre per indicare la matrice A si scrive A= a11 a21 .. . a12 a22 .. . ... ... .. . a1n a2n .. . am1 am2 ... amn , o semplicemente A = (aij ). Una matrice con tutti gli elementi uguali a 0 si dice matrice nulla. Se (i, j) ∈ {1, . . . , m} × {1, . . . , n}, indichiamo con Ai = (ai1 , . . . , ain ) la i-esima riga di A e con a1j Aj = ... amj la j-esima colonna di A, chiaramente si tratta qui di una matrice 1 × n nel caso delle righe e di una matrice m × 1 nel caso delle colonne. Talvolta sarà utile pensare alle righe o alle colonne della matrice A come vettori numerici dello spazio vettoriale Kn o Km , rispettivamente. Se il numero di righe di A coincide col numero di colonne, cioè m = n, si dice che A è una matrice quadrata di ordine n su K; in tal caso, l’insieme {aii | i = 1, . . . , n} si dice diagonale principale di A. L’insieme delle matrici m × n su K si denota con Mm,n (K); qualora poi m = n si scrive semplicemente Mn (K) in luogo di Mn,n (K). Sia A = (aij ) una matrice m × n sul campo K. Si dice matrice trasposta di A la matrice At = (âij ) a n righe ed m colonne su K che si ottiene da A scambiando le righe con le colonne ovvero il cui generico elemento è âij = aji . Evidentemente (At )t = A. Se A è una matrice quadrata e A = At , si dice che A è una matrice simmetrica. 41 42 matrici e sistemi lineari Esempio 3.1.1. Se A= allora 1 2 0 5 −1 1 ∈ M2,3 (R) 1 0 At = 2 5 ∈ M3,2 (R). −1 1 Si noti che poiché una matrice è un’applicazione, si ha facilmente che due matrici sono uguali se e soltanto se hanno stesso numero di righe e di colonne, e hanno uguali gli elementi con la stessa posizione. Nell’insieme Mm,n (K) si definisce un’operazione di somma ponendo (aij ) + (bij ) = (aij + bij ). E’ facile accorgersi che con l’operazione così definita Mm,n (K) è un gruppo abeliano in cui lo zero è la matrice nulla O (cioè la matrice O = (oij ) i cui elementi oij sono tutti uguali allo zero 0 del campo K), e in cui l’opposto della matrice (aij ) è la matrice −(aij ) = (−aij ). Si considerino ora due matrici A = (ai,j ) ∈ Mm,n (K) e B = (bij ) ∈ Mn,p (K) e si ponga Ai · Bj = ai1 b1j + ai2 b2j + · · · + ain bnj per ogni i = 1, . . . , m e per ogni j = 1, . . . , p. Si definisce prodotto righe per colonne di A e B la matrice, che si denota con A × B o semplicemente con AB, definita dalla posizione AB = (Ai · Bj ) ∈ Mm,p (K). Esempio 3.1.2. Considerando le matrici su R 1 2 1 A= e B= 3 4 4 2 5 3 6 9 19 si ha che AB = 1·1+2·4 3·1+4·4 1·2+2·5 3·2+4·5 1·3+2·6 3·3+4·6 = 12 15 26 33 . Sussiste la seguente. Proposizione 3.1.3. (i) Siano A ∈ Mm,n (K), B ∈ Mn,p (K) e C ∈ Mp,q (K). Allora (AB)C = A(BC), cioè il prodotto righe per colonne è associativo. (ii) Siano A, B ∈ Mm,n (K) e C, D ∈ Mn,p (K). Allora (A + B)C = AC + BC e A(C + D) = AC + AD, cioè il prodotto righe per colonne è distributivo rispetto alla somma. 3.2 matrici a scala Segue in particolare dalla proposizione 3.1.3 che l’insieme Mn (K) delle matrici quadrate di ordine n sul campo K possiede una struttura di anello quando si considerano in esso l’operazione di somma (rispetto al quale è un gruppo abeliano) e l’operazione di prodotto righe per colonne. Tale anello è anche unitario di unità la matrice identica, ovvero la matrice 1 0 ... 0 0 1 ... 0 In = . . . . . ... .. .. 0 0 ... 1 che si può anche denotare come In = (δij ) dove se i = j se i = 6 j 1 0 δij = è il cosiddetto simbolo di Kronecker. Si osservi che l’anello Mn (K) non è in generale commutativo; ad esempio, se K è un qualsiasi campo e si considerano le matrici di M2 (K) 0 0 0 0 A= e B= 1 0 1 1 si ha che AB = 0 0 0 0 e BA = 0 1 0 0 . Si noti che il precedente esempio mostra che in generale nell’anello Mn (K) non vale la legge di annullamento del prodotto. Inoltre considerando le matrici (reali) 3 9 −5 −10 −8 −7 A= ,B= e C= −1 −3 1 2 2 1 ed osservando che B 6= C ma AB = AC = −6 2 −12 4 si ottiene che, in generale, nell’anello Mn (K) non vale la legge di cancellazione. Concludiamo con la seguente proprietà la cui semplice verifica si lascia come esercizio. Esercizio 3.1.4. Sia K un campo. Se A, B ∈ Mm,n (K) e C ∈ Mn,p (K), allora (A + B)t = At + Bt e (AC)t = Ct At . 3.2 matrici a scala Una matrice non nulla A di Mm,n (K) si dice matrice a scala (o anche a gradini o a scalini) se verifica le seguenti condizioni: 43 44 matrici e sistemi lineari (a) Se una riga di A è non nulla, allora il primo elemento non nullo di tale riga, che è detto pivot della riga in considerazione, è più a sinistra del primo elemento non nullo delle righe ad essa successive. (b) Se una riga di A è nulla, tutte le righe ad essa successive sono nulle. Esempio 3.2.1. Sono a scala le matrici 1 0 2 4 0 0 0 7 e mentre e 1 0 0 2 0 0 3 4 , 0 11 0 3 3 4 0 0 0 0 non lo sono. Sia A un matrice m × n su un campo K. Una operazione elementare (sulle righe) in A è una dei seguenti tipi di operazioni (dette mosse di Gauss): Tipo 1) Moltiplicazione di una riga per un elemento non nullo di K: ri → λri (con λ ∈ K \ {0}). Tipo 2) Scambio di due righe: ri ↔ rj . Tipo 3) Aggiunta di un multiplo di una riga ad un’altra riga: ri → ri + λrk (con λ ∈ K). Se A e B sono matrici m × n sul campo K, è chiaro che se B si ottiene da A moltiplicando la riga i-esima per lo scalare non nullo λ, allora A si ottiene da B moltiplicando la riga i-esima per lo scalare non nullo λ−1 . Analogamente se da A passo a B mediante l’operazione ri ↔ rj , allora tramite la stessa operazione passo anche da B ad A; ed infine se da A passo a B mediante l’operazione del tipo ri → ri + λrk , allora da B passo ad A mediante l’operazione ri → ri − λrk . In un certo senso, quindi, ad ogni operazione elementare corrisponde un’operazione elementare “inversa", alla quale nel seguito ci si riferirà appunto con operazione elementare inversa. La matrice A si dice equivalente a B se B si ottiene da A mediante un numero finito di operazioni elementari; in tal caso anche A si ottiene da B mediante un numero finito di operazioni elementari (cioè anche B è equivalente ad A) e quindi si dice semplicemente che A e B sono matrici equivalenti, e si scrive se A ∼ B. Teorema 3.2.2. Ogni matrice (su un campo) è equivalente ad una matrice a scala. La dimostrazione del precedente teorema è detta Algoritmo di Gauss. Tale algoritmo trasfoma una matrice nella sua forma detta forma a scala, esso si basa sull’uso di operazioni elementari di tipo 2) e 3) ed è illustrato come segue. Sia A = (aij ) la generica matrice m × n sul campo K. Passo 1 – Se A è la matrice nulla, l’algoritmo termina. Supponiamo quindi che A sia non nulla. 3.2 matrici a scala Passo 2 – Partendo da sinistra individuiamo la prima colonna non nulla e poi, partendo dall’alto, il primo elemento non nullo in questa colonna; quindi scambiamo eventualmente le righe in modo tale da spostare l’elemento individuato alla prima riga. Formalmente: sia j il minimo intero in {1, . . . , n} tale che la colonna Aj di A sia non nulla e sia i il minimo intero in {1, . . . , m} tale che a = aij 6= 0; inolte, se i 6= 1 effettuiamo l’operazione elementare ri ↔ r1 . Passo 3 – Per ogni riga h successiva alla prima e tale che ahj 6= 0, effettuiamo l’operazione elementare rj → rh − ahj a−1 rj . Così facendo si rendono nulli tutti gli elementi della j-sima colonna che si trovano nelle righe successive alla prima (cioè sotto ad a). Passo 4 – Se A è costituita da un’unica riga l’agoritmo termina, altrimenti si considera la matrice che si ottiene da A cancellando la prima riga e si applica l’algoritmo (ricominciando dal passo 1) a tale matrice. Esempio 3.2.3. Determiniamo una matrice a scala equivalente alla seguente matrice di M3,4 (R) 0 A= 1 −3 −5 1 2 0 2 1 −1 . 1 −1 Si parte dalla prima riga e si vede che la colonna contenente elementi non nulli con indice più piccolo è la prima. Essendo a11 = 0 e a21 6= 0 la prima cosa da fare è scambiare la prima riga con la seconda ottenendo così 1 0 −3 1 −5 2 1 −1 0 2 . 1 −1 Al fine di annullare anche il primo elemento della terza riga, effettuiamo l’operazione r3 → r3 + 3r1 ottendendo la matrice 1 0 0 1 −5 5 1 −1 0 2 . 4 −4 Una volta che abbiamo annullato tutti gli elementi della prima colonna nelle righe successive alla prima, dobbiamo considerare la matrice che si ottiene cancellando la prima riga, in altre parole dobbiamo ripetere l’algoritmo tralasciando la prima riga. In questo caso il pivot si trova già nella posizione giusta e quindi dobbiamo solo annullare gli elementi al di sotto del pivot della seconda riga, ovvero dobbiamo applicare la trasformazione r3 → r3 + r2 così da ottenere la matrice 1 0 0 1 −5 0 1 −1 0 2 4 −2 che è una matrice a scala equivalente ad A. 45 46 matrici e sistemi lineari Esempio 3.2.4. Consideriamo la seguente matrice di M4 (R) 1 0 A= 0 0 2 1 0 5 . 4 2 8 −6 2 0 0 0 Effettuiamo uno scambio tra le seconda e la terza riga ottenendo 1 0 0 0 2 0 0 0 2 1 4 2 0 5 8 −6 e poi per annullare gli elementi della terza colonna nelle righe successive alla seconda effettuiamo l’operazione r4 → r4 − 2r2 e otteniamo 1 0 0 0 2 1 4 2 , 0 5 0 −10 2 0 0 0 quindi l’operazione r4 → r4 + 2r3 ad essa equivalente 1 0 0 0 riduce la matrice A nella matrice a scala 2 0 0 0 2 4 0 0 1 2 . 5 0 Una matrice a scala in cui tutti i pivot sono uguali ad 1 e in cui il pivot è l’unico elemento non nullo della corrispondente colonna, si chiama matrice a scala ridotta. Applicato l’algoritmo di Gauss ad una matrice A, si può fare anche in modo che la matrice a scala ottenuta possa essere trasformata in una matrice a scala ridotta ottendendo così quella che si dice la forma a scala ridotta della matrice A. Teorema 3.2.5. Ogni matrice (su un campo) è equivalente ad un’unica matrice a scala ridotta. Senza affrontare il problema dell’unicità, in seguito si illustrerà l’algoritmo su cui si basa la dimostrazione dell’esistenza della matrice a scala ridotta, tale algoritmo è detto Algoritmo di Gauss-Jordan. Sia A = (aij ) la generica matrice m × n sul campo K e supponiamo che A sia a scala (ovvero che ad essa sia stato applicato già l’algoritmo di Gauss). Passo 1 – Se A è la matrice nulla, l’algoritmo termina. Si assuma quindi che A non sia nulla. Passo 2 – Sia i il massimo intero di {1, . . . , n} tale che la i-esima riga di A sia non nulla (cioè si considera l’ultima riga non nulla della matrice). Detto j l’indice relativo alla colonna di A tale che a = aij è il pivot della riga i-esima, si effettua l’operazione elementare ri → a−1 ri così da rendere il pivot uguale ad 1. 3.2 matrici a scala Passo 3 – Si rendono ora nulli gli elementi che si trovano al di sopra del pivot della riga i-esima, ovvero per ogni riga di indice h < i si effettua l’operazione elementare rh → rh − ahj ri . Passo 4 – Se i = 1 l’algoritmo termina, altrimenti si considera la matrice che si ottiene da A cancellando la i-esima riga e si applica ad essa il procedimento a partire dal passo 1. Esempio 3.2.6. Trasformiamo nella forma a scala ridotta la matrice su R 1 A= 2 −3 −1 1 2 0 2 1 −1 . 1 −2 Mediante l’algoritmo di Gauss essa è equivalente alla matrice a scala 1 0 0 −1 3 0 0 1 4 3 2 −5 . 7 3 Rendiamo ora uguale ad 1 il pivot della terza riga, occoorre quindi moltiplicare la terza riga per 34 . Si ottiene così la matrice 1 0 0 −1 3 0 0 2 1 −5 1 74 alla quale si applica poi l’operazione r2 → r2 − r3 così da rendere nulli tutti gli elementi nella colonna del pivot della terza riga 1 0 0 −1 3 0 0 2 . 0 − 27 4 7 1 4 Si deve ora considerare la matrice che si ottiene da quest’ultima cancellando l’ultima riga, in altre parole applichiamo lo stesso procedimento focalizzando l’attenzione sulla seconda riga (e quella ad essa precedente). Rendiamo uguale ad 1 il pivot della seconda riga dividendo per 3 questa riga 1 0 0 −1 1 0 0 2 0 − 94 , 1 47 a questo punto si effettua l’operazione r1 → r1 + r2 e si ottiene 1 0 0 1 0 0 0 − 14 0 − 94 . 1 74 L’algoritmo di Gauss-Jordan quindi termina, e la matrice ottenuta è la forma a scala ridotta della matrice A. 47 48 matrici e sistemi lineari 3.3 determinante di una matrice Sia A ∈ Mm,n (K). Se i1 , . . . , is ∈ {1, . . . , m} e j1 , . . . , jt ∈ {1, . . . , n} (con s 6 m e t 6 n), poniamo ai1 j1 ai1 j2 . . . ai1 jt ai j ai j . . . ai j 2 t 2 2 21 A(i1 , . . . , is | j1 , . . . , jt ) = . .. .. .. .. . . . a i s j1 ... a i s j2 ais jt ovvero A(i1 , . . . , is | j1 , . . . , jt ) è la matrice che si ottiene da A considerando gli elementi che si trovano simultaneamente sulle righe di posto i1 , . . . , is e sulle colonne di posto j1 , . . . , jt . In generale, gli indici considerati non sono necessariamente distinti; qualora invece si suppone che gli indici sono distinti, che i1 < · · · < is e che j1 < · · · < jt , la matrice A(i1 , . . . , is | j1 , . . . , jt ) viene detta sottomatrice di A. Se poi s = t, A(i1 , . . . , is | j1 , . . . , js ) prende il nome di minore di ordine s di A. In particolare, quando A è quadrata di ordine n, il minore di ordine n − 1 di A ottenuto escludendo dalle righe di A solo una riga, diciamo la i-sima, ed escludendo solo una delle colonne, diciamo la j-sima, si dice minore complementare dell’elemento aij e si denota, per semplicità, col simbolo Aij . Esempio 3.3.1. Data la matrice 2 A = −5 −4 0 6 −5 −3 1 1 −4 0 1 si ha 2 A(1, 2, 1 | 1, 1) = −5 2 2 −5 2 mentre A32 = 2 −5 e A(1, 3 | 2, 4) = −3 1 −4 0 0 −5 −4 1 . Vogliamo definire il determinante di una matrice quadrata A, esso sarà un elemento di K che si indicherà con det(A) (o anche con |A|). Se A = (a) ∈ M1 (K) poniamo det(A) = a. Sia A = (aij ) ∈ Mn (K) con n > 2 e supponiamo di aver definito il determinante delle matrici di Mn−1 (K). Poniamo det(A) = n X (−1) 1+j a1j det(A1j ) = j=1 n X 0 a1j a1j , j=1 0 = (−1)1+j det(A ). Resta così definito un elemento dove si è posto a1j 1j det(A) di K, detto determinante di A, per ogni matrice A di Mn (K), qualsiasi sia l’intero positivo n. L’elemento di K 0 aij = (−1)i+j det(Aij ), si dice complemento algebrico di aij . Inoltre, la matrice A si dice singolare oppure degenere quando det(A) = 0. 3.3 determinante di una matrice Esempio 3.3.2 (Determinante di matrici 2 × 2). Considerata sul campo K una matrice 2 × 2 a11 a12 A= , a21 a22 si ha det(A) = a11 a22 − a12 a21 . Esempio 3.3.3. Calcoliamo il determinante della matrice di M3 (R) 2 A= 0 4 Allora det(A) = 2 1 3 1 5 0 4 − 1 5 1 1 3 −3 1 . 5 0 4 −3 1 3 = 20. Si osservi che nella definizione di determinante si è fissata implicitamente la prima riga, ma in realtà sussiste il seguente notevole risultato, di cui si omette la dimostrazione, il quale ci dice che il determinate di una matrice può essere calcolato avendo fissato una quasiasi riga o colonna. Teorema 3.3.4. (Primo Teorema di Laplace) Sia A = (aij ) una matrice quadrata di ordine n sul campo K. Se h ∈ {1, . . . , n} allora det(A) = e det(A) = n X (−1)h+j ahj det(Ahj ) = n X j=1 j=1 n X n X (−1)i+h aih det(Aih ) = 0 ahj ahj 0 aih aih . i=1 i=1 Sussistono le seguenti proprietà di calcolo del determinante. Corollario 3.3.5. Sia A una matrice quadrata su un campo K. Si ha: (i) det(A) = det(At ). (ii) Se A ha una riga o una colonna nulla, allora det(A) = 0. (iii) Se A ha due righe o due colonne proporzionali, allora det(A) = 0. Dimostrazione. Per provare (i) basta sviluppare il determinare di A secondo una fissta riga i e il determinante di At secondo la colonna i. Per provare (ii) invece basta sviluppare il determinante di A secondo la riga o la colonna nulla. Infine per provare (iii) basta osservare che a λa b λb = λa a λb b = a b λa λb = λa λb a b = λab − λab = 0. e procedere per induzione. Al fine di illustrare l’effetto che le operazioni elementari producono sul calcolo del determinante, si premette il seguente. 49 matrici e sistemi lineari 50 Teorema 3.3.6. (Secondo Teorema di Laplace) Se A = (aij ) è una matrice quadrata sul campo K e h 6= k, allora 0 0 0 =0 + · · · + ahn akn + ah2 ak2 ah1 ak1 e 0 0 0 = 0. + · · · + anh ank + a2h a2k a1h a1k Dimostrazione. Consideriamo la matrice B = (bij ) che si ottiene da A sos0 = a0 . tituendo la k-esima riga con la h-esima. Allora bhj = bkj = ahj e bkj kj Pertanto applicando il primo teorema di Laplace 3.3.4 e sviluppando il determinate secondo la riga k-esima si ha che 0 0 0 . + · · · + ahn akn + ah2 ak2 det(B) = ah1 ak1 D’altra parte in B la h-esima riga e la k-esima sono uguali, quindi det(B) = 0 per il corollario 3.3.5 e pertanto 0 0 0 = 0. + · · · + ahn akn + ah2 ak2 ah1 ak1 Analogamente, considerando la matrice che si ottiene sostituendo la k-esima colonna di A con la h-esima e sviluppando il determinante della matrice così 0 + a a0 + · · · + ottenuta secondo la k-esima colonna, si ottiene a1h a1k 2h 2k 0 anh ank = 0 ed il teorema è provato. Il prossimo risultato mostra l’effetto che le operazioni elementari producono sul determinante di una matrice. Proposizione 3.3.7. Sia A una matrice quadrata sul campo K. Allora: (i) Se la matrice B si ottiene da A moltiplicando tutti gli elementi di una fissata riga (rispettivamente colonna) di A per una costante λ ∈ K, allora si ha che det(B) = λ det(A); (ii) Se B è la matrice che si ottiene da A scambiando due righe (rispettivamente colonne), allora risulta det(B) = −det(A); (iii) Se la matrice B si ottiene da A aggiungendo ad una riga (rispettivamente colonna) il multiplo di un’altra riga (rispettivamente colonna), allora si ha che det(B) = det(A). (iv) Se la matrice B si ottiene da A sommando ad una riga una combinazione lineare delle restanti righe, allora det(B) = det(A). In particolare, se la matrice B è equivalente ad A allora det(B) = 0 se e solo se det(A) = 0. Proof. Proviamo la proposizone nel caso delle righe, gli asserti per le colonne seguono dalla (i) del corollario 3.3.5. (i) Supponiamo di aver ottenuto la matrice B = (bij ) moltiplicato la riga 0 = a 0 e pertanto, i- esima di A = (aij ) per λ. Allora bij = λ aij e bij ij sviluppando il determinante secondo la i-esima, si ottiene subito det(B) = λ det(A). (ii) Per matrici di ordine 2 si ha a c b d = ad − bc = −(bc − ad) = − c a d . b 3.3 determinante di una matrice Supposto l’asserto vero per matrici di ordine n − 1 (con n > 3), si ha subito l’asserto per quelle di ordine n sviluppando il determinante secondo una riga diversa da quelle che si scambiano. (iii) Sia B = (bij ) la matrice che si ottiene da A = (aij ) mediante la trasformazione ri → ri + λ rk (con λ ∈ K). Allora bij = aij + λ akj mentre 0 = a 0 , dunque b b 0 = a a 0 + λ a a e quindi, applicando il secondo bij ij ij ij ij kj ij ij teorema di Laplace 3.3.6, si ottiene det(B) = X 0 = bij bij X 0 + aij aij X j j j = det(A) + λ X 0 = λ akj aij 0 akj aij = det(A). j (iv) Sia B la matrice che si ottiene dalla matrice A mediante l’operazione ri −→ ri − λ1 r1 − · · · − λn rn . Consideriamo la matrice B1 che si ottiene da A mediante l’operazione ri −→ ri − λ1 r1 , la matrice B2 che si ottiene da B1 mediante l’operazione ri −→ ri − λ2 r2 , e così via fino alla matrice Bn che si ottiene da Bn−1 mediante l’operazione ri −→ ri − λn rn . Allora la (iii) garantisce che det(A) = det(B1 ) = det(B2 ) = · · · = det(Bn ); ma evidentemente Bn = B e quindi det(B) = det(A). Una matrice quadrata A = (aij ) si dice triangolare superiore se tutti gli elementi sotto la diagonale principale sono nulli, cioè se aij = 0 se i > j. Si dice invece triangolare inferiore se tutti gli elementi che si trovano al di sopra della diagonale principale sono nulli, ovvero se aij = 0 se i < j. La matrice A si dice poi matrice diagonale se gli eventuali elementi non nulli in A si trovano solo sulla diagonale principale, e quindi quando aij = 0 se i 6= j. Proposizione 3.3.8. Il determinante di una matrice (su un campo) triangolare superiore, o triangolare inferiore o diagonale è il prodotto degli elementi della diagonale principale. Dimostrazione. Se A= a11 0 0 .. . a12 a22 0 .. . a13 a23 a33 .. . ... ... ... .. . a1n a2n a3n .. . 0 0 0 ... ann è triangolare superiore, sviluppando det(A) secondo la prima colonna otteniamo a22 a23 . . . a2n 0 a33 . . . a3n det(A) = a11 · .. .. .. .. . . . . 0 0 ... ann e iterando lo sviluppo dei determinanti sempre secondo la prima colonna, si ottiene che det(A) = a11 a22 . . . ann . Un analogo ragionamento prova il risultato quando A è triangolare inferiore o diagonale. 51 matrici e sistemi lineari 52 La precedente proposizione fornisce un utile modo per il calcolo del determinate. Se A è una matrice quadrata di ordine n su un campo K, mediante l’algoritmo di Gauss sappiamo trasformare A in una matrice a scala B = (bij ) ad essa equivalente. Poichè anche B è una matrice quadrata, essa è una matrice triangolare superiore di ordine n e quindi la proposizione 3.3.8 assicura che det(B) = b11 . . . bnn . Poichè l’algoritmo di Gauss non prevede l’uso di operazioni di tipo 1), se per passare da A a B ci sono stati s ∈ N0 scambi di righe, la proposizione 3.3.7 assicura che det(A) = (−1)s b11 . . . bnn . Un’altra utile proprietà del determinante è fornita dal seguente teorema di cui si omette la dimostrazione. Teorema 3.3.9. (Teorema di Binet) Siano A e B matrici quadrate di ordine n sul campo K. Allora det(AB) = det(A)det(B) = det(BA). 3.4 matrici invertibili Siano K un campo e n un intero positivo. Una matrice quadrata A di ordine n su K si dice invertibile se A è un elemento simmetrizzabile di Mn (K) rispetto all’operazione di prodotto righe per colonne, ossia se esite una matrice B ∈ Mn (K) tale che AB = In e BA = In ; in questo caso, come semplice conseguenza dell’associatività del prodotto righe per colonne, si ha che la matrice B è univocamente determinata: questa unica matrice B si dice matrice inversa di A e si denota con A−1 . Chiaramente, (A−1 )−1 = A, ed è inoltre semplice accorgersi che (At )−1 = (A−1 )t . Si osservi che esistono matrici che non sono invertibili, infatti se A è una matrice quadrata di ordine n sul campo K e A ha una riga (rispettivamente, colonna) nulla allora anche AB ha una riga (rispettivamente, colonna) nulla, e quindi AB 6= In , qualsiasi sia la matrice B in Mn (K). Proposizione 3.4.1. Sia K un campo. Se A e B sono matrici invertibili di Mn (K), allora anche AB è invertibile e (AB)−1 = B−1 A−1 . Dimostrazione. Si ha (AB)(B−1 A−1 ) = A(BB−1 )A−1 = A In A−1 = AA−1 = In e (B−1 A−1 )AB = B−1 (A−1 A)B = B−1 In B = B−1 B = In , pertanto AB è invertibile e (AB)−1 = B−1 A−1 . Fissato un campo K ed un intero positivo n, la precedente proposizione assicura che l’insieme GLn (K) delle matrici invertibili di Mn (K) è stabile rispetto al prodotto righe per colonne. D’altra parte è evidente che la matrice identica è invertibile, e se A è una matrice invertibile è stato già osservato che anche A−1 è invertibile, dunque rispetto all’operazione di prodotto righe per colonne l’insieme GLn (K) è un gruppo, detto gruppo lineare delle matrici quadrate d’ordine n su K. 3.4 matrici invertibili 53 Sia A = (aij ) una matrice quadrata di ordine n sul campo K. Chiamiamo aggiunta di A la trasposta della matrice i cui elementi sono i complementi algebrici di A ovvero la seguente matrice 0 a11 agg(A) = ... 0 a1n 0 a21 .. . 0 a2n 0 an1 .. . . 0 ann ... .. . ... Poichè il primo teorema di Laplace 3.3.4 e il secondo teorema di Laplace 3.3.6 insieme permettono di scrivere 0 0 0 0 0 0 , + · · · + ani anj + a2i a2j = δij det(A) = a1i a1j + · · · + ain ajn + ai2 aj2 ai1 aj1 dove δij è il simbolo di Kronecker, si ha che A · agg(A) = agg(A) · A = (δij det(A)) = det(A) · In = = det(A) 0 .. . 0 det(A) .. . ... ... .. . 0 0 .. . 0 0 ... det(A) . Teorema 3.4.2. Sia A una matrice quadrata di ordine n sul campo K. Se det(A) 6= 0 1 allora A è invertibile e la sua inversa è A−1 = det(A) · agg(A). Dimostrazione. Utilizzando la precente osservazione e l’associatività del prodotto righe per colonne, otteniamo A · (det(A)−1 · agg(A)) = (det(A))−1 · (A · agg(A)) = = det(A)−1 · (det(A) · In ) = = (det(A)−1 · det(A)) · In = In . Allo stesso modo, (det(A)−1 · agg(A)) · A = In e quindi il risultato è provato. Esempio 3.4.3. Consideriamo la matrice a coefficienti reali 1 2 A= . 3 4 Poichè det(A) = −2, A è invertibile e quindi applichiamo il teorema 3.4.2 per il calcolo della matrice inversa. Considerando la matrice dei complementi algebrici, otteniamo che 4 −3 t agg(A) = . −2 1 Dunque, A −1 1 1 agg(A) = − · = det(A) 2 4 −3 −2 1 = −2 3 2 1 − 21 . 54 matrici e sistemi lineari Se A ∈ Mn (K) è una matrice invertibile, allora AA−1 = In ed il teorema di Binet 3.3.9 assicura che det(A)det(A−1 ) = det(AA−1 ) = det(In ) = 1; quindi det(A) 6= 0 ed inoltre det(A−1 ) = 1 . det(A) Corollario 3.4.4. Sia A una matrice d’ordine n sul campo K. Allora A è invertibile se e solo se det(A) 6= 0. In particolare, GLn (K) è l’insieme delle matrici non singolari di Mn (K). Dimostrazione. Per il teorema 3.4.2 se det(A) 6= 0, la matrice A è invertibile. Viceversa, se A è invertibile allora det(A) 6= 0 per quanto osservato sopra. 3.5 dipendenza lineare e rango di una matrice Se A è una matrice di ordine m × n sul campo K, allora le righe A1 , . . . , Am di A sono vettori di Kn mentre le colonne A1 , . . . , An di A sono vettori di Km . Si dice spazio delle righe di A il sottospazio R(A) = L[A1 , . . . , Am ] di Kn generato dalle righe di A; si dice invece spazio delle colonne di A il sottospazio C(A) = L[A1 , . . . , An ] di Km generato dalle colonne di A. Ha senso quindi determinare insiemi liberi di righe o di colonne di A, e definire rango di riga di A il massimo numero ρr (A) di righe indipendenti di A, ovvero ρr (A) = dim R(A), e rango di colonna di A il numero ρc (A) = dim C(A), ovvero il massimo numero di colonne indipendenti di A. Teorema 3.5.1. Sia A una matrice m × n su K. Allora ρr (A) = ρc (A). Dimostrazione. Sia {Ai1 , . . . , Aip } una base per lo spazio delle righe di A, in particolare p = ρr (A) e per ogni i = 1, . . . , m si ha che Ai = λi,i1 Ai1 + · · · + λi,ip Aip per opportuni λi,i1 , . . . , λi,ip ∈ K. Fissato un indice j ∈ {1, . . . , n}, dalla precedente relazione si ricava che a1j = λ1,i1 ai1 ,j + · · · + λ1,ip aip ,j a2j = λ2,i1 ai1 ,j + · · · + λ2,ip aip ,j .. . amj = λm,i1 ai1 ,j + · · · + λm,ip aip ,j e pertanto se per ogni h = 1, . . . , p si pone λ1,ih λ2,i h Λ ih = . .. λm,ih 3.5 dipendenza lineare e rango di una matrice si ricava che Aj = ai1 ,j Λi1 + · · · + aip ,j Λip . L’arbitrarietà di j assicura quindi che C(A) 6 L[Λi1 , . . . , Λip ] e pertanto segue dal Lemma di Steinitz 2.4.1 che ρc (A) = dim C(A) 6 p = ρr (A). In maniera analoga, scambiando il ruolo delle righe e delle colonne, si prova che ρr (A) 6 ρc (A) e pertanto ρr (A) = ρc (A). Considerata A una matrice di ordine m × n su un campo K, il teorema 3.5.1 assicura che ρr (A) = ρc (A) ed è quindi possibile definire rango di A come il massimo numero ρ(A) di righe (o colonne) indipendenti di A, ovvero ρ(A) = ρr (A) = ρc (A); in particolare, ρ(A) = 0 se e solo se A è la matrice nulla. Evidentemente, ρ(A) 6 min{m, n}; inoltre, essendo chiaramente ρr (A) = ρc (At ), si ha anche che ρ(A) = ρ(At ). E’semplice accorgersi che il rango di una matrice a scala coincide il numero delle righe non nulle, e quindi il prossimo risultato suggerisce che per calcolare il rango di una matrice basta applicare ad essa l’algoritmo di Gauss e poi contare il numero di righe non nulle nella matrice a scala ottenuta. Proposizione 3.5.2. Siano A e B matrici m × n sul campo K. Se A e B sono matrici equivalenti, allora R(A) = R(B); in particolare, ρ(A) = ρ(B). Dimostrazione. Poichè B è equivalente ad A, possiamo ottenere B a partire da A attraverso una sequenza finita di operazioni elementari. Quindi i vettori riga di B sono combinazioni lineari dei vettori riga di A e pertanto appartengono allo spazio generato dalle righe di A. Ne consegue che lo spazio generato dalle righe di B è un sottospazio dello spazio delle righe di A. D’altra parte anche A è equivalente a B, quindi lo spazio generato dalla righe di A è contenuto nello spazio generato dalle righe di B e pertanto coincide con esso. In definitiva, R(A) = R(B) e conseguentemente ρ(A) = ρ(B). Esempio 3.5.3. La forma a scala della matrice 1 1 0 −1 A = 0 −1 1 0 1 0 1 −1 è la matrice 1 0 0 1 −1 0 0 −1 1 0 . 0 0 Così ρ(A) = 2 per la proposizione 3.5.2 e la proposizione 3.5.2. Per le matrici quadrate sussiste la seguente proposizione dalla quale discende, in particolare, che una matrice quadrata d’ordine n ha rango massimo (cioè n) se e solo se è non singolare. 55 matrici e sistemi lineari 56 Proposizione 3.5.4. Sia A una matrice quadrata sul campo K. Allora det(A) = 0 se e solo se una riga (rispettivamente colonna) di A è combinazione lineare delle restanti righe (rispettivamente colonne). Dimostrazione. Per il corollario 3.3.5, det(A) = det(At ) e quindi è sufficiente provare l’asserto per le righe. Supponiamo dapprima che A ∈ Mn (K) sia una matrice singolare e per assurdo supponiamo che l’insieme {A1 , . . . , An } sia libero. Considerata la forma a scala ridotta B di A, la proposizione 3.5.2 assicura che L[A1 , . . . , An ] = L[B1 , . . . , Bn ], così l’insieme {B1 , . . . , Bn } è un sistema di generatori di uno spazio vettoriale di dimensione n e quindi deve essere una base, in particolare è un insieme libero. Dunque B è una matrice a scala ridotta, quadrata e priva di righe nulle, e quindi B è necessariamente la matrice identica. In particolare, det(B) 6= 0 e così anche det(A) 6= 0 per la proposizione 3.3.7. Questa contraddizione prova che l’insieme {A1 , . . . , An } è legato e dunque una riga di A deve dipendere dalle restanti. Viceversa, supponiamo che la riga i-esima di A sia combinazione lineare delle restanti righe: Ai = λ1 A1 + · · · + λn An (con ogni λi ∈ K), e sia B la matrice che si ottiene da A sottraendo alla riga i-esima tale combinazione lineare, ovvero B si ottiene dala matrice A mediante un’operazione del tipo ri −→ ri − λ1 r1 − · · · − λn rn . Per la proposizione 3.3.7 risulta det(B) = det(A); d’altra parte la i-esima riga di B è nulla e pertanto il suo determinante è nullo per il corollario 3.3.5. Così det(A) = 0. Come già osservato, la proposizione 3.5.4 assicura che una matrice quadrata ha rango massimo se e solo se ha determinante non nullo; questo suggerisce inoltre che deve esserci un legame tra il concetto di rango e quello di determinante: al fine di stabilire tale legame premettiamo la seguente definizione. Considerato un minore M di ordine p di una matrice A, si dice orlato di M un minore di ordine p + 1 di A che ha M come minore di ordine p. Invece, un minore fondamentale di A è un minore di A che è non singolare ma è tale che ogni suo orlato è singolare. Praticamente, un orlato di M in A si ottiene “aggiungendo" una riga e una colonna di A ad M. Esempio 3.5.5. Un minore della matrice 1 2 5 0 7 4 9 −2 A= −2 1 6 2 0 −5 2 1 è 2 4 −1 3 Un suo orlato è ad esempio il minore di A 2 A(1, 2, 4 | 2, 4, 5) = 4 −5 0 −2 1 A(1, 2 | 2, 5) = −1 3 5 4 . −1 3 . 4 Quest’ultimo possiede due soli orlati il primo relativo alle righe 1, 2, 4, 3 e alle colonne 1, 2, 4, 5 e il secondo relativo alle righe 1, 2, 4, 3 e alle colonne 2, 4, 5, 3 ed essi sono le matrici 1 2 0 −1 7 4 −2 3 A(1, 2, 3, 4 | 1, 2, 4, 5) = −2 1 2 5 0 −5 1 4 3.5 dipendenza lineare e rango di una matrice e 2 5 4 9 A(1, 2, 3, 4 | 2, 3, 4, 5) = 1 6 −5 2 0 −2 2 1 −1 3 . 5 4 Sussiste il seguente notevole risultato. Teorema 3.5.6. (Teorema degli Orlati) Sia A una matrice m × n sul campo K e sia M un minore fondamentale di A di ordine p. Allora l’insieme delle righe (rispettivamente, colonne) di A coinvolte nel minore M è una base per il sottospazio generato dalle righe (rispettivamente, colonne) di A. In particolare, ρ(A) = p. Dimostrazione. Proviamo il risultato per le righe, da questo seguirà il risultato per le colonne considerando la trasposta di A. Per fissare le idee, supponiamo sia M = A(i1 , . . . , ip | j1 , . . . , jp ). Se le righe Ai1 , . . . , Aip di A fossero linearmente dipendenti, allora anche le righe Mi1 , . . . , Mip di M sarebbero dipendenti e quindi si avrebbe det(M) = 0 per la proposizione 3.5.4. Questa contraddizione prova che le righe Ai1 , . . . , Aip sono indipendenti e pertanto resta da provare che tutte le altre righe di A dipendono da queste. Fissiamo quindi un indice di riga i 6∈ {i1 , . . . , ip } e proviamo che Ai è combinazione lineare di Ai1 , . . . , Aip . Per ogni j = 1, . . . , n si consideri la matrice ai1 j1 . . . ai1 jp ai1 j .. .. .. .. . . . . M(j) = . ai j . . . ai j aip j p 1 p p aij1 . . . aijp aij Se j ∈ {j1 . . . , jp } allora M(j) ha due colonne uguali e quindi è singolare per la proposizione 3.3.5, altrimenti (a meno di scambiare righe) M(j) è un orlato di M e quindi M(j) è singolare anche in questo caso (si veda pure la proposizione 3.3.7). Pertanto det(M(j)) = 0 per ogni j = 1, . . . , n. Osserviamo che le matrici M(1), . . . , M(n) hanno le prime p colonne uguali, sicchè i complementi algebrici degli elementi dell’ultima colonna coincidono, siano essi λ1 , λ2 , . . . , λp+1 ∈ K; si osservi inoltre che λp+1 è a meno del segno uguale a det(M) e quindi λp+1 6= 0. Sviluppando il determinante di M(j) rispetto all’ultima colonna ricaviamo det(M(j)) = ai1 j λ1 + · · · + aip j λp + aij λp+1 = 0. Poichè la precedente relazione vale per ogni j = 1, . . . , n, sussiste la seguente relazione vettoriale (in Kn ) aip 1 ai1 1 ai1 ai 2 aip 2 ai2 1 λ + .. λ1 + · · · + .. λp+1 = 0 p .. . . . ai1 n aip n ain dove riconosciamo che i primi p vettori sono le righe Ai1 , . . . , Aip di A mentre l’ultimo vettore è la riga i-esima Ai . Pertanto, essendo λp+1 6= 0, ricaviamo che −1 Ai = −λ−1 p+1 λ1 Ai1 − · · · − λp+1 λp Aip , come volevamo. 57 matrici e sistemi lineari 58 Esempio 3.5.7. Calcoliamo il rango della matrice 1 1 0 −1 A = 0 −1 1 0 1 0 1 −1 la stessa di cui prima abbiamo calcolato il rango usando l’algoritmo di Gauss. Iniziamo col considerare il minore M1 = A(1 | 1) = (1) che è ovviamente non singolare. Orliamo M1 considerando 1 1 M2 = A(1, 2 | 1, 2) = 0 −1 che è non singolare avendo per determinante −1. amo i possibili orlati di M2 ovvero le matrici 1 1 0 −1 A(1, 2, 3 | 1, 2, 3) = 1 0 e 1 A(1, 2, 3 | 1, 2, 4) = 0 1 1 −1 0 A questo punto consideri 0 1 1 −1 0 . −1 Poichè queste matrici sono singolari, il teorema degli orlati 3.5.6 ci permette di concludere che ρ(A) = 2. La nozione di rango di una matrice è una nozione importante e molto utile per valutare la lineare (in)dipendenza di vettori numerici, come mostra il seguente esempio. Esempio 3.5.8. Supponiamo di voler stabilire se in R4 i vettori v1 = (1, 0, −1, 2), v2 = (2, −1, 0, 1) e v3 = (−1, −1, −1, 1) sono linearmente dipendenti o indipendenti. Considerata la matrice che ha questi vettori come righe 1 0 −1 2 A = 2 −1 0 1 −1 −1 −1 1 e osservando che la sua forma a scala è la matrice 1 0 −1 2 0 −1 2 −3 0 0 0 0 si ha che ρ(A) = 2. Un minore fondamentale di A è ad esempio A(1, 2 | 1, 2), e dunque il lemma 3.5.6 assicura che i vettori v1 e v2 sono indipendenti e che v3 dipende da essi (come c’era da aspettarsi visto che v3 = v1 − v2 ). 3.6 generalità sui sistemi lineari Sia f(x1 , . . . , xn ) un polinomio di grado m sul campo K nelle n indeterminate x1 , . . . , xn . L’espressione f(x1 , . . . , xn ) = 0 prende il nome di equazione algebrica di grado m e rappresenta il problema della ricerca delle radici del 3.6 generalità sui sistemi lineari polinomio f(x1 , . . . , xn ) ovvero delle n-uple y = (y1 , . . . , yn ) di elementi di K tali che f(y1 , . . . , yn ) = 0. Le indeterminate x1 , . . . , xn si dicono incognite dell’equazione e la radice y di f si dice soluzione dell’equazione f = 0. Se m = 1, l’equazione f = 0 si dice equazione lineare; in tal caso, dovendo essere un polinomio di grado 1, si ha che f = a1 x1 + · · · + an xn − b per opportuni a1 , . . . , an , b ∈ K e quindi l’equazione lineare si scrive come a1 x1 + · · · + an xn − b = 0 o anche come a1 x1 + · · · + an xn = b. Un sistema lineare di m equazioni in n incognite su K, o a coefficienti in K, è un insieme di equazioni lineari su K a11 x1 + · · · + a1n xn = b1 .. Σ: (6) . am1 x1 + · · · + amn xn = bm Dato il sistema lineare (6), la matrice di Mm,n (K) a11 a12 . . . a1n a21 a22 . . . a2n A= . .. .. , .. .. . . . am1 am2 . . . amn si dice matrice incompleta o matrice dei coefficienti del trice di Mm,n+1 (K) a11 a12 . . . a1n b1 a21 a22 . . . a2n b2 .. .. .. .. .. . . . . . am1 am2 . . . amn bm sistema, mentre la ma , si dice matrice completa del sistema. Inoltre, spesso il sistema x1 .. usando la notazione matriciale come AX = B dove X = . (6) si scrive ∈ Kn e xn b1 B = ... ∈ Km e AX indica il prodotto righe per colonne tra A ed bm X. Nel seguito la matrice completa del sistema AX = B si indicherà con (A|B). Un sistema lineare del tipo AX = 0 (dove 0 è il vettore colonna nullo) si dice omogeneo; inoltre dato un sistema lineare Σ : AX = B, il sistema Σom : AX = 0 si dice sistema lineare omogeneo associato ad esso. Una soluzione di (6) è una n-upla (y1 , . . . , yn ) di elementi di K che è soluzione per ciascuna equazione che forma il sistema (6). Un sistema lineare si dice compatibile se ha almeno una soluzione, incompatibile altrimenti. Un sistema compatibile che ammette una sola soluzione si dice determinato. Determinare le soluzioni, o risolvere, un sistema significa Σ determinare se è compatibile o meno e, nel caso sia compatibile, scrivere l’insieme Sol(Σ) delle sue soluzioni. Si noti che essendo A0 = 0 ogni sistema lineare omogeneo è compatibile, avendo esso almeno la soluzione nulla. 59 60 matrici e sistemi lineari Lemma 3.6.1. Un sistema lineare AX = B a coefficienti nel campo K è compatibile se e solo se il vettore B dipende linearmente dai vettori colonna di A. Dimostrazione. Il sistema lineare AX = B ha una soluzione (y1 , . . . , yn ) ∈ Kn se e solo se y1 A1 + . . . yn An = B, ovvero se e solo se il vettore numerico colonna B dipende dall’insieme delle colonne di A. Teorema 3.6.2. (Teorema di Rouché – Capelli) Un sistema lineare AX = B di m equazioni in n incognite a coefficienti in un campo K è compatibile se e solo se le matrici A e (A|B) hanno lo stesso rango. Dimostrazione. Supponiamo che ρ(A) = p e sia C = {Aj1 , . . . , Ajp } un sistema massimale di colonne indipendenti di A. Se il sistema AX = B è compatibile, allora B dipende dalle colonne di A per il lemma 3.6.1 e quindi dall’insieme C, così C è un sistema massimale di colonne indipendenti anche per la matrice (A|B) e pertanto ρ(A|B) = p. Reciprocamente, se ρ(A) = ρ(A|B), le colonne (di A) che formano un sistema massimale di colonne per A, formano un sistema massimale di colonne anche per (A|B), e quindi, poichè tra esse non c’è B, il vettore B dipende da esse. Così AX = B è compatibile per il lemma 3.6.1. 3.7 metodi di risoluzione Due sistemi lineari in n incognite si dicono equivalenti se hanno le stesse soluzioni, cioè se ogni soluzione dell’uno è anche soluzione dell’altro e viceversa. Sussiste la seguente proprietà, la cui verifica si lascia per esercizio. Esercizio 3.7.1. Il sistema lineare AX = B (di m equazioni in n incognite su un campo K) è equivalente ad ogni sistema lineare la cui matrice completa è equivalente ad (A|B). Se AX = B è un sistema lineare, allora alla matrice completa (A|B) si può applicare l’algoritmo di Gauss-Jordan ottenendo una matrice C che può pensarsi come la matrice completa di un sistema equivalente ad AX = B. Evidentemente nel il sistema così ottenuto la ricerca delle soluzioni sarà più semplice, e nel caso particolare che il sistema AX = B sia determinato l’ultima colonna della matrice C fornirà direttamente una soluzione del sistema. Esempio 3.7.2 (Sistema incompatibile). Consideriamo il sistema (in R) 2x1 + x2 = 1 x + x2 + x3 − x4 = 2 1 x1 − x3 + x4 = 1 La sua matrice completa è 2 1 1 1 1 0 0 1 −1 0 −1 1 1 2 1 3.7 metodi di risoluzione la quale è equivalente alla matrice 1 1 1 −1 0 1 2 −2 0 0 0 0 61 2 3 . 2 Questa seconda matrice è la matrice completa del sistema lineare x1 + x2 + x3 − x4 = 2 x + 2x3 − 2x4 = 3 2 0x4 = 2 che è incompatibile, infatti la matrice incompleta del sistema ha rango 2 mentre la matrice completa ha rango 3 (cfr. teorema 3.6.2). Esempio 3.7.3 (Sistema determinato). Consideriamo il sistema (in R) x1 − x2 = 2 2x1 + x2 + x3 = −1 −3x1 + 2x2 + x3 = −2 che ha per matrice completa 1 2 −3 −1 1 2 0 2 1 −1 1 −2 la quale, come abbiamo visto in un esempio in precedenza, mediante l’algoritmo di Gauss-Jordan, si trasforma nella seguente matrice ad essa equivalente 1 0 0 − 41 0 1 0 −9 . 4 0 0 1 74 Questa seconda matrice è la matrice completa del sistema lineare 1 x1 = − 4 x = −9 2 74 x3 = 4 che ha per soluzione (− 14 , − 49 , 74 ). Esempio 3.7.4 (Sistema compatibile ma determinato). Consideriamo il sistema (in R) 2x1 + x2 = 1 x1 + x2 − x3 = 2 La sua matrice completa è 2 1 1 1 0 −1 1 2 la quale viene trasformata mediante l’algoritmo di Gauss-Jordan nella matrice ad essa equivalente 1 0 1 −1 . 0 1 −2 3 62 matrici e sistemi lineari Questa seconda matrice è la matrice completa del sistema lineare x1 + x3 = −1 x2 − 2x3 = 3 che è compatibile ma non è determinato perchè le sue soluzioni si ottengono al variare di x3 in R, ovvero ha per soluzioni tutti gli infiniti elementi dell’insieme {(−x3 − 1, 2x3 + 3, x3 ) | x3 ∈ R}. Nel caso particolare di sistemi lineari in cui il numero di equazioni e il numero di incognite è lo stesso, sussiste il seguente risultato: esso fornisce una “regola" per determinare le soluzioni di un tale sistema detta talvolta Regola di Cramer. Teorema 3.7.5. (Teorema di Cramer) Sia AX = B un sistema lineare di n equazioni in n incognite su un campo K. Se det(A) 6= 0 allora il sistema è compatibile e determinato e la sua unica soluzione (x1 , . . . , xn ) si ottiene come segue. Per ogni i = 1, . . . , n, considerata la matrice che si ottiene da A sostituendo la sua i-esima colonna con B Âi = (A1 , . . . , Ai−1 , B, Ai+1 , . . . , An ), si ha che xi = det(Âi ) . det(A) Dimostrazione. Poichè det(A) 6= 0, il corollario 3.4.4 assicura che la matrice A è invertibile. Allora X = (A−1 A)X = A−1 (AX) = A−1 B è l’unica soluzione del sistema AX = B e così, ricordando il teorema 3.4.2, otteniamo che l’unica soluzione del sistema AX = B è 0 0 0 a11 a21 an1 . . . x1 b1 det(A) det(A) det(A) .. .. .. .. .. .. . . . = . . . . 0 0 0 a1n a2n ann xn bn . . . det(A) det(A) det(A) Pertanto per ogni i = 1, . . . , n risulta xi = 0 + b a0 + · · · + b a0 b1 a1i det(Âi ) n ni 2 2i = , det(A) det(A) dove ques’ultima uguaglianza si ottiene sviluppando det(Âi ) rispetto alla i-esima colonna. Un sistema lineare AX = B di n equazioni in n incognite con det(A) 6= 0 si dice sistema di Cramer. Il precendente teorema assicura quindi che ogni sistema di Cramer è determinato. 3.7 metodi di risoluzione Esempio 3.7.6. Consideriamo il sistema lineare x1 − x2 = 4 2x1 + x2 = 0 la cui matrice dei coefficienti ha determinante 3. Dunque tale sistema è di Cramer e il teorema di Cramer 3.7.5 assicura che le soluzioni sono x1 = 4 0 −1 1 3 = 4 3 e 1 2 x2 = 4 0 3 8 =− . 3 Esempio 3.7.7. Considerato il sistema 4x1 − 5x2 + 3x3 = 1 x − 3x2 + x3 = −1 1 2x1 + x2 − 5x3 = 1 la cui matrice dei coefficienti 4 A= 1 2 −5 −3 1 3 1 −5 ha determinante uguale a 42, detta Ai (con i = 1, 2, 3) la matrice che si ottiene da A rimpiazzando la i-esima colonna con la colonna dei termini noti si ha che det(A1 ) = 1 −1 1 −5 −3 1 3 1 −5 = 40, det(A3 ) = 4 1 2 det(A2 ) = −5 −3 1 1 −1 1 4 1 2 1 −1 1 3 1 −5 = 32 e = 14; dunque il teorema di Cramer 3.7.5 assicura che la soluzione del sistema lineare è data dalla terna (x1 , x2 , x3 ) dove x1 = det(A1 ) 40 20 = = ; det(A) 42 21 x3 = x2 = det(A2 ) 32 16 = = det(A) 42 21 e det(A3 ) 14 1 = = . det(A) 42 3 Un sistema lineare AX = B di m equazioni in n incognite sul campo K si dice ridotto in forma normale se ρ(A) = m 6 n. Evidentemente in tal caso anche ρ(A|B) = m e quindi il sistema è compatibile per il teorema di Rouché – Capelli 3.6.2. D’altra parte se AX = B è un sistema lineare (qualsiasi) compatibile in cui ρ(A) = ρ(A|B) = p, scelte p righe indipendenti Ri01 , . . . , Ri0p di (A|B), ogni altra riga di (A|B) è combinazione lineare di queste e quindi il sistema lineare AX = B è equivalente al sistema lineare che ha come matrice 63 64 matrici e sistemi lineari completa quella le cui righe sono Ri01 , . . . , Ri0p , quest’ultimo sistema evidentemente è ridotto a forma normale. Quindi ogni sistema lineare compatibile è equivalente ad un sistema in forma normale. Sia AX = B un sistema lineare compatibile di m equazioni in n incognite su un campo K. Al fine di illustrare un altro metodo di risoluzione di un sistema lineare, detto metodo dei determinanti (o dei minori), per quanto detto sopra è lecito supporre che il sistema AX = B sia già ridotto in forma normale, sicchè ρ(A) = ρ(A|B) = m 6 n. Se m = n il sistema è di Cramer, infatti det(A) 6= 0 per la proposizione 3.5.4, e quindi la regola di Cramer ci permette di determinare l’unica soluzione del sistema lineare. Sia allora m < n e siano Aj1 , . . . , Ajm le m colonne indipendenti di A. Posto q = n−m e {k1 , . . . , kq } = {1, . . . , n} \ {j1 , . . . , jm }, il sistema può essere riscritto come a1,j1 xj1 + · · · + a1,jm xjm = b1 − a1,k1 xk1 − · · · − a1,kq xkq ... am,j1 xj1 + · · · + am,jm xjm = bm − am,k1 xk1 − · · · − am,kq xkq (7) e qui le incognite xk1 , . . . , xkq vengono dette parametri. Fissato arbitrariamente un valore per ciascun parametro, questo sistema lineare, visto come sistema nelle sole incognite xj1 , . . . , xjm , è un sistema di Cramer per la proposizione 3.5.4 e può essere risolto applicando la regola di Cramer. Segue così che le soluzioni del sistema (7), e quindi anche del sitema lineare AX = B, dipendono da q = n − m = n − ρ(A) parametri (o come si dice, il sistema ha ∞n−ρ(A) soluzioni). Esempio 3.7.8. Applichiamo il metodo dei determinanti per risolvere il seguente sistema lineare a coefficienti reali: 3x1 + 8x2 − 4x3 = 2 x + x2 − x3 = 1 (8) 1 x1 + 6x2 − 2x3 = 0 E’ semplice accorgersi che tale sistema è compatibile e che un minore fondamentale della matrice dei coefficienti (e anche della matrice completa) del sistema (8) è M = A(1, 2 | 1, 2), sicchè il sistema è equivalente a quello che si può riscrivere come 3x1 + 8x2 = 2 + 4x3 x1 + x2 = 1 + x3 Considerando quest’ultimo come un sistema nelle sole incognite x1 e x2 , otteniamo un sistema che ha come matrice dei coefficienti M. Essendo M non singolare, possiamo applicare la regola di Cramer e ottenere x1 = 2 + 4x3 1 + x3 3 1 8 1 8 1 4x + 6 = 3 5 e x2 = 3 1 2 + 4x2 1 + x2 3 1 In definiva l’insieme delle soluzioni del sistema (8) è 4x + 6 x − 1 3 , 3 , x3 | x3 ∈ R . 5 5 8 1 = x3 − 1 . 5 3.8 sitemi lineari omogenei A conclusione di questa sezione si vuole far osservare come l’uso dei sistemi lineari consente di trovare un altro metodo di calcolo per la matrice inversa. Sia dunque A una matrice quadrata di ordine n sul campo K e supponiamo che A sia invertibile. Gli elementi della matrice B = A−1 possono essere pensati come delle incognite e precisamente, dovendo essere AB = In , le colonne B1 , B2 , . . . , Bn di B possono rivedersi come le incognite dei seguenti n sistemi lineari 0 0 1 .. 1 0 AB1 = . , AB2 = . , . . . , ABn = . 0 .. .. 1 0 0 Poichè det(A) 6= 0 per il corollario 3.4.4, il teorema di Cramer 3.7.5 assicura che i precedenti sistemi sono determinati. Inoltre, tali sistemi possono essere risolti usando l’algoritmo di Gauss-Jordan, però, invece che risolverli singolarmente, possiamo risolverli simultaneamente cioè possiamo applicare l’algoritmo di Gauss-Jordan alla matrice (A|In ) che si ottiene affiancando alla matrice A la matrice identica, si otterrà così la matrice (In |C) e risulterà C = B = A−1 . Esempio 3.7.9. Applichiamo e l’algoritmo di Gauss-Jordan per determinare l’inversa della matrice a coefficienti reali 1 2 A= . 3 4 Partiamo dalla matrice 1 2 3 4 1 0 0 1 e applichiamo ad essa l’algoritmo di Gauss-Jordan. Applicando l’operazione r2 → r2 − 3r1 si ottiene 1 2 1 0 , 0 −2 −3 1 e poi l’operazione r2 → − 12 r2 permette di ottenere 1 2 0 1 1 3 2 0 − 12 ed infine mediante la trasformazione r1 → r1 − 2r2 otteniamo la matrice 1 0 −2 1 . 0 1 32 − 12 A questo punto la matrice inversa cercata sarà la matrice che si trova nel blocco alla destra della matrice identica. 3.8 sitemi lineari omogenei Si consideri una matrice A ∈ Mm,n (K). A partire da A resta definita l’applicazione LA : X ∈ Kn → AX ∈ Km ; 65 66 matrici e sistemi lineari si noti che, poichè AX rappresenta il prodotto righe per colonne di A per X, qui si è scelto di rappresentare i vettori di Kn come vettori colonna. L’applicazione LA è evidentemente un’applicazione lineare, ed è chiamata applicazione lineare associata ad A. Si osservi che considerato il riferimento canonico (e1 , . . . , en ) di Kn risulta LA (ei ) = Ai e dunque Im LA = C(A) è lo spazio delle colonne di A per la proposizione 2.5.6, in particolare, dim(Im LA ) = ρ(A). Invece, ker LA rappresenta l’insieme delle soluzioni del sistema lineare omogeneo AX = 0. Proposizione 3.8.1. Sia A ∈ Mm,n (K) e si consideri il sistema lineare omogeneo Σ : AX = 0. Allora l’insieme Sol(Σ) delle soluzioni di Σ è un sottospazio vettoriale dello spazio numerico Kn e ha dimensione n − ρ(A). Dimostrazione. L’insieme Sol(Σ0 ) è un sottospazio essendo Sol(Σ0 ) = ker LA e quindi, essendo dim(Im LA ) = ρ(A), segue dal teorema della dimensione 2.6.2 che la dimensione di Sol(Σ0 ) è n − ρ(A). Segue dalla precedente che il sistema lineare AX = 0 ha solo la soluzione nulla se e solo se n = ρ(A) e quindi se e solo se det(A) 6= 0 (cfr. proposizione 3.5.4). Esempio 3.8.2. Consideriamo il sistema lineare omogeneo a coefficienti reali seguente x1 − x2 + x3 − x4 = 0 2x1 − x2 = 0 e determiniamo una base per lo spazio delle soluzioni. La matrice dei coefficienti di questo sistema è 1 −1 1 −1 A= 2 −1 0 0 essa evidentemente ha rango 2 e un minore fondamentale è ad esempio A(1, 2 | 1, 2), sicchè il metodo dei determinanti ci suggerisce di rivedere il sistema come un sistema nelle sole incognite x1 e x2 x1 − x2 = −x3 + x4 2x1 − x2 = 0 e applicare ad esso la regola di Cramer. Pertanto x1 = −x3 + x4 0 1 2 −1 −1 −1 −1 = x3 − x4 e x2 = 1 2 −x3 + x4 0 1 2 −1 −1 = −2x3 + 2x4 . Si ricava così che lo spazio delle soluzioni del sistema lineare è S0 = {(x3 − x4 , −2x3 + 2x4 , x3 , x4 ) | x3 , x4 ∈ R}. Essendo (x3 − x4 , −2x3 + 2x4 , x3 , x4 ) = x3 (1, −2, 1, 0) + x4 (−1, 2, 0, 1) posto s1 = (1, −2, 1, 0) e s2 = (−1, 2, 0, 1) si ha che S0 = L[s1 , s2 ]. Evidentemente {s1 , s2 } è una parte libera, e quindi {s1 , s2 } è una base per S0 . 3.8 sitemi lineari omogenei 67 Esempio 3.8.3. Si consideri li sistema lineare fatto dalla sola equazione a coefficienti reali x1 + x2 + x3 + x4 = 0. In tal caso, evidentemente, lo spazio delle soluzioni è S0 = {(−x2 − x3 − x4 , x2 , x3 , x4 ) | x2 , x3 , x4 ∈ R}. Ma (−x2 − x3 − x4 , x2 , x3 , x4 ) = x2 (−1, 1, 0, 0) + x3 (−1, 0, 1, 0) + x4 (−1, 0, 0, 1) da cui si ha facilmente che {(−1, 1, 0, 0), (−1, 0, 1, 0), (−1, 0, 0, 1)} è una base di S0 . Un sistema lineare qualsiasi AX = B potrebbe non avere il vettore nullo come soluzione, quindi in generale le soluzioni di un sistema lineare non omogeneo non sono un sottospazio vettoriale dello spazio numerico; però le soluzioni del sistema AX = B sono sempre legate a quelle del sistema lineare omogeneo AX = 0 ad esso associato, infatti sussiste la seguente. Proposizione 3.8.4. Siano A ∈ Mm,n (K) e B ∈ Mm,1 (K), e si considerino il sistema lineare Σ : AX = B ed il sistema omogeneo ad esso associato Σom : AX = 0. Se P0 è una soluzione di Σ allora Sol(Σ) = P0 + Sol(Σom ) := {P ∈ Rn : P − P0 ∈ Sol(Σom )}, in altri termini tutte e sole le soluzioni di Σ si ottengono come somma tra il vettore numerico P0 ed un vettore Y con Y ∈ Sol(Σom ). Dimostrazione. Se Z ∈ Sol(Σ), allora Z = P0 + (Z − P0 ) e Z − P0 ∈ Sol(Σom ) essendo A(Z − P0 ) = AZ − AP0 = B − B = 0. Viceversa, se Y ∈ Sol(Σom ) allora A(P0 + Y) = AP0 + AY = B + 0 = B e quindi P0 + Y ∈ Sol(Σ). Usiamo il primo dei precedenti esempi per mostrare come la proposizione 3.8.4 rappresenti un ulteriore metodo di risoluzione di un sistema lineare qualsiasi. Esempio 3.8.5. Consideriamo il sistema lineare x1 − x2 + x3 − x4 = 2 2x1 − x2 = 1 Una sua soluzione è evidentemente (1, 1, 2, 0) e così, essendo il sistema lineare omogeneo ad esso associato il primo sistema incontrato nei precedenti esempi di questa sezione il cui spazio delle soluzioni è S0 = {(x3 − x4 , −2x3 + 2x4 , x3 , x4 ) | x3 , x4 ∈ R}, la proposizione 3.8.4 assicura che tutte e sole le soluzioni del sistema lineare sono del tipo (1, 1, 2, 0) + (x3 − x4 , −2x3 + 2x4 , x3 , x4 ) = (1 + x3 − x4 , 1 − 2x3 + 2x4 , 2 + x3 , x4 ) al variare di x3 , x4 ∈ R. 68 matrici e sistemi lineari Concludiamo con la seguente importante osservazione, che caratterizza i sottospazi dello spazio vettoriale numerico. Abbiamo visto che le soluzioni di un sistema lineare omogeneo sono un sottospazio vettoriale dello spazio vettoriale numerico di cui sappiamo calcolarne la dimensione (cfr. proposizione 3.8.1). In realtà, dato un campo K e un intero positivo n, i sottospazi di Kn sono sempre lo spazio delle soluzioni di un sistema lineare omogeneo (si pure veda il successivo teorema 5.1.4). Sia W un sottospazio di Kn e fissiamo un riferimento R di Kn . Se W = {0} allora esso è lo spazio delle soluzioni del sistema lineare omogeneo In X = 0 (dove come al solito In dentota la matrice identica su K di ordine n). Supponiamo quindi che W 6= {0} e sia {w1 , . . . , wr } una sua base. Un vettore w è un elemento di W se e solo se l’insieme {w1 , . . . , wr , w} è legato e quindi se e solo se la matrice A su K le cui righe (o colonne) sono le componenti in R dei vettori w1 , . . . , wr , w, ha rango r. Fissato in A un minore non singolare di ordine r, imponendo a tutti agli orlati di questo minore di essere singolari, si ottiene un sistema lineare omogeneo il cui spazio delle soluzioni corrisponde, attraverso l’isomorfismo coordinato cR , al sottospazio W: questo sistema lineare omogeneo si dice essere una rappresentazione cartesiana di W rispetto al riferimento R. Esempio 3.8.6. In R4 supponiamo fissato il riferimento canonico e consideriamo il sottospazio W generato dai vettori (−1, 0, 1, 0) e (−1, 0, 0, 1). Sia w = (x1 , x2 , x3 , x4 ) il generico elemento di W e imponiamo alla matrice −1 0 A= 1 0 x1 x2 x3 x4 −1 0 0 1 di avere rango 2. Scelto M = A(3, 4 | 1, 2) = 1 0 0 1 come minore non singolare di ordine 2, il torema degli orlati 3.5.6 garantisce che A ha rango 2 se e solo se gli orlati di M sono singolari ovvero se e solo se 0 0 x2 −1 −1 x1 0 x3 = 0. 1 0 x3 = 1 0 1 x4 0 1 x4 Otteniamo così il sistema lineare omogeneo x2 = 0 x1 + x3 + x4 = 0 il cui spazio delle soluzioni coincide con W; tale sistema è una rappresentazione cartesiana di W (rispetto al riferimento canonico). 3.9 matrici e applicazioni lineari Se A è una matrice m × n su un campo K, è stata definita in precedenza l’applicazione lineare LA : X ∈ Kn −→ AX ∈ Km ed è stato osservato che Im LA è lo spazio delle colonne di A mentre ker LA è lo spazio delle soluzioni del sistema lineare omogeneo AX = 0. Se poi si considerano due 3.9 matrici e applicazioni lineari Kn O LA / Km 0 = c−1 ϕR,R A R 0 ◦ LA ◦ cR : V −→ W. c−1 0 cR V spazi vettoriali non nulli V e W sul campo K di dimensione finita n ed m, rispettivamente, fissato un riferimento R in V ed un riferimento R 0 in W, si può considerare l’applicazione lineare 0 ϕR,R A /W R E’ semplice accorgersi che questa volta le colonne di A rappresentano 0 le componenti in R 0 dei trasformati mediante ϕR,R degli elementi di R, A 0 corrisponde attraverso l’isomorfismo coordinato cR 0 allo sicchè Im ϕR,R A 0 R,R ) = ρ(A). Invece, spazio delle colonne di A e quindi risulta dim(Im ϕA R,R 0 ker ϕA è costituito da quei vettori di V le cui componenti in R sono soluzione del sistema lineare AX = 0, sicchè attraverso l’isomorfismo coor0 dinato ker ϕR,R corrisponde allo spazio delle soluzioni del sistema lineare A 0 omogeneo AX = 0 e quindi dim(ker ϕR,R A ) = n − ρ(A). Partendo ora da un’applicazione lineare ϕ tra due spazi vettoriali, un riferimento R del dominio e un riferimento R 0 del codominio, si vuole associare R,R 0 = ϕ. Siano dunque V e W due a ϕ una matrice A tale da aversi che ϕA spazi vettoriali non nulli sul campo K di dimensione finita, e si fissi un rifer0 ) in W; in imento R = (e1 , . . . , en ) in V ed un riferimento R 0 = (e10 , . . . , em particolare, quindi, si sta supponendo che dim(V) = n e che dim(W) = m. Consideriamo un’applicazione lineare ϕ : V −→ W. Per ogni j = 1, . . . , n, siano (a1j , . . . , amj ) le componenti del vettore ϕ(ej ) nella base R 0 , e sia A = (aij ) la matrice m × n su K le cui colonne sono le componenti dei trasformati mediante ϕ dei vettori della base R nella base R 0 . Se v = λ1 e1 + · · · + λn en è il generico elemento di V (con ogni λi ∈ K) allora ϕ(v) = λ1 ϕ(e1 ) + · · · + λn ϕ(en ) = 0 0 = λ1 (a11 e10 + · · · + am1 em ) + · · · + λn (a1n e10 + · · · + amn em )= 0 = (λ1 a11 + · · · + λn a1n )e10 + · · · + (λ1 am1 + · · · + λn amn )em e pertanto, per l’unicità delle componenti (in R 0 ), si ottiene (9) [ϕ(v)]R 0 = A[v]R dove [v]R indica il vettore colonna delle componenti di v in R e [ϕ(v)]R 0 il vettore colonna delle componenti di ϕ(v) in R 0 . La matrice A si dice matrice associata all’applicazione lineare ϕ rispetto ai riferimenti R e R 0 , e si scrive anche A = MR,R 0 (ϕ). Se V = W e R = R 0 , si parla semplicemente di matrice associata a ϕ nel riferimento R e si scrive MR (ϕ). La proprietà (9) caratterizza la matrice associata, infatti se  ∈ Mm,n (K) è tale che [ϕ(v)]R 0 = Â[v]R allora  = MR,R 0 (ϕ), infatti per ogni j = 1, . . . , n è evidente che [ϕ(ej )]R 0 = Â[ej ]R è la j-esima colonna di Â, e dunque  e MR,R 0 (ϕ) sono uguali avendo le colonne ordinatamente uguali. Sempre la proprietà (9) assicura che due applicazioni lineari ϕ e ψ di V in W coincidono se e soltanto se risulta MR,R 0 (ϕ) = MR,R 0 (ψ). Segue 0 0 R,R così che A = MR,R 0 (ϕ) se e soltanto se ϕ = ϕA , quindi ϕR,R è l’unica A applicazione lineare di V in W che ha A come matrice associata nei riferimenti R ed R 0 . In particolare, fissata una qualsiasi matrice A in Mm,n (K), l’applicazione LA : Kn −→ Km è l’unica applicazione lineare che ha A come matrice associata quando sia in Kn che Km è stato fissato come riferimento quello canonico. 69 matrici e sistemi lineari 70 Teorema 3.9.1. Siano V e W due spazi vettoriali non nulli sul campo K di dimensione finita. Siano inoltre ϕ : V −→ W un’applicazione lineare, R un riferimento di V, R 0 un riferimento di W e A = MR,R 0 (ϕ). (i) Il sottospazio Im ϕ è generato dai vettori che in R 0 hanno per componenti le colonne di A, cioè Im ϕ corrisponde attraverso l’isomorfismo coordinato cR 0 allo spazio delle colonne di A, in particolare dim(Im ϕ) = ρ(A). (ii) Il sottospazio ker ϕ corrisponde attraverso l’isomorfismo coordinato cR allo spazio S0 delle soluzioni del sistema lineare omogeneo AX = 0; in particolare, una base per ker ϕ è formata dai vettori le cui componenti in R formano una base per S0 . Inoltre, dim(ker ϕ) = dim(V) − ρ(A). Proof. La proposizione 2.5.6 garantisce che Im ϕ è generato dai trasformati dei vettori di R, le cui componenti in R 0 , per definizione di matrice associata, sono le colonne di A e quindi, attraverso l’isomorfismo coordinato cR 0 , lo spazio Im ϕ corrisponde allo spazio delle colonne di A. In particolare, dim(Im ϕ) = ρ(A) e così dim(ker ϕ) = dim(V) − ρ(A) per il teorema 2.6.2. Inoltre, v ∈ ker ϕ se e solo se [ϕ(v)]R 0 = 0 e quindi, per (9), se e solo se A[v]R = 0; pertanto mediante l’isomorfismo coordinato cR il sottospazio ker ϕ corrisponde al sottospazio delle soluzioni del sistema lineare omogeneo AX = 0. Corollario 3.9.2. V e W due spazi vettoriali non nulli sul campo K di dimensione finita. Siano inoltre ϕ : V −→ W un’applicazione lineare, R un riferimento di V, R 0 un riferimento di W e A = MR,R 0 (ϕ). Allora ϕ è isomorfismo se e solo se A è una matrice quadrata e det(A) 6= 0. Proof. Se ϕ è isomorfismo allora W = Im ϕ, per la suriettività di ϕ, e quindi dim(V) = dim(W) per il teorema della dimensione 2.6.2 ed essendo ker ϕ nullo per la proposizione 2.6.1, in particolare, quindi, A è una matrice quadrata. D’altra parte se A è quadrata vuol dire che V e W hanno la stessa dimensione, quindi posto n = dim(V) = dim(W) (da cui A ∈ Mn (K)) proviamo che ϕ è isomorfismo se e solo se det(A) 6= 0. Per il corollario 2.6.3 ϕ è isomorfismo se e solo se ϕ è iniettiva e quindi, per la proposizione 2.6.1, se e solo se ker ϕ = {0}. D’altra parte il teorema 5.1.4 assicura che lo spazio ker ϕ è nullo se e solo se ρ(A) = dim(V) = n e quindi se e solo se det(A) 6= 0 per la proposizione 3.5.4. Esempio 3.9.3. Consideriamo la seguente applicazione lineare ϕ : (x, y) ∈ R2 −→ (2x − 3y, −x + y, 0) ∈ R3 . Fissiamo i riferimenti R = ((1, 0), (0, 1)) e R 0 = ((1, 0, 1), (0, 1, 0), (0, 0, 1)) in R2 e R3 rispettivamente, e andiamo a determinare A = MR,R 0 (ϕ). Essendo ϕ(1, 0) = (2, −1, 0) = 2(1, 0, 1) − 1(0, 1, 0) − 2(0, 0, 1) e ϕ(0, 1) = (−3, 1, 0) = −3(1, 0, 1) + 1(0, 1, 0) + 3(0, 0, 1) otteniamo subito che 2 A = −1 −2 −3 1 . 3 La matrice A ha rango 2, quindi ker ϕ ha dimensione 2 − 2 = 0 e pertanto ker ϕ = {0}. Inoltre Im ϕ = C(A) = L[(2, −1, 0), (−3, 1, 0)]. 3.9 matrici e applicazioni lineari Esempio 3.9.4. Si consideri l’applicazione lineare a b ϕ: ∈ M2 (R) → a + cx2 ∈ R2 [x] c d Posto M1 = 1 0 1 1 , M2 = 0 1 0 0 , M3 = 0 0 1 0 , M4 = 0 0 0 1 fissiamo R = (M1 , M2 , M3 , M4 ) come riferimento per M2 (R). Invece in R2 [x] fissiamo il riferimento R0 = (1 + x2 , x, x2 ). Essendo ϕ(M1 ) = 1 = 1(1 + x2 ) + 0(x) − 1(x2 ) ϕ(M2 ) = 1 + x2 = 1(1 + x2 ) + 0(x) + 0(x2 ) ϕ(M3 ) = 0 = 0(1 + x2 ) + 0(x) + 0(x2 ) ϕ(M4 ) = 0 = 0(1 + x2 ) + 0(x) + 0(x2 ) risulta 1 1 A = MR,R0 (ϕ) = 0 0 −1 0 0 0 0 0 . 0 0 Una base per C(A) è costituita dalle colonne A1 e A2 di A e queste colonne sono le componenti in R 0 di ϕ(M1 ) = 1 e ϕ(M2 ) = 1 + x2 , rispettivamente, sicchè Im ϕ = L[1, 1 + x2 ]. Inoltre, poichè una base per il sistema lineare omogeneo AX = 0 è cositituita dai vettori (0, 0, 1, 0) e (0, 0, 0, 1), che sono le componenti in R di M3 e M4 , si ha che 0 1 0 0 0 x ker ϕ = L[M3 , M4 ] = L , = : x, y ∈ R . 0 0 0 1 0 y Proposizione 3.9.5. Siano V, V 0 e V 00 spazi vettoriali non nulli di dimensione finita sul campo K e si fissino dei riferimenti R, R 0 e R 00 per essi. Se ϕ : V −→ V 0 e ψ : V 0 −→ V 00 sono applicazioni lineari, allora anche ψ ◦ ϕ è lineare. Inoltre, considerate le matrici A = MR,R 0 (ϕ) e B = MR 0 ,R 00 (ψ), si ha che BA = MR,R 00 (ψ ◦ ϕ). Proof. L’applicazione ψ ◦ ϕ è lineare per la proposizione 2.5.5; inoltre per ogni v ∈ V si ha che [ψ(ϕ(v))]R 00 = B[ϕ(v)]R 0 = BA[v]R , da cui la tesi. Corollario 3.9.6. Siano V e W spazi vettoriali non nulli di dimensione finita su un campo K e sia ϕ : V −→ W un isomorfismo. Fissato un riferimento R per V ed un riferimento R 0 per W e considerata A = MR,R 0 (ϕ) si ha che A è invertibile e A−1 = MR 0 ,R (ϕ−1 ). Proof. L’applicazione ϕ−1 è un isomorfismo per la proposizione 2.5.7, in particolare dim(V) = dim(W). Poichè la matrice associata all’endomorfismo identico (in un fissato riferimento) è la matrice identica, se B = MR 0 ,R (ϕ−1 ), segue dalla proposizione 3.9.5 che AB e BA sono la matrice identica. Così B = A−1 . 71 72 matrici e sistemi lineari 3.10 matrice del cambio di base Sia V uno spazio vettoriale non nullo su un campo K di dimensione finita n, 0 ) di V. Se e consideriamo due riferimenti R = (e1 , . . . , en ) ed R 0 = (e10 , . . . , en 0 esprimiamo ogni ej come combinazione lineare dei vettori di R scrivendo 0 , ej = p1j e10 + p2j e20 + · · · + pnj en dove gli scalari p1j , p2j , . . . , pnj ∈ K sono univocamente determinati, si viene a formare una matrice P = (pij ) quadrata di ordine n su K le cui colonne sono le componenti dei vettori di R nella base R 0 ; pertanto P = MR,R 0 (ιV ) è la matrice associata all’endomorismo identico ιV di V nei riferimenti R e R 0 . La matrice P si chiama matrice di passaggio dal riferimento R al riferimento R 0 . Teorema 3.10.1. Sia V uno spazio vettoriale non nullo su un campo K di dimensione finita n. Siano inoltre R e R 0 due riferimenti di V e P ∈ Mn (K) la matrice di passaggio da R a R 0 . Allora (i) P è invertibile e P−1 è la matrice di passaggio da R 0 a R; (ii) per ogni elemento v di V si ha che [v]R 0 = P[v]R e [v]R = P−1 [v]R 0 ; (iii) se P 0 è la matrice di passaggio da R 0 ad un terzo riferimento R 00 , allora P 0 P è la matrice di passaggio da R a R 00 . Proof. Sia Q = MR 0 ,R (ιV ) la matrice di passaggio da R 0 a R e sia v un arbitrario elemento di V. Il teorema 3.9.1 assicura che [v]R 0 = P[v]R e [v]R = Q[v]R 0 , sicchè [v]R 0 = P[v]R = PQ[v]R 0 e [v]R = Q[v]R 0 = QP[v]R e l’unicità delle componenti garantisce dunque che PQ = In = QP. Pertanto P è invertibile e P−1 = Q, così (i) e (ii) sono provate. Infine, essendo [v]R 00 = P 0 [v]R 0 = P 0 P[v]R ancora il teorema 3.9.1 assicura che P 00 = P 0 P e quindi anche (iii) è provata. La relazione che intercorre tra le matrici del cambio di riferimento in uno spazio vettoriale e la matrice associata ad un endomorfismo nei riferimenti in questione, e descritta nel seguente. Teorema 3.10.2. Sia V uno spazio vettoriale su un campo K di dimensione finita e siano R e R 0 due riferimenti di V. Se ϕ è un endomorfismo di V e A = MR (ϕ), allora MR 0 (ϕ) = P−1 AP dove P è la matrice di passaggio da R 0 a R. Proof. Sia v ∈ V. Allora il teorema 3.10.1 assicura che P è invertibile ed inoltre che [v]R = P[v]R 0 e [ϕ(v)]R 0 = P−1 [ϕ(v)]R . D’altra parte [ϕ(v)]R = A[v]R per il teorema 3.9.1, per cui [ϕ(v)]R 0 = P−1 [ϕ(v)]R = P−1 A[v]R = P−1 AP[v]R 0 . Pertanto, per il teorema 3.9.1, P−1 AP è la matrice di ϕ in R 0. Due matrici quadrate A e B di ordine n su un campo K si dicono simili (o talvolta anche coniugate) se esiste una matrice invertibile P in Mn (K) tale che B = P−1 AP. Tale relazione, com’è facile verificare, è una relazione di equivalenza. Il precedente teorema assicura quindi che matrici associate ad uno stesso endomorfismo, in due riferimenti diversi, sono simili. 3.10 matrice del cambio di base Esempio 3.10.3. Si consideri l’endomorfismo ϕ : (a, b) ∈ R2 → (b, a) ∈ R2 e fissiamo R = ((1, 0), (0, 1)) e R0 = ((1, 1), (1, −1)) come riferimenti di R2 . Essendo ϕ(1, 0) = (0, 1) e ϕ(0, 1) = (1, 0) risulta A = MR (ϕ) = 0 1 1 . 0 La matrice di passaggio da R0 ad R ha per colonne le componenti in R dei vettori di R0 , e quindi ha per colonne i vettori di R0 essendo R il riferimento canonico 1 1 P = MR0 ,R (ιR2 ) = ; 1 −1 ed è semplice rendersi conto che P−1 = 1 2 1 2 1 2 − 12 e che P−1 AP = 1 0 0 . −1 Dunque il teorema 3.10.2 assicura che 1 MR0 (ϕ) = 0 0 −1 ed infatti ϕ(1, 1) = (1, 1) = 1(1, 1) + 0(1, −1) e ϕ(1, −1) = (−1, 1) = 0(1, 1) − 1(1, −1). Nel caso di spazi euclidei, si è osservato in precedenza che i riferimenti ortonormali sono riferimenti in cui il prodotto scalare è riconducibile al prodotto scalare standard nello spazio numerico su R. Ci chiediamo ora che proprietà deve avere la matrice di passaggio tra due riferimenti ortonormali. A tal fine introduciamo il seguente concetto. Una matrice invertibile A ∈ Mn (R) si dice ortogonale se A−1 = At . Poichè risulta essere (At )−1 = (A−1 )t , se A è ortogonale allora anche A−1 = At è ortogonale ed inoltre, ricordando che det(A) = det(At ) e che det(A)det(A−1 ) = 1, si ha che det(A) = ±1. Un esempio di matrice ortogonale è chiaramente la matrice identica. Sussiste la seguente. Proposizione 3.10.4. Sia V uno spazio euclideo di dimensione finita, e siano R ed R 0 due suoi riferimenti e P la matrice di passaggio da R 0 a R. Supponiamo inoltre che R sia ortonormale. Allora R 0 è ortonormale se e solo se P è ortogonale. 73 4 4.1 DIAGONALIZZAZIONE DI E N D O M O R F I S M I E M AT R I C I autovalori, autovettori e autospazi Sia K un campo e supponiamo fissati un K-spazio vettoriale V ed un endomorfismo ϕ di V. Un vettore non nullo v di V si dice autovettore di ϕ, se esiste uno scalare λ ∈ K tale che ϕ(v) = λv; in tal caso, λ è detto essere un autovalore di ϕ relativo all’autovettore v. Osserviamo che se µ è un altro autovalore relativo a v, allora µv = ϕ(v) = λv sicchè (µ − λ)v = 0 e quindi µ − λ = 0 essendo v 6= 0, pertanto µ = λ. Questo prova che per ogni autovettore esiste un unico autovalore. Esempio 4.1.1. Nello spazio vettoriale numerico Rn , considerato l’endomorfismo nullo f : v ∈ Rn → 0 ∈ Rn , si ha che f(v) = 0v per ogni v ∈ Rn , e pertanto ogni vettore è autovettore per f relativo all’autovalore 0. Come altro esempio si consideri lo spazio vettoriale reale C∞ (I) (dove I è un intervallo di R) delle applicazioni di I in R con derivata continua di ogni ordine. L’applicazione D : f ∈ C∞ (I) → f 0 ∈ C∞ (I) che ad ogni applicazione di C∞ (I) associa la sua derivata, è lineare. Se α ∈ R risulta D(eαx ) = αeαx e pertanto eαx è autovettore per l’applicazione lineare D relativo all’autovalore α. Lemma 4.1.2. Sia V uno spazio vettoriale sul campo K e siano v1 , . . . , vt autovettori associati ad autovalori distinti di uno stesso endomorfismo di V. Allora v1 , . . . , vt sono linearmente indipendenti. Dimostrazione. Siano v1 , . . . , vt autovettori di un endomorfismo ϕ associati, rispettivamente, agli autovalori distinti λ1 , . . . , λt . Un autovettore è un vettore non nullo e quindi {vk } è una parte libera per ogni k = 1, . . . , t. Supponiamo che comunque si considerano i − 1 (con i > 1) autovettori relativi ad autovalori distinti, tali autovettori formano una parte libera; consideriamo poi una combinazione lineare nulla c1 v1 + · · · + ci vi = 0 (con ogni ck ∈ K), allora 0 = λi (c1 v1 + · · · + ci vi ) = c1 λi v1 + · · · + ci λi vi e 0 = ϕ(c1 v1 + · · · + ci vi ) = c1 ϕ(v1 ) + · · · + ci ϕ(vi ) = c1 λ1 v1 + · · · + ci λi vi quindi c1 λ i v 1 + · · · + ci λ i v i = c1 λ 1 v 1 + · · · + ci λ i v i e così c1 (λ1 − λi )v1 + · · · + ci−1 (λi−1 − λi )vi−1 = 0. 75 76 diagonalizzazione di endomorfismi e matrici Poichè stiamo supponendo che i − 1 autovettori relativi ad autovalori distinti sono linearmente indipendenti, segue che c1 = · · · = ci−1 = 0. Allora ci vi = 0 e pertanto anche ci = 0. Questo prova che v1 , . . . , vi sono linearmente indipendenti ma, più in generale, lo stesso argomento prova che comunque si prendono i vettori tra v1 , . . . , vt questi sono linearmente indipendenti. Così proseguendo, si ottiene che i t vettori v1 , . . . , vt sono linearmente indipendenti. Fissato un autovalore λ per ϕ, sia Vϕ (λ) l’insieme costituito dal vettore nullo e dai vettori di V che sono autovettori di ϕ relativi all’autovalore λ, ovvero Vϕ (λ) = {v ∈ V | ϕ(v) = λv}. Se h, k ∈ K e v, w ∈ Vϕ (λ), allora ϕ(hv + kw) = hϕ(v) + kϕ(w) = hλv + kλw = λ(hv + kw), sicchè hv + kw ∈ Vϕ (λ) e pertanto Vϕ (λ) è un K-sottospazio di V detto autospazio relativo all’autovalore λ. Si osservi che se λ è un autovalore per ϕ, allora esiste un autovettore che ha per autovalore λ e pertanto, essendo un autovettore un vettore non nullo, risulta dim(Vϕ (λ)) > 1. Proposizione 4.1.3. Sia V uno spazio vettoriale sul campo K e sia ϕ un endomorfismo di V. Se λ1 , . . . , λt sono autovalori distinti di ϕ, allora Vϕ (λ1 ) + · · · + Vϕ (λt ) = Vϕ (λ1 ) ⊕ · · · ⊕ Vϕ (λt ). Dimostrazione. Si deve provare che per ogni i = 1, . . . , t risulta Vϕ (λi ) ∩ Vϕ (λ1 ) + · · · + Vϕ (λi−1 ) + Vϕ (λi+1 ) + · · · + Vϕ (λt ) = {0}. P Se vi è un vettore di Vϕ (λi ) tale da aversi che vi = j6=i vj con ogni vj in Vϕ (λj ), allora risulta v1 + · · · + vi−1 − vi + vi+1 + · · · + vt = 0. Segue così dal lemma 4.1.2 che v1 = · · · = vt = 0 e pertanto la proposizione è provata. Supponiamo ora che V abbia dimensione finita, e siano A = MR (ϕ) la matrice associata all’endomorfismo ϕ rispetto ad un fissato riferimento R di Ve pϕ (λ) = det(A − λIn ). E’ semplice accorgersi (sviluppando il determinante rispetto alla prima colonna o, se si preferisce, facendo induzione sull’ordine n di A) che pϕ (λ) = (−1)n λn + · · · + det(A) è un polinomio di grado n a coefficienti in K: esso è detto polinomio caratteristico di ϕ. L’equazione det(A − λIn ) = 0 è invece detta equazione caratteristica di ϕ. Il polinomio caratteristico si definisce a partire dalla matrice associata all’endomorfismo ϕ in un fissato riferimento di V, ma se anche si scegliesse un altro rifermento per V, il polinomio caratteristico che si verrebbe a determinare sarebbe sempre lo stesso. Sussiste infatti la seguente. 4.1 autovalori, autovettori e autospazi Proposizione 4.1.4. Sia V uno spazio vettoriale di dimensione finita n sul campo K e sia ϕ un endomorfismo di V. Allora il polinomio caratteristico di ϕ non dipende dal riferimento che si fissa in V. Dimostrazione. Se A e B sono matrici associate a ϕ in due riferimenti distinti di V, allora il teorema 3.10.2 assicura che esiste una matrice invertibile P di Mn (K) tale che B = P−1 AP. Si ha così che B − λIn = P−1 AP − λIn = P−1 AP − λP−1 P = = P−1 AP − P−1 (λIn )P = P−1 (A − λIn )P e quindi, ricordando che det(P−1 )det(P) = 1, il teorema di Binet 3.3.9 assicura che det(B − λIn ) = det(A − λIn ). La dimostrazione della proposizione 4.1.4 prova, in particolare, che matrici simili danno origine allo stesso polinomio caratteristico. Questo non è vero per matrici equivalenti, infatti le matrici (su R) 1 M1 = 1 1 1 1 e M2 = 0 1 0 sono matrici equivalenti, ma risulta det(M1 − λI) = λ(λ − 2) mentre invece det(M2 − λI) = λ(λ − 1). Teorema 4.1.5. Sia V uno spazio vettoriale di dimensione finita sul campo K e sia ϕ un endomorfismo di V, sia inoltre A = MR (ϕ) la matrice associata a ϕ rispetto ad un fissato riferimento R di V. (i) Uno scalare λ0 ∈ K è un autovalore se e solo se λ0 è una radice del polinomio caratteristico pϕ (λ). (ii) Un vettore non nullo v ∈ V è un autovettore per ϕ relativo ad un autovalore λ0 se e solo se le componenti [v]R di v rispetto ad R sono una soluzione non nulla del sistema lineare omogeneo (A − λ0 In )X = 0. Dimostrazione. Per ogni v ∈ V si ha che [ϕ(v)]R = A[v]R e quindi, se v è un autovettore per ϕ relativo all’autovalore λ0 , risulta A[v]R = [ϕ(v)]R = [λ0 v]R = λ0 [v]R , ovvero (A − λ0 In )[v]R = 0, pertanto [v]R è soluzione del sistema lineare omogeneo (A − λ0 In )X = 0. Viceversa, se v è un vettore di V e le sue componenti [v]R sono una soluzione non nulla del sistema (A − λ0 In )X = 0, allora risulta A[v]R = λ0 [v]R e quindi, essendo anche [ϕ(v)]R = A[v]R , si ha [ϕ(v)]R = λ0 [v]R nonchè ϕ(v) = λ0 v per l’unicità delle componenti nel fissato riferimento R. Ora, lo scalare λ0 è un autovalore per ϕ se e solo se esiste un vettore v non nullo in Vϕ (λ0 ) e quindi, per quanto provato sopra, se e solo se le componenti [v]R sono una soluzione non nulla del sistema (A − λ0 In )X = 0. Poichè la matrice (A − λ0 In ) è quadrata, il sistema (A − λ0 In )X = 0 ha soluzioni non nulle se e soltanto se la matrice (A − λ0 In ) è singolare. Dunque λ0 è un autovalore per ϕ se e solo se λ0 è una radice del polinomio det(A − λIn ). 77 78 diagonalizzazione di endomorfismi e matrici Gli autovalori di un endomorfismo ϕ sono quindi tutti e soli gli elementi di K che sono soluzioni dell’equazione caratteristica pϕ (λ) = 0. Il precedente teorema assicura inoltre che l’autospazio Vϕ (λ0 ), relativo all’autovalore λ0 , è costituito da tutti e soli i vettori le cui componenti sono le soluzioni del sistema lineare omogeneo (A − λ0 In )X = 0, dunque l’autospazio Vϕ (λ0 ) corrisponde, attraverso l’isomorfismo coordinato, allo spazio delle soluzioni del sistema lineare omogeno (A − λ0 In )X = 0. Segue così dalla proposizione 3.8.1 che l’autospazio Vϕ (λ0 ) ha dimensione n − p, dove p è il rango della matrice (A − λ0 In ) e n è la dimensione di V. La dimensione dell’autospazio Vϕ (λ0 ) si dice molteplicità geometrica di λ0 ; invece la molteplicità algebrica di λ0 è la molteplicità di λ0 come radice del polinomio caratteristico. Indicheremo con mg (λ0 ) la molteplicità geometrica e con ma (λ0 ) la molteplicità algebrica di λ0 ; dunque mg (λ0 ) = n − p dove p è il rango di (A − λ0 In ). Talvolta si dice che un autovalore λ0 è regolare se ma (λ0 ) = mg (λ0 ). Si ha inoltre il seguente. Teorema 4.1.6. Sia V uno spazio vettoriale su un campo K di dimensione finita e sia ϕ un endomorfismo di V. Se λ0 è una radice del polinomio caratteristico pϕ (λ), allora mg (λ0 ) 6 ma (λ0 ). In particolare, mg (λ0 ) = ma (λ0 ) se λ0 è una radice semplice. Dimostrazione. Supponiamo sia mg (λ0 ) = t. Fissata una base {v1 , . . . , vt } per Vϕ (λ0 ), il teorema 2.4.5 assicura che questa si può completare ad un riferimento R = (v1 , . . . , vt , vt+1 , . . . , vn ) di V. Essendo ϕ(vi ) = λ0 vi per ogni i = 1, . . . , t, la matrice A associata a ϕ nel riferimento R ha la seguente forma λ0 0 . . . 0 0 λ0 . . . 0 B . .. .. .. A = .. . . . 0 0 . . . λ0 O C dove B è una matrice t × (n − t), O è la matrice nulla (n − t) × t e C è una matrice quadrata d’ordine n − t. Si ha allora che det(A − λIn ) = (λ0 − λ)t · det(C − λIn−t ), e pertanto ma (λ0 ) > t = mg (λ0 ). 4.2 endomorfismi diagonalizzabili Sia V uno spazio vettoriale di dimensione finita su un campo K. Un endomorfismo ϕ di V si dice diagonalizzabile (oppure semplice) se V ammette una base di autovettori di ϕ; in tal caso, la base di autovettori è detta anche base spettrale. Teorema 4.2.1. Sia V uno spazio vettoriale di dimensione finita sul campo K e sia ϕ un endomorfismo di V. Allora ϕ è diagonalizzabile se e solo se esiste un riferimento R di V tale che A = MR (ϕ) è diagonale. Dimostrazione. Evidentemente, se V ammette una base R = (v1 , . . . , vt ) di autovettori di ϕ, essendo ϕ(vi ) = λi vi (con λi ∈ K), è chiaro che MR (ϕ) è la matrice diagonale che ha sulla diagonale principale i λi . Reciprocamente, se esite un riferimento R = (v1 , . . . , vt ) per V tale che la matrice A = (aij ) associata a ϕ in R è una matrice diagonale, allora per ogni i = 1, . . . , t si 4.2 endomorfismi diagonalizzabili ha che ϕ(vi ) = aii vi e quindi vi è un autovettore relativo all’autovalore aii , come volevamo. Sia V uno spazio vettoriale di dimensione finita. Abbiamo già visto nella proposizione 4.1.3 che lo spazio somma W degli autospazi relativi ad un endomorfismo ϕ di V, è una somma diretta; se poi W = V è evidente che V possiede una base fatta di autovettori e ϕ è dunque diagonalizzabile. Più in generale sussiste la seguente caratterizzazione. Teorema 4.2.2. (Teorema Spettrale) Sia V uno spazio vettoriale su un campo K di dimensione finita e sia ϕ un endomorfismo di V. Sono equivalenti: (i) ϕ è diagonalizzabile; (ii) V è somma diretta di autospazi; (iii) Se λ1 , . . . , λt sono gli autovalori a due a due distinti di ϕ, allora si ha che ma (λi ) = mg (λi ) per ogni i = 1, . . . , t e ma (λ1 ) + · · · + ma (λt ) = dim(V). Dimostrazione. (i) ⇒ (ii) Se ϕ è diagonalizzabile allora V ha una base fatta da autovettori di ϕ; pertanto V è generato da autospazi e quindi è somma diretta di autospazi per la proposizione 4.1.3. (ii) ⇒ (iii) Siano λ1 , . . . , λt autovalori distinti di ϕ tali che V = Vϕ (λ1 ) ⊕ · · · ⊕ Vϕ (λt ); in particolare, fissata una base Bi in ciascun autospazio Vϕ (λi ), si ha che l’insieme B = B1 ∪ · · · ∪ Bt è una base di V. Poniamo mi = mg (λi ) per ogni i = 1, . . . , t. La matrice A associata a ϕ in B è evidentemente la matrice diagonale in cui sulla diagonale si ripetono gli autovalori e precisamente è la matrice diagonale che ha sulla diagonale prima m1 valori uguali a λ1 , poi m2 valori uguali a λ2 e così via. Ne consegue che pϕ (λ) = det(A − λI) = (λ1 − λ)m1 (λ2 − λ)m2 · · · (λt − λ)mt (10) così λ1 , . . . , λt sono tutte e sole le radici distinte del polinomio caratteristico, quindi ma (λi ) = mi per ogni i = 1, ..., t e m1 + · · · + mt = gr(pϕ (λ)) = dim(V). (iii) ⇒ (i) Siano λ1 , . . . , λt gli autovalori distinti di ϕ di molteplicità m1 , . . . , mt , rispettivamente. Lo spazio somma W degli autospazi è somma diretta per la proposizione 4.1.3 e quindi segue dalle ipotesi e dalla formula di Grassmann 2.4.12 che W ha dimensione pari a m1 + · · · + mt = dim(V); pertanto segue dalla proposizione 19 che V = W e così, fissata una base Bi in ciascun autospazio Vϕ (λi ), l’insieme B = B1 ∪ · · · ∪ Bt è una base per V fatta di autovettori di ϕ e ϕ è quindi diagonalizzabile. Se ϕ è un endomorfismo del K-spazio vettoriale V, con V di dimensione n, la condizione (iii) nel precedente teorema si può esprimere dicendo che il polinomio caratteristico ha n radici in K ciascuna contata con la propria molteplicità, e se λ1 , . . . , λt sono le radici distinte allora per ciascuna di esse la molteplicità algebrica coincide con quella geometrica. In maniera alternativa si potrebbe anche dire che tutte le radici del polinomio caratteristico sono in K e per ciascuna di esse la molteplicità algebrica coincide con quella geometrica; questo assicura che il polinomio caratteristico di un 79 80 diagonalizzazione di endomorfismi e matrici endomorfismo diagonalizzabile è completamente riducibile ovvero ha una fattorizzazione come in (10). Dunque, ad esempio, un endomorfismo di Q3 se ha come polinomio caratteristico √ −λ(λ2√− 2) (che ha solo 0 come radice razionale, e poi ha due radici reali − 2 e 2) non è diagonalizzabile. Quindi, nelle ipotesi del precedente teorema, per stabilire se l’endomorfismo ϕ è diagonalizzabile occorre quindi studiare le radici del polinomio caratteristico: si deve verificare che queste sono tutte nel campo K e che, per le radici che non sono semplici (si ricordi qui il teorema 4.1.6), la molteplicità geometrica coincide con la molteplicità algebrica. Inoltre, se ϕ è diagonalizzabile, una base per V di autovettori per ϕ si ottiene dall’unione tra le basi fissate in ciascun autospazio. Si noti infine che, come immediata conseguenza del teorema 4.1.6 e del teorema 4.2.2, si ha il seguente. Corollario 4.2.3. Sia V uno spazio vettoriale di dimensione finita n sul campo K. Se il polinomio caratteristico di un endomorfismo ϕ di V ha n radici distinte, allora ϕ è diagonalizzabile. Esempio 4.2.4. Consideriamo l’endomorfismo ϕ : (x, y) ∈ R2 −→ (x + 2y, −x − 2y) ∈ R2 e studiamone l’eventuale diagonalizzabilità. Considerando il riferimento canonico R = ((1, 0), (0, 1)), la matrice che rappresenta ϕ ha per colonne ϕ(1, 0) = (1, −1) e ϕ(0, 1) = (2, −2) A= 1 −1 2 −2 e quindi l’equazione caratteristica 0 = det(A − λI2 ) = 1−λ −1 2 −2 − λ = (1 − λ)(−2 − λ) + 2 = λ2 + λ ha 2 radici reali, −1 e 0, sicchè il corollario 4.2.3 assicura che ϕ è diagonalizzabile. Inoltre, l’autospazio relativo a −1 è lo spazio delle soluzioni del sistema omogeneo (A + I2 )X = 0, cioè del sistema 2x + 2y = 0 −x − y = 0 dunque Vϕ (−1) = {(x, −x) | x ∈ R} = L[(1, −1)]. Invece Vϕ (0) = ker ϕ è lo spazio delle soluzioni del sistema lineare AX = 0 ovvero del sistema x + 2y = 0 −x − 2y = 0 sicchè Vϕ (0) = {(−2y, y) | y ∈ R} = L[(−2, 1)]. Una base di R2 formata da autovettori di ϕ è dunque {(1, −1), (−2, 1)}. 4.2 endomorfismi diagonalizzabili Esempio 4.2.5. Consideriamo l’endomorfismo (x, y, z) ∈ R3 −→ (−y, x, z) ∈ R3 che nel riferimento canonico è rappresentato dalla matrice 0 1 0 −1 0 0 0 0 1 sicchè il polinomio caratteristico, com’è semplice accorgersi, è (1 − λ)(λ2 + 1) il quale ha solo una radice reale, pertanto l’endomorfismo considerato non è diagonalizzabile per il teorema 4.2.2. Esempio 4.2.6. Studiamo la diagonalizzabilità del seguente endomorfismo ϕ : a + bx + cx2 ∈ R2 [x] −→ 3a + 3cx + 3bx2 ∈ R2 [x]. La matrice associata a ϕ nel riferimento canonico R = (1, x, x2 ) ha per colonne le componenti in R dei vettori ϕ(1) = 3, ϕ(x) = 3x2 e ϕ(x2 ) = 3x e quindi è la matrice 3 0 0 A= 0 0 3 0 3 0 sicchè il polinomio caratteristico è 3−λ 0 0 0 −λ 3 0 3 −λ = (3 − λ)(λ2 − 9) che ha per radici 3, con molteplicità algebrica 2, e −3, con molteplicità algebrica 1. Andiamo ora a determinare gli autospazi. Per determinare Vϕ (3), consideriamo il sistema lineare omogeneo (A − 3I3 )X = 0, ovvero −3y + 3z = 0 3y − 3z = 0 il cui spazio delle soluzioni è {(x, y, y) | x, y ∈ R} il quale ha dimensione 2 essendo {(1, 0, 0), (0, 1, 1)} una sua base; pertanto una base per Vϕ (3) è −1 2 costituita dai vettori f1 = c−1 R (1, 0, 0) = 1 e f2 = cR (0, 1, 1) = x + x (dove cR è la coordinazione associata a R). Sicchè mg (3) = ma (3) = 2. D’altra parte anche mg (−3) = ma (−3) = 1 per il teorema 4.1.6. Pertanto ϕ è diagonalizzabile per il teorema 4.2.2. Per determinare una base per R2 [x] di autovettori di ϕ, ci serve determinare una base per l’autospazio Vϕ (−3). Lo spazio delle soluzioni del sistema omogeneo (A + 3I3 )X = 0, ovvero del sistema 6x = 0 3y + 3z = 0 3y + 3z = 0 ha per base {(0, 1, −1)}, pertanto una base per Vϕ (−3) è costituita dal vettore 2 f3 = c−1 R (0, 1, −1) = x − x . In definitiva la base di R2 [x] cercata è {f1 , f2 , f3 }. 81 82 diagonalizzazione di endomorfismi e matrici 4.3 matrici diagonalizzabili Sia K un campo e sia A una matrice quadrata di ordine n su K. Fissato in Kn il riferimento canonico R sappiamo che esiste un (unico) endomorfismo LA : Kn −→ Kn tale che A = MR (LA ); in particolare, LA (X) = AX per ogni X ∈ Kn (per comodità di scrittura, ci si riferirà qui ai vettori di Kn come vettori colonna). Si possono allora estendere i concetti di autovalore, autovettore e autospazio relativamente alla matrice A riferendosi all’endomorfismo LA . Un vettore non nullo v di Kn è detto autovettore di A se esiste uno scalare λ ∈ K, detto autovalore relativo a v, tale che Av = λv. Si osservi quindi che v è un autovettore per A se e solo se è un autovettore per LA , così come λ è un autovalore per A se e solo se lo è per LA . Si definisce infine autospazio per A relativo ad un autovalore λ di A l’insieme VA (λ) = {v ∈ Kn | Av = λv}, sicchè VA (λ) = VLA (λ). La matrice A si dice diagonalizzabile se è simile ad una matrice diagonale. Dunque A è diagonalizzabile se e solo se esite P ∈ GLn (K) tale che P−1 AP = D è una matrice diagonale, in tal caso le colonne di P costituiscono un riferimento B = (P1 , . . . , Pn ) di Kn e P rappresenta la matrice di passaggio da B ad R. Nel riferimento B la matrice associata all’endomrfismo LA è la matrice diagonale D, quindi LA è diagonalizzabile per il teorema 4.2.1 (e B è la base spettrale). Viceversa se LA è diagonalizzabile il teorema 4.2.1 e il teorema 3.10.2 assicurano che A è diagonalizzabile. Pertanto A è diagonalizzabile se e soltanto se LA è diagonalizzabile e conseguentemente il teorema 4.2.2 può essere riletto in questo caso come segue. Teorema 4.3.1. Sia K un campo e sia A una matrice quadrata di ordine n su K. La matrice A è diagonalizzabile se e solo se il polinomio caratteristico det(A − λIn ) ha n radici in K (contate con la loro molteplicità) e, dette λ1 , . . . , λt le sue radici distinte, ogni λi ha per molteplicità algebrica esattamente dim(VA (λi )). Sia A è una matrice quadrata d’ordine n su un campo K, e supponiamo che A sia diagonalizzabile. Allora l’endomorfismo LA è diagonalizzabile e Kn ha un riferimento B fatto di autovettori di LA , e quindi anche di A. Se P è la matrice le cui colonne sono i vettori di B, allora P è la matrice le cui colonne sono le componenti dei vettori di B nel riferimento canonico R. Quindi P è la matrice di passaggio dal riferimento B al riferimento R e così il teorema 3.10.2 assicura che D = P−1 AP è la matrice associata a LA in B. D’altra parte ogni vettore in B è un autovettore per LA e quindi la matrice associata a LA in B, ovvero la matrice D, è la matrice diagonale sulla cui diagonale principale si trovano gli autovalori di LA (e quindi di A) ripetuti tante volte quant’è la loro molteplicità. In altre parole, se una matrice A è diagonalizzabile, allora una matrice diagonale D ad essa simile è la matrice sulla cui diagonale ci sono gli autovalori di A, inoltre la matrice che rende A simile a D è la matrice le cui colonne sono gli autovettori di A. Esempio 4.3.2. Studiamo la diagonalizzabilità della matrice su R 2 3 0 A= 2 1 0 0 0 4 4.3 matrici diagonalizzabili 83 Il polinomio caratteristico è 2−λ 2 0 3 1−λ 0 0 0 4−λ = (λ − 4)(λ2 − 3λ − 4), esso ha per radici 4 con molteplicità 2 e −1 con molteplicità 1. Affinchè la matrice A sia diagonalizzabile deve quindi aversi che dim(VA (4)) = 2. Andiamo quindi a determinare una base per lo spazio delle soluzioni del sistema lineare omogeneo (A − 4I3 )X = 0, ossia −2x + 3y = 0 2x − 3y = 0 Esso ha per base {(3, 2, 0), (0, 0, 1)}, sicchè lo spazio delle sue soluzioni ha dimensione 2 = ma (4) e A è quindi diagonalizzabile. Per determinare una matrice invertibile P che rende A simile ad una matrice diagonale dobbiamo determinare una base per R3 fatta di autovettori per A. A tal fine, occorre determinare una base per le soluzioni di (A + I3 )X = 0, ossia del sistema 3x + 3y = 0 2x + 2y = 0 5z = 0 Una base per le soluzioni di questo sistema è quindi {(1, −1, 0)} e quindi una base di R3 fatta da autovettori di A è {(3, 2, 0), (0, 0, 1), (1, −1, 0)}. Pertanto la matrice P cercata è la matrice che ha questi vettori per colonna 3 0 2 0 0 1 1 −1 0 è la matrice diagonale simile ad A è 4 D = P−1 AP = 0 0 0 4 0 0 0 −1 ossia è la matrice diagonale che ha sulla diagonale gli autovalori di A ripetuti tante volte quant’è la loro molteplicità e messi nello stesso ordine con cui abbiamo considerato gli autospazi. Sussiste infine il seguente notevole risultato di cui si omette la dimostrazione. Teorema 4.3.3. Sia A una matrice quadrata di ordine n sul campo R. Se A è simmetrica, allora A è diagonalizzabile. 5 5.1 GEOMETRIA ANALITICA sottospazi affini di R n Consideriamo lo spazio vettoriale numerico Rn (con n ∈ N). Un sottoinsieme A di Rn si dice sottospazio affine (o varietà affine) se esistono P0 ∈ Rn ed un sottospazio vettoriale V dello spazio numerico Rn tali che A = {P ∈ Rn | ∃v ∈ V : P = P0 + v} = {P0 + v : v ∈ V} =: P0 + V. In tal caso il sottospazio V si dice essere lo spazio direttore (o giacitura, o direzione) di A e si indica con D(A); inoltre si dice dimensione di A la dimensione del suo spazio direttore. Si noti che se A = P0 + D(A) è un sottospazio affine allora P ∈ A se e soltanto se P − P0 ∈ D(A) e dunque A = {P ∈ Rn : P − P0 ∈ D(A)}. Se A = P0 + D(A) è un sottospazio affine di Rn , si ha che P0 = P0 + 0 ∈ A (per questo si usa dire che "A passa per P"); in particolare, A 6= ∅. Inoltre è semplice provare che A = P + D(A) per ogni P ∈ A e che se fosse A = P0 + W, dove W è un sottospazio vettoriale di Rn , allora necessariamente W = D(A). Si noti inoltre che se P1 = P0 + v1 e P2 = P0 + v2 sono in A, allora v1 , v2 ∈ D(A) e quindi P2 − P1 = v2 − v1 ∈ D(A). Se A è un sottospazio affine di Rn , i suoi elementi vengono chiamati punti, la locuzione vettore si conserva per gli elementi della giacitura di A al fine di distinguere gli elementi di A da quelli della sua giacitura. Si noti che se P è un punto allora {P} = P + {0} e quindi, a meno di identificare {P} con P, si può concludere che i punti sono i sottospazi affini di dimensione 0; evidentemente poi Rn è l’unico sottospazio affine di dimensione n di Rn . Un sottospazio affine di Rn si dice non banale se la sua dimensione è diversa sia da 0 che da n. Inoltre si dice che un sottospazio affine A di Rn è una retta affine se esso ha dimensione 1, si dice invece che A è un piano affine se la sua dimensione è 2. Un iperpiano affine di Rn , invece, è un sottospazio affine di dimensione n − 1; in particolare, i piani e gli iperpiani coincidono in R3 mentre gli iperpiani di R2 sono le rette. Nella locuzione comune, e quando non crea ambiguità, si omette il termine affine e si parla semplicemente di retta, piano o iperpiano. Se consideriamo l’insieme E2 dei punti del piano della geometria elementare e fissiamo in esso un sistema di riferimento cartesiano (ortogonale e monometrico), allora resta defininita l’applicazione biettiva che ad ogni punto fa corrispondere le sue coordinate ovvero un punto di R2 : si potrebbe provare che rispetto a questa corrispondenza (e quindi rispetto al sistema di riferimento fissato) le rette di E2 corrispondono alle rette affini di R2 . 85 86 geometria analitica Analogamente rispetto ad un sistema di riferimento cartesiano (ortogonale e monometrico) nello spazio E3 della geometria elementare, ai punti, alle rette ed ai piani di E3 corrispondono rispettivamente i punti, le rette e i piani di R3 . Sia r una retta di Rn , sicchè esistono un punto P0 = (x01 , . . . , x0n ) ed un vettore non nullo v = (l1 , . . . , ln ) tali da aversi D(r) = L[v]. Il vettore non nullo v che genera lo spazio direttore di r viene chiamato anche vettore direzionale di r; si noti che il vettore direzionale di una retta è un qualsiasi generatore del suo spazio direttore, e pertanto una retta ha infiniti vettori direzionali tutti non nulli e tutti proporzionali tra loro. Si ha r = {P ∈ Rn : P − P0 ∈ D(r)} = {P ∈ Rn : P − P0 = tv, t ∈ R} e così, se P = (x1 , . . . , xn ), si ha che P ∈ r se e solo se esite t ∈ R tale che (x1 − x01 , . . . , xn − x0n ) = t(l1 , . . . , ln ) (11) e quindi si ottiene per r quella che si chiama una rappresentazione parametrica: 0 x1 = x1 + t l1 .. (12) r: . 0 xn = xn + t ln Esempio 5.1.1. L’insieme r = {(5 + 2t, 1 − t) : t ∈ R} è una retta di R2 , infatti posto P = (5, 1) e V = L[(2, −1)] si ha che r = P + V. Si ottiene poi che r può essere rappresentata parametricamente come r: x = 5 + 2t y = 1−t Esempio 5.1.2. L’insieme r = {(−1 + 3t, 1 − t, 2 − 5t) : t ∈ R} è una retta di R3 , infatti posto P = (−1, 1, 2) e V = L[(3, −1, −5)] si ha che r = P + V. In tal caso la rappresentazione parametrica di r è la seguente x = −1 + 3t y = 1−t r: z = 2 − 5t Quanto visto per le rette si può ripetere anche per i piani. Sia π un piano di Rn , sicchè esistono un punto P0 = (x01 , . . . , x0n ) e due vettore non nulli e indipendenti tra loro v = (l1 , . . . , ln ) e v0 = (m1 , . . . , mn ) tali da aversi D(r) = L[v, v0 ]. Si ha π = {P ∈ Rn : P − P0 ∈ D(π)} = {P ∈ Rn : P − P0 = tv + sv0 , t, s ∈ R} 5.1 sottospazi affini di R n e così, se P = (x1 , . . . , xn ), si ha che P ∈ π se e solo se esitono t, s ∈ R tali che (13) (x1 − x01 , . . . , xn − x0n ) = t(l1 , . . . , ln ) + s(m1 , . . . , mn ) e quindi si ottiene una rappresentazione parametrica per π: 0 x1 = x1 + t l1 + s m1 .. π: . xn = x0n + t ln + s mn (14) Esempio 5.1.3. L’insieme π = {(1 + t − 2s, −1 − 3t − 2s, 2 + 2t + s) : t, s ∈ R} è un piano di R3 . Infatti posto P = (1, −1, 2) e V = L[(1, −3, 2) , (−2, −2, 1)] si ha che π = P + V e π si rappresenta parametricamente come x = 1 + t − 2s y = −1 − 3t − 2s π: z = 2 + 2t + s Osserviamo che quanto fatto per rette e per piani può essere generalizzato ad ogni sottospazio affine di Rn , e dunque ogni sosttospazio affine possiede una rappresentazione parametrica. I sottospazi affini hanno anche una rappresentazione cartesiana (o rappresentazione ordinaria), cioè posso essere descritti in termini di soluzioni di sistemi lineari, come mostra il seguente. Teorema 5.1.4. Sia n ∈ N, allora: (i) Se V è un sottospazio vettoriale di dimensione k di Rn , allora esiste una matrice A in Mn−k,n (R) con ρ(A) = n − k tale che V = Sol(AX = 0). Viceversa, lo spazio delle soluzioni di un sistema lineare omogeneo Σ : AX = 0 con A ∈ Mn−k,n (R) con ρ(A) = n − k è sempre un sottospazio vettoriale di Rn di dimensione k. (ii) Se A è un sottospazio affine di dimensione k di Rn , allora esistono una matrice A in Mn−k,n (R), con ρ(A) = n − k, ed una matrice B ∈ Mn−k,1 (R) tale che A = Sol(AX = B) e la giacitura di A è il sottospazio vettoriale V = Sol(AX = 0). Viceversa, l’insieme delle soluzioni di un sistema lineare Σ : AX = 0 con A ∈ Mn−k,n (R) con ρ(A) = n − k è sempre un sottospazio affine di Rn di dimensione k. Proof. Siano V un sottospazio dello spazio numerico Rn , k la dimensione di V e B = {v1 , . . . , vk } una base di V; in particolare, posto vi = (αi1 , . . . , αin ) per ogni i = 1, . . . , k, si ha che la matrice (le cui righe sono i vettori di B) α11 α2 1 M= . .. ··· ··· .. . α1n α2n .. . αk 1 ... αk n 87 88 geometria analitica ha rango k. Inoltre il generico vettore v = (x1 , . . . , xn ) di Rn appartiene ad V se e soltanto se v dipende linearmente dai vettori v1 , . . . , vk e quindi se e solo se la matrice 1 α1 · · · α1n α2 · · · α2n 1 .. .. M1 = ... . . αk . . . αk n 1 x1 ··· xn ha lo stesso rango di M, ovvero k. Applicando quindi il teorema degli orlati, scegliendo un minore non singolare di ordine k in M e imponendo che questo sia un minore fondamentale per la matrice M1 , riesce un sistema lineare omogeneo Σ : AX = 0 con A ∈ Mn−k,n (R) (cioè Σ è un sistema omogeneo di n − k equazioni in n incognite), ρ(A) = n − k e il sottospazio delle soluzioni di Σ coincide con V. Pertanto, tendendo presente anche la proposizione 3.8.1, la (i) è provata. Per la (ii), sia A un sottospazio affine di dimensione k di Rn e sia V lo spazio direttore di A, sia inoltre P0 ∈ Rn tale che A = P0 + V. Allora per (i) esiste una matrice A ∈ Mn−k,n (R) con ρ(A) = n − k tale che V = Sol(AX = 0). Si ha P ∈ A ⇔ P − P0 ∈ V ⇔ A(P − P0 ) = 0 ⇔ AP = AP0 , dunque, posto AP0 = B, risulta A = Sol(AX = B). Il viceversa discende dalla proposizione 3.8.4 (e dalla proposizione 3.8.1). Limitandoci al caso di R2 e di R3 , il precedente teorema può essere riformulato come segue. Corollario 5.1.5. (i) Un sottoinsieme r di R2 è una retta se e solo se r = {(x, y) ∈ R2 : ax + by + c = 0} dove a, b, c ∈ R con a e b non contemporaneamente nulli. (ii) Un sottoinsieme π di R3 è un piano se e solo se π = {(x, y, z) ∈ R3 : ax + by + cz + d = 0} dove a, b, c, d ∈ R con a, b e c non tutti nulli. (iii) Un sottoinsieme r di R2 è una retta se e solo se esistono dei numeri reali a, b, c, d, a0 , b0 , c0 , d0 tali che a b c ρ =2 a0 b0 c0 e r = {(x, y, z) ∈ R3 : ax + by + cz + d = 0 e a0 x + b0 y + c0 z + d0 = 0}. Due sottospazi affini A e B di Rn si dicono paralleli se D(A) 6 D(B) oppure D(B) 6 D(A). In particolare, se A e B hanno stessa dimensione, si ha che A e B sono paralleli se e solo se D(A) = D(B). 5.2 geometria affine in R 2 Si osservi che se A = P0 + D(A) è un sottospazio affine di Rn , allora lo spazio direttore D(A) è il sottospazio affine di Rn passante per l’origine O = (0, . . . , 0) e parallelo ad A. Due sottospazi affini A e B di Rn si dicono incidenti se A ∩ B6= ∅; si dice invece che A e B sono sghembi se A e B non sono né paralleli né incidenti. 5.2 geometria affine in R 2 In R2 gli unici sottospazi affini non banali sono le rette. Considerata una retta r, il corollario 5.1.5 assicura che r può essere rappresentata in forma cartesiana come r : ax + by + c = 0 (15) dove a, b, c ∈ R con a e b non contemporaneamente nulli. D’altra parte se P0 = (x0 , y0 ) è un punto di r e se v = (l, m) è un vettore direzionale di r, la retta r può essere pure rappresentata parametricamente come r: x = x0 + t l y = y0 + t m (16) Si noti che la condizione (16) è equivalente a richiedere che x − x0 y − y0 det = 0, l m (17) e sviluppando questo determinante si ottiene una equazione dello stesso tipo di (15). Questo mostra come dalla rappresentazione parametrica (16) può essere ricavata una rappresentazione cartesiana dello stesso tipo di (15). In realtà anche dalla rappresentazione cartesiana si può dedurre una rappresentazione parametrica. Infatti se la retta r è rappresentata come in (15), allora il vettore v = (−b, a) è un vettore direzionale di r (perchè (−b, a) è una soluzione non nulla dell’equazione ax + by = 0 che per il teorema 5.1.4 rappresenta la giacitura di r) ed r può essere rappresentata parametricamente come r: c x = −a −t b y = 0+t a oppure r: x = −t b c y = −b a differenza che sia a 6= 0 (prima rappresentazione) oppure a = 0 (seconda rappresentazione); si noti esplicitamente che in questo secondo caso b 6= 0 essendo v un vettore non nullo. Esempio 5.2.1. Scrivere l’equazione della retta r passante per il punto (−2, 1) e di vettore direzionale (4, 3). In forma parametrica, la retta r è rappresentata dalle equazioni x = −2 + 4 t y = 1+3t con t ∈ R. La forma cartesiana si ottiene dalla relazione (17) che in questo caso è x+2 y−1 det =0 4 3 89 90 geometria analitica da cui si ricava 3(x + 2) − 4(y − 1) = 0 nonchè 3x − 4y + 10 = 0. Si noti che dalla forma parametrica a quella ordinaria si può pervenire pure ricavando il parametro t da una delle due equazioni e sostituendolo nell’altra. In R2 vale il noto assioma della geometria secondo cui per due punti passa un’unica retta. Proposizione 5.2.2. Per due punti distinti di R2 passa un’unica retta. Proof. Siano P0 = (x0 , y0 ) e P1 = (x1 , y1 ) punti distinti R2 . Allora v = P1 − P0 è un vettore non nullo e pertanto r = P0 + L[v] è una retta che, come in (16), può essere rappresentata in forma parametrica come r: x = x0 + t (x1 − x0 ) . y = y0 + t (y1 − y0 ) D’altra parte ogni altra retta r0 che contiene P0 e P1 è tale che v = P1 − P0 ∈ D(r0 ), così D(r) = D(r0 ) e r0 = P0 + D(r0 ) = P0 + D(r) = r. Pertanto anche l’unicità di r è provata. Esempio 5.2.3. Scrivere l’equazione della retta r passante per i punti P(1, −2) e Q(0, 2). Il vettore direzionale di r è il vettore P − Q = (1, −4) sicchè in forma parametrica otteniamo x = 1+t y = −2 − 4 t mentre in forma cartesiana otteniamo −4x − 1(y − 2) = 0 che si riscrive anche come 4x + y − 2 = 0. Due rette di R2 non parallele sono incidenti in un punto, infatti si ha la seguente. Proposizione 5.2.4. Siano r : ax + by + c = 0 ed r0 : a0 x + b0 y + c0 = 0 due rette di R2 . Si ha: a b (i) r ed r0 sono parallele se e solo se det = 0. a0 b0 (ii) Se r ed r0 non sono parallele, allora la loro intersezione r ∩ r0 è un punto. Proof. Un vettore direzionale di r è v = (−b, a), mentre un vettore direzionale di r0 è v0 = (−b0 , a0 ). Poichè D(r) = L[v] e D(r0 ) = L[v0 ] si ottiene che le rette r ed r0 sono parallele se e solo se i vettori v e v0 sono dipendenti (e quindi proporzionali cioè se (a, b) = λ(a0 , b0 ) per qualche λ ∈ R). In altri termini r ed r0 sono parallele se e solo se a b det = 0. a0 b 0 5.3 geometria affine in R 3 In particolare, quindi, se r ed r0 non sono parallele, allora il sistema ax + by + c = 0 a0 x + b0 y + c0 = 0 è di Cramer; poichè tale sistema rappresenta l’intersezione tra le rette r ed r0 si ottiene quindi che r ∩ r0 è un punto. Esempio 5.2.5. Scrivere l’equazione cartesiana della retta r per P0 (2, −3) parallela alla retta s : 5x − 2y + 3 = 0. Il vettore direzionale di s è v = (2, 5), sicchè r : 5(x − 2) − 2(y + 3) = 0 ovvero r : 5x − 2y − 16 = 0. Un altro modo per determinare r è il seguente. Dovendo essere parallela ad s, il vettore direzionale di r è lo stesso di quello di s e quindi l’equazione di r è del tipo 5x − 2y + λ = 0 per un opportuno λ. Il valore di λ si può poi ottenere imponendo che P0 appartenga a r, quindi deve essere 10 + 6 + λ = 0 e pertanto ritroviamo che r : 5x − 2y − 16 = 0. 5.3 geometria affine in R 3 Prima di affrontare la descrizione della geometria affine di R3 , è necessario introdurre un’altra operazione. Se u = (u1 , u2 , u3 ) e v = (v1 , v2 , v3 ) sono due vettori di R3 si dice prodotto vettoriale di u e v il vettore u × v = (u2 v3 − u3 v2 , u3 v1 − u1 v3 , u1 v2 − u2 v1 ); in altri termini le componenti del vettore u × v (rispetto al rifermento canonico) sono date dai minori di ordine 2, presi a segni alterni, della matrice u1 v1 u2 v2 u3 . v3 Segue che u × v = 0 se e solo se u e v sono dipendenti; in particolare, 0 × u = u × 0 = 0 qualsiasi sia il vettore u di Rn . Si potrebbe provare che il prodotto vettoriale è bilineare ed è antisimettrico (o alternante) cioè comunque si considerano due vettori u e v di R3 si ha che u × v = −v × u; inoltre se u e v sono vettori di R3 allora risulta ku × vk = kuk kvk sin u,ˆ v. Passiamo ora a descrivere le proprietà geometriche di R3 . I sottospazi affini non banali di R3 sono le rette e i piani. Per il corollario 5.1.5, i piani di R3 possono essere rappresentati in forma cartesiana mediante equazioni lineari in tre incognite del tipo π : ax + by + cz + d = 0 (18) dove a, b, c, d ∈ R e con a, b e c non contemporaneamente nulli. Ma sappiamo pure che i piani hanno una rappresentazione parametrica. Considerato il piano π passante per il punto P0 = (x0 , y0 , z0 ) e supposto D(π) = L[v, v0 ] 91 92 geometria analitica con v = (l, m, n) e v0 = (l0 , m0 , n0 ) vettori non nulli e indipendenti, allora π può essere rappresentato parametricamente come x = x0 + t l + s l0 y = y0 + t m + s m 0 π: z = z0 + t n + s n0 (19) Si noti che la (19) equivale a richiedere che x − x0 ρ l l0 y − y0 m m0 z − z0 n = 2, n0 ovvero che x − x0 det l l0 y − y0 m m0 z − z0 n = 0; n0 sviluppando quest’ultimo determinante si ottiene che π è l’insieme dei punti P = (x, y, z) che verifica una equazione lineare in tre incognite come la (18). Dunque si può passare dalla rappresentazione parametrica alla rappresentazione cartesiana. Viceversa, supponiamo di avere una rappresentazione per il piano π come in (18). Allora il teorema 5.1.4 assicura che lo spazio direttore D(π) è rappresentato dall’equazione lineare omogenea ax + by + cz = 0, ed è semplice accorgersi che sono soluzioni di tale equazione i vettori v = (−b, a, 0), v0 = (−c, 0, a) e v00 = (0, −c, b). D’altra parte a, b e c non sono tutti nulli e quindi sicuramente due vettori tra v, v0 e v00 sono non nulli e indipendenti tra loro (cioè costituiscono una base per D(π)), sicchè la scelta di quei due vettori e la scelta di una soluzione qualsiasi P0 dell’equazione (18) ci pemettono di scrivere (in modo analogo a quanto fatto prima) una rappresentazione parametrica per π dello stesso tipo di (19). Esempio 5.3.1. Scrivere l’equazione del piano π passante per il punto P0 (4, 3, −2) e di giaciura L[v, v 0 ] dove v = (1, −1, 0) e v 0 = (2, 1, 3). La rappresentazione parametrica di π si ottiene subito ed è x = 4 + s + 2t y = 3−s+t π: z = −2 + 3t mentre la rappresentazione cartesiana si ottiene facilmente da x−4 det 1 2 y−3 −1 1 z+2 0 =0 3 ed è x + y − z − 9 = 0. Si noti che, tenendo di riferimento la rappresentazione parametrica di π, ricavando s = x − 4 − 2t dalla prima equazione e sostituendo nella seconda si ottiene t = y − 3 + s = y − 3 + x − 4 − 2t, da questa si ricava 3t = x + y − 7 che sostituita nella terza equazione permette di ottenere x + y + z − 9 = 0 ovvero l’equazione cartesiana del piano π. 5.3 geometria affine in R 3 Considerato il piano π : ax + by + cz + d = 0, la giacitura di π D(π) = {(x, y, z) ∈ R3 : ax + by + cz = 0} è un sottospazio di dimensione 2 di R3 . Posto n = (a, b, c) si ha che n è un vettore non nullo di D(π)⊥ ; d’altra parte dim D(π)⊥ = 1 per il teorema 2.7.14 e quindi D(π)⊥ = L[n]. Il vettore n = (a, b, c) (non nullo) ha un ruolo fondamentale nello studio dei piani e viene detto il vettore normale di π; evidentemente, ogni vettore non nullo proporzionale ad n è anch’esso un vettore normale del piano. Due piani π e π0 sono paralleli se e solo se D(π) = D(π0 ). Un criterio di parallelismo tra piani è fornito dal seguente risultato dal quale discende pure, in particolare, che due piani dello spazio sono sempre paralleli oppure incidenti in una retta. Proposizione 5.3.2. Siano π : ax + by + cz + d = 0 e π0 : a0 x + b0 y + c0 z + d0 = 0 due piani di R3 . Allora: (i) π e π0 sono paralleli se e soltanto se i loro vettori normali sono proporzionali, e a b c quindi se e soltanto se ρ = 1. a0 b0 c0 (ii) Se π e π0 sono non paralleli allora la loro intersezione π ∩ π0 è una retta. Proof. Siano n = (a, b, c) e n0 = (a0 , b0 , c0 ) i vettori normali di π e π0 , rispettivamente. Si ha che π e π0 sono paralleli se e solo se (per definizione) D(π) = D(π0 ) e quindi se e solo se D(π)⊥ = D(π0 )⊥ . Essendo D(π)⊥ = L[n] e D(π0 )⊥ = L[n0 ] si ottiene la (i). Se invece π e π0 sono non paralleli, allora (i) assicura che a b c ρ =2 a0 b0 c0 e pertanto π ∩ π0 : ax + by + cz + d = 0 a0 x + b0 y + c0 z + d0 = 0 è una retta in accordo col corollario 5.1.5, e così anche la (ii) è provata. Esempio 5.3.3. Considerati i piani π : x − 4y + 3z + 1 = 0, π 0 : 2x − 8y + 6z = 0 si ha che i vettori normali di π, π 0 sono n = (1, −4, 3), n 0 = (2, −8, 6), rispettivamente. Essendo n 0 = 2n i piani π e π 0 sono paralleli. Inoltre essendo (1, −4, 3, 1) e (2, −8, 6, 0) non proporzionali, i piani π e π 00 non sono coincidenti. 93 94 geometria analitica Esempio 5.3.4. Scrivere l’equazione del piano α per P(1, 0, 1) parallelo a π : x − 4y + 3z + 6 = 0. Il vettore normale di π è n = (1, −4, 3). Dovendo α essere parallelo a π, il vettore noramale di α deve essere proporzionale ad n e quindi α ha equazione del tipo x − 4y + 3z + d = 0. D’altra parte la condizione P ∈ α assicura che 1 + 3 + d = 0, sicchè d = −4 e α : x − 4y + 3z − 4 = 0. Consideriamo ora una retta r. Il corollario 5.1.5 ci assicura che r possiede una rappresentazione cartesiana del tipo r: ax + by + cz + d = 0 a0 x + b0 y + c0 z + d0 = 0 dove a, b, c, d, a0 , b0 , c0 , d0 ∈ R sono tali che a b c ρ =2 a0 b0 c0 (20) (21) (cioè r è intersezione di due piani non paralleli). In tal caso la giacitura di r è rappresentata dal sistema omogeneo ax + by + cz = 0 a 0 x + b 0 y + c0 z = 0 e si può facilmente verificare che una soluzione di tale sistema è data dal prodotto vettoriale v = (a, b, c) × (a0 , b0 , c0 ); dunque v ∈ D(r). D’altra parte la condizione (21) assicura che v non è il vettore nullo, pertanto v è un vettore direzionale di r. In particolare, noto un vettore direzionale v e scelta una soluzione non nulla P0 del sistema (20) si può ottenere una rappresentazione parametrica di r. Infatti se P0 = (x0 , y0 , z0 ) e v = (l, m, n) è un vettore direzionale di r, allora r può essere rappresentata parametricamente come x = x0 + t l y = y0 + t m r: z = z0 + t n (22) Si noti che la (22) equivale a richiedere che la matrice x − x0 l y − y0 m z − z0 n ha rango 1 e quindi nella seconda riga di tale matrice (che è non nulla) deve esistere un minore di ordine 1, ad esempio (l), che è fondamentale. Pertanto gli orlati di (l) sono singolari ovvero x − x0 y − y0 det =0 m l . x − x0 z − z0 det =0 l n Questo sistema fornisce una rappresentazione cartesiana di r come in (20). 5.3 geometria affine in R 3 Esempio 5.3.5. Scrivere in forma parametrica la retta r: x − y + 2z = 2 2x + 3y − z = 4 E’ semplice accorgersi che P0 (1, 1, 1) è un punto di r. D’altra parte un vettore direzionale di r è il vettore v = (1, −1, 2) × (2, 3, −1) = (−5, 5, 5). Quindi anche (−1, 1, 1) è un vettore direzionale di r e pertanto in forma parametrica si ha x = 1−t y = 1+t r: z = 1+t Anche in R3 ritroviamo il noto assioma secondo cui per due punti passa un’unica retta. Proposizione 5.3.6. Per due punti distinti di R3 passa un’unica retta. Proof. Se P0 = (x0 , y0 , z0 ) e P1 = (x1 , y1 , z1 ) sono due punti distinti R3 , come nella dimostrazione della proposizione 5.2.2 si ottiene che x = x0 + t (x1 − x0 ) y = y0 + t (y1 − y0 ) r: z = z0 + t (z1 − z0 ) è l’unica retta per P0 e P1 . Esempio 5.3.7. Scrivere l’equazione della retta r per i punti A(3, 5, −1) e B(2, 1, 0). Un vettore direzionale della retta r è il vettore A − B = (1, 4, −1) e quindi parametricamente la retta è rappresentata da x = 3+t y = 5 + 4t r: z = −1 − t Per ottenere la rappresentazione cartesiana ricaviamo t da una delle equazioni e sostituiamo nelle altre. Ricavando t dalla terza, si ha t = −1 − z e così r: x+z−2 = 0 y + 4z − 1 = 0 Tre punti P0 = (x0 , y0 , z0 ), P1 = (x1 , y1 , z1 ) e P2 = (x2 , y2 , z2 ) di R3 si dicono non allineati se non appartengono alla stessa retta, in tal caso P0 non appartiene alla retta r = P1 + L[P2 − P1 ] per P1 e P2 e quindi i vettori P0 − P1 e P2 − P1 sono indipendenti (altrimenti P0 − P1 ∈ D(r) e si avrebbe che P0 = P1 + (P0 − P1 ) ∈ r). Usiamo questa osservazione per ritrovare in R3 il noto assioma secondo cui per tre punti non allineati passa un’unico piano. 95 96 geometria analitica Proposizione 5.3.8. Per tre punti non allineati di R3 passa un unico piano. Proof. Siano P0 = (x0 , y0 , z0 ), P1 = (x1 , y1 , z1 ) e P2 = (x2 , y2 , z2 ) punti non allineati R2 . Allora i vettori v = P0 − P1 e v0 = P2 − P1 sono indipendenti e pertanto r = P1 + L[v, v0 ] è un piano che, come in (16), può essere rappresentato in forma parametrica come x = x1 + t (x0 − x1 ) + s (x2 − x1 ) y = y1 + t (y0 − y1 ) + s (y2 − y1 ) . r: z = z1 + t (z0 − z1 ) + s (z2 − z1 ) D’altra parte ogni altro piano π0 che contiene P0 , P1 e P2 è tale che v, v0 ∈ D(π0 ), così D(π) = D(π0 ) e π0 = P1 + D(π0 ) = P1 + D(π) = π. Pertanto anche l’unicità di π è provata. Esempio 5.3.9. Scrivere l’equazione del piano π per i punti A(1, 0, 1), B(2, 0, 0) e C(2, 1, 3). Chiaramente, π è il piano per A la cui giacitura è il sottospazio generato dai vettori B − A = (1, 0, −1) e C − A = (1, 1, 2), quindi è il piano di equazioni parametriche x = 1+s+t y=t π: z = 1 − s + 2t Mentre da x−1 det 1 1 y 0 1 z−1 −1 = 0 2 si ricava che l’equazione cartesiana di π è x − 3y + z − 2 = 0. Due rette r ed r0 sono parallele se e solo se D(r) = D(r0 ) e quindi se e solo se il vettore direzionale di r ed il vettore direzionale di r0 sono proporzionali. Abbiamo visto che in R2 due rette non paralle sono incidenti (cioè la loro intersezione è non vuota), in particolare quindi rette complanari sono sempre parallele o incidenti. Questo non accade in R3 , infatti le rette x=0 x=1 y=t y=0 r: e r0 : (23) z=0 z=t non sono nè parallele nè incidenti. In R3 due rette che non sono nè parallele nè incidenti si dicono sghembe. Poichè il prossimo risultato assicura che rette parallele o incidenti sono sempre complanari, si ha che due rette sono sghembe se e soltanto se sono non complanari. Proposizione 5.3.10. In R3 due rette distinte che siano incidenti o parallele, sono contenute in uno stesso piano. Proof. Sia r la retta per P1 di vettore direzionale v, e sia r0 la retta per P2 di vettore direzionale v0 . Se r e r0 sono parallele, allora D(r) = D(r0 ) e P1 − P2 6∈ D(r) (altrimenti sarebbe r = P1 + L[P2 − P1 ] = P2 + L[P1 − P2 ] = r0 ), sicchè V = D (r) + L[P1 − P2 ] è un sottospazio vettoriale di dimensione 2 e così π = P2 + V è un piano. E’ semplice poi convincersi che π contiene sia r che r0 . 5.3 geometria affine in R 3 Supponiamo ora che r ed r0 sono incidenti e sia P ∈ r ∩ r0 . Allora v e v0 sono indipendenti (altrimenti D(r) = D(r0 ) e r = P + D(r) = P + D(r0 ) = r0 ), quindi π = P + L[v, v0 ] è un piano e chiaramante π contiene sia r che r0 . Esempio 5.3.11. Consideriamo le rette x = 2+t y = −t r: z = 1 + 2t x+y−2 = 0 x−y−z−1 = 0 r0 : r 00 : 2y + z = 0 2x − z − 3 = 0 Un vettore direzionale di r è v = (1, −1, 2), mentre un vettore direzionale di r 0 è v 0 = (1, 1, 0) × (1, −1, −1) = (−1, 1, −2) e un vettore direzionale di r 00 è il vettore v 00 = (0, 2, 1) × (2, 0, −1) = (−2, 2, −4). Essendo v = −v 0 , le rette r ed r 0 sono parallele; inoltre, il punto A(2, 0, 1) è un punto comune ad r ed r 0 e pertanto queste due rette sono impropriamente parallele (cioè coincidono). D’altra parte è anche v = −2v 00 e pertanto anche r ed r 00 , e conseguentemente r 0 e r 00 , sono parallele. Studiando poi il sistema x+y−2 = 0 x−y−z−1 = 0 2y + z = 0 2x − z − 3 = 0 ci si accorge che le rette r e r 00 sono propriamente parallele, infatti tale sistema è incompatibile e quindi r e r 00 non hanno punti in comune. Esempio 5.3.12. Assegnata la retta r: x+y−2 = 0 x−y−z−1 = 0 determinare la retta per A(1, 2, −3) parallela ad r. Il vettore v = (1, 1, 0) × (1, −1, −1) = (−1, 1, −2) è un vettore direzionale di r, sicchè la retta per A parallela ad r ha equazioni parametriche: x = 1−t y = 2+t z = −3 − 2t Ricavando t dalla prima e sostituendo nelle altre, otteniamo la sua forma cartesiana: x+y−3 = 0 x−y−z−2 = 0 Il prossimo risultato fornisce un criterio per riconoscere la reciproca posizione di due rette nello spazio. 97 98 geometria analitica Proposizione 5.3.13. Siano r: ax + by + cz + d = 0 a0 x + b0 y + c0 z + d0 = 0 e αx + βy + γz + δ = 0 α0 x + β0 y + γ0 z + δ0 = 0 r0 : due rette di R3 , e si considerino le matrici a a b c 0 a0 b0 c0 a e A0 = A= α α β γ α0 β0 b b0 β β0 α0 γ0 c c0 γ γ0 d d0 . δ δ0 Si ha: (i) r ed r0 sono parallele se e solo se ρ(A) = 2; (ii) r ed r0 sono incidenti e distinte se e solo se ρ(A) = ρ(A0 ) = 3; (iii) r ed r0 sono sghembe se e solo se det A0 6= 0. Proof. Consideriamo le rette r0 : ax + by + cz = 0 a0 x + b0 y + c0 z = 0 e r00 : αx + βy + γz = 0 α0 x + β0 y + γ0 z = 0 passanti per il punto O = (0, 0, 0) e parallele, rispettivamente, ad r ed r0 ; quindi r0 = D(r0 ) e r00 = D(r00 ). Si ha che r ed r0 sono parallele se e solo se r0 = D(r0 ) = D(r00 ) = r00 e quindi se e solo se il sistema ax + by + cz = 0 0 a x + b 0 y + c0 z = 0 αx + βy + γz = 0 0 α x + β0 y + γ0 z = 0 ha ∞1 soluzioni, ovvero se e solo se ρ(A) = 2 (cfr. teorema 3.8.1). Invece r ed r0 sono incidenti e distinte se e solo se il sistema ax + by + cz + d = 0 0 a x + b 0 y + c0 z + d 0 = 0 αx + βy + γz + δ = 0 0 α x + β0 y + γ0 z + δ0 = 0 è determinato (si noti che se due rette hanno più di un punto in comune, allora la proposizione 5.3.6 assicura che le due rette coincidono) e quindi, per il teorema di Rouchè-Capelli, e solo se ρ(A) = ρ(A0 ) = 3. Infine, se r ed r0 sono non parallele allora (i) assicura che ρ(A) > 3, e quindi deve essere ρ(A) = 3; se poi r ed r0 sono anche non incidenti segue da (ii) che deve essere ρ(A0 ) = 4. Pertanto r ed r0 sono sghembe se e solo se det(A0 ) 6= 0. Consideriamo ora una retta r di vettore direzionale v = (l, m, n) ed un piano π : ax + by + cz + d = 0 di vettore normale n = (a, b, c). 5.3 geometria affine in R 3 La retta r ed il piano π sono paralleli se e solo se D(r) 6 D(π) (si noti esplicitamente che non può essere il contrario perchè D(π) ha dimensione 2 e D(r) ha dimensione 1). Ma se D(r) 6 D(π) allora v ⊥ n essendo D(π)⊥ = L[n]; viceversa ogni vettore ortogonale ad n appartiene a (D(π)⊥ )⊥ = D(π) (cfr. teorema 2.7.14) e pertanto otteniamo che r e π sono paralleli ⇔ v ed n sono ortogonali ⇔ al + bm + cn = 0. Si ha poi che in R3 una retta ed un piano sono sempre paralleli oppure incidenti in un punto, infatti sussiste la seguente. Proposizione 5.3.14. Siano r una retta e π un piano di R3 . Se r e π sono non paralleli, allora l’intersezione tra r e π è un punto. Proof. Sia x = x0 + t l y = y0 + t m r: z = z0 + t n e π : ax + by + cz + d = 0 e supponiamo che r ed s siano non paralleli. Allora al + bm + cn 6= 0. (24) I punti comuni ad r e π si ottengono in corrispondenza delle soluzioni dell’equazione a(x0 + lt) + b(y0 + mt) + c(z0 + nt) + d = 0. Tale equazione può essere riscritta come (al + bm + cn)t + (ax0 + by0 + cz0 + d) = 0 sicchè, tenendo presente (24), si ricava per essa un’unica soluzione che chiaramente corrisponde ad un unico punto di intersezione tra r e π. Esempio 5.3.15. Il piano π : 2x − y − 3z + 5 = 0 e la retta x+y−1 = 0 y+z−2 = 0 sono paralleli. Infatti, il vettore normale di π è n = (2, −1, 3), mentre un vettore direzionale della retta è v = (1, 1, 0) × (0, 1, 1) = (1, −1, 1) ed è v · n = 0. Si dice fascio di piani un insieme di piani che sono o paralleli tra loro (in tal caso si parla di fascio improprio) oppure passano tutti per una stessa retta (in tal caso di parla di fascio proprio e la retta comune a tutti i piani del fascio si dice asse del fascio). Un fascio di piani (proprio o improprio che sia) è individuato a partire da due suoi piani distinti, sussiste infatti il seguente risultato. 99 100 geometria analitica Teorema 5.3.16. Siano π : ax + by + cz + d = 0 e π0 : a0 x + b0 y + c0 z + d0 = 0 piani distinti di uno stesso fascio di piani F. Allora ogni altro piano di F è descritto da una equazione del tipo `(ax + by + cz + d) + m(a0 x + b0 y + c0 z + d0 ) = 0 dove (`, m) ∈ R2 \ {(0, 0)}. Esempio 5.3.17. Rappresentare il piano π passante per il punto A(1, −2, −2) e per la retta x − 2y + z + 1 = 0 r: 2x + y − z − 3 = 0 Il piano π è un piano del fascio di asse r e quindi può essere rappresentato da un’equazione del tipo λ(x − 2y + z + 1) + µ(2x + y − z − 3) = 0. Imponendo il passaggio per A si ottiene 4λ − µ = 0, così prendendo ad esempio λ = 1 e µ = 4 otteniamo π : 9x + 2y − 3z − 11 = 0. Esempio 5.3.18. Determinare la retta r per P(1, 2, 3) complanare con s: x+y−3 = 0 2x + z − 2 = 0 e parallela al piano π : 2x + y − z + 1 = 0. La retta r è contenuta nel piano α per P ed s e nel piano β per P parallelo a π, e quindi r = α ∩ β. Il piano α appartiene al fascio di asse s e quindi la sua equazione è del tipo α : λ(x + y − 3) + µ(2x + z − 2) = 0 e dovendo passare per P è tale da aversi λ(0) + µ(3) = 0, sicchè α : x + y − 3 = 0. Un piano parallelo a π, invece, ha equazione del tipo 2x + y − z + d = 0 e imponendo il passaggio di un tale piano per P si ricava 2 + 2 − 3 + d = 0, ovvero d = −1 e pertanto β : 2x + y − z − 1 = 0. Così la retta cercata è r: 5.4 x+y−3 = 0 2x + y − z − 1 = 0 questioni metriche Due rette r ed r0 di Rn , la prima di vettore direzionale v e la seconda di vettore direzionale v0 , si dicono ortogonali se v ⊥ v0 (e quindi se v · v0 = 0). Si noti le rette r ed r0 se ortogonali non possono essere pure parallele (cfr. proposizone 2.7.9) e quindi segue dalla proposizione 5.2.4 che rette ortogonali del piano R2 sono sempre incidenti. L’esempio (23) mostra invece che in R3 rette ortogonali possono essere sghembe. 5.4 questioni metriche Esempio 5.4.1. Consideriamo le rette x = 1 + 2t x = 2−t y = −3 + t y = 2t r0 : r: z=4 z = −1 + 3t x = 1−t y = 1 + 2t r 00 : z = 2+t Allora un vettore direzionale di r è v = (−1, 2, 3), un vettore direzionale di r 0 è v 0 = (2, 1, 0) mentre un vettore parallelo a r 00 è v 00 = (−1, 2, 1). Essendo v · v 0 = 0 e v 0 · v 00 = 0, le rette r e r 0 sono ortogonali così come anche r 0 e r 00 sono ortogonali. Invece, v · v 00 = 8 6= 0 e quindi r e r 00 non sono ortogonali. D’altra parte v e v 00 non sono proporzionali e quindi r e r 00 non sono neanche parallele. Scrivendo la rappresentazione cartesiana di r ed r 00 r: 2x + y − 4 = 0 3x + z − 5 = 0 e r 00 : x+z−3 = 0 y − 2z + 3 = 0 è semplice poi accorgersi che il sistema 2x + y − 4 = 0 3x + z − 5 = 0 x+z−3 = 0 y − 2z + 3 = 0 è incompatibile, sicchè r ∩ r 00 = ∅ e quindi r e r 00 sono sghembe. Esempio 5.4.2. Assegnata la retta r: x+y−2 = 0 x−y−z−1 = 0 determinare inoltre due rette per l’origine ortogonali ad r. Il vettore v = (1, 1, 0) × (1, −1, −1) = (−1, 1, −2) è un vettore direzionale di r. Un vettore di componenti (l, m, n) è ortogonale a v se e solo se risulta 0 = (−1, 1, −2) · (l, m, n) = −l + m − 2n. Pertanto due rette per l’origine ortogonali a r sono x = −2t y=0 z=t x = −t y = 3t z = 2t Due piani π e π0 di Rn , il primo di vettore normale n e il secondo di vettore normale n0 , si dicono ortogonali se n ⊥ n0 (e quindi se n · n0 = 0). Come nel caso delle rette, due piani ortogonali non possono essere pure paralleli (cfr. proposizone 2.7.9) e quindi due piani ortogonali sono sempre incidenti in una retta. Esempio 5.4.3. Considerati i piani π : x − 4y + 3z + 6 = 0 e π 0 : x + y + z − 2 = 0, si ha che i vettori normali di π e π 0 sono n = (1, −4, 3) e n 0 = (1, 1, 1). Essendo n · n 0 = 0 si ha che π e π 0 sono ortogonali. 101 102 geometria analitica Esempio 5.4.4. Considerato il piano π : 2x + 3y − 5z + 1 = 0 si rappresentino due piani per l’origine ortogonali a π. Un piano per l’origine ha equazione del tipo ax + by + cz = 0 e un tale piano è ortogonale a π se e solo se 0 = (a, b, c) · (2, 3, −5) = 2a + 3b − 5c. Scelte due soluzioni non nulle di questa equazione, ad esempio, (5, 0, 2) e (1, 1, 1) possiamo concludere che due piani per l’origine e ortogonali a π sono 5x + 2z = 0 e x + y + z = 0. Una retta r ed un piano π di Rn , la prima di vettore direzionale v e il secondo di vettore normale n, si dicono ortogonali se v ed n sono vettori dipendenti (e quindi proporzionali). Poichè ancora una volta la proposizone 2.7.9 assicura che una retta e un piano non possono essere ortogonali e paralleli, si ottiene come conseguenza della proposizione 5.3.14 che in R3 se una retta e un piano sono ortogonali allora sono incidenti. Esempio 5.4.5. Considerato il punto A(1, 1, −2) ed il piano π : 2x + z − 4 = 0, determinare la retta r per A ortogonale a π. Essendo n = (2, 0, 1) ortogonale a π, la retta r ha equazioni parametriche x = 1 + 2t y=1 z = −2 + t Esempio 5.4.6. Considerato il punto A(−1, 1, −1) e la retta x = 1+t y = −2t z = −2 + t Determinare il piano per A ortogonale ad r. Il piano cercato, dovendo essere ortogonale ad r, deve avere vettore normale proporzionale al vettore direzionale di r e quindi ha equazione del tipo π : x − 2y + z + d = 0. Poichè poi deve essere A ∈ π, si ricava che −1 − 2 − 1 + d = 0, ovvero d = 4 e pertanto è π : x − 2y + z + 4 = 0. Esempio 5.4.7. Considerata la retta r: x+y−1 = 0 3x − z = 0 ed il punto A(1, −2, 3) 6∈ r, determinare la retta s passante per A che sia ortogonale ed incidente r. La retta s è contenuta nel piano π per A ortogonale ad r, e anche nel piano π 0 per A e per r. Un vettore direzionale di r è v = (1, 1, 0) × (3, 0, −1) = (−1, 1, −3) il piano π ha equazione del tipo −1x + y − 3z + d = 0. Dovendo essere A ∈ π, deve essere d = 1 + 2 + 9 = 12 e quindi π : x − y + 3z − 12 = 0. Invece il piano π 0 appartiene al fascio di asse r e coincide col piano 5.4 questioni metriche 3x − z = 0 perchè questo piano contiene ovviamente r e contiene anche A. Pertanto la retta cercata è s: x − y + 3z − 12 = 0 3x − z = 0 Teorema 5.4.8. Se r ed r0 sono dure rette sghembe di R3 allora esiste un’unica retta p ortogonale ed incidente sia r che r0 (tale retta p prende il nome di comune perpendicolare ad r ed r0 ). Proof. Supponiamo sia x = x0 + l t y = y0 + m t r: z = z0 + n t ed x = x00 + l0 s 0 y = y00 + m0 s ; r : z = z00 + n0 s siano poi Pt (x0 + lt, y0 + mt, z0 + nt) il generico punto di r e Qs (x00 + l0 s, y00 + m0 s, z00 + n0 s) il generico punto di r0 . La retta p(t, s) per Pt e Qs è per costruzione incidente sia r che r0 , inoltre essa è ortogonale ad r ed r0 se il vettore direzionale di p(t, s) u = Qs − Pt = (−lt + l0 s − x0 + x00 , −mt − m0 s − y0 + y00 , −nt − n0 s − z0 + z00 ) è ortogonale sia al vettore direzionale v = (l, m, n) di r che al vettore direzionale v0 = (l0 , m0 , n0 ) di r0 . Quindi p(t, s) risulterà essere una comune perpendicolare ad r ed r0 se u·v = 0 u · v0 = 0 Osservando che u = −vt + v0 s + u0 , dove si è posto u0 = Q0 − P0 , il precedente sistema si riscrive come −(v · v)t + (v · v0 )s + v · u0 = 0 −(v · v0 )t + (v0 · v0 )s + v0 · u0 = 0 (25) Quest’ultimo sistema lineare (nelle incognite t ed s) ha la matrice dei coefficienti che ha determinante pari a d = −(v · v)(v0 · v0 ) + (v · v0 )2 = (v · v0 )2 − kvk2 v0 2 . Poichè r ed r0 sono parallele, i vettori v e v0 sono non proporzionali (e quindi sono indipendenti), e così la disuguaglianza di Cauchy-Schwarz (??) assicura che d 6= 0. Segue che il sistema (25) è di Cramer e pertanto esso ha un’unica soluzione (t0 , s0 ). Allora dall’unicità della soluzione, segue che la retta p = p(t0 , s0 ) è l’unica comune perpendicolare ad r ed r0 . I punti Pt0 e Qs0 , che si determinano in corrispondenza dell’unica soluzione (t0 , s0 ) del sistema (25), si dicono essere i punti a minima distanza delle rette r ed r0 . Esempio 5.4.9. Si considerino le rette sghembe x = 2−t x = 1−t y = 1 + 2t y = 2t r: e r0 : z = −1 + 3t z = 2+t 103 104 geometria analitica Presi i generici punti P(2 − t, 2t, −1 + 3t) su r e Q(1 − t 0 , 1 + 2t 0 , 2 + t 0 ) su r 0 , il vettore P − Q = (−t + t 0 + 1, 2t − 2t 0 − 1, 3t − t 0 − 3) è ortogonale sia ad r che r 0 se e solo se (P − Q) · (−1, 2, 3) = 0 = (P − Q) · (−1, 2, 1) e quindi se e solo se t = 65 e t 0 = 35. In corrispondenza di questi valori si ottengono i punti a minima distanza P 4 12 13 5, 5 , 5 eQ 2 11 13 5, 5 , 5 . La comune perpendicolare r0 alle rette r ed è la retta per P e Q e quindi è la retta rappresentata in forma parametrica dalle sequenti equazioni 2 2 x = 5 + 5t 11 y = 5 + 15 t z = 13 5 Siano ora A = (a1 , . . . , an ) e B = (b1 , . . . , bn ) due punti di Rn . Si dice distanza tra A e B il modulo del vettore B − A = (b1 − a1 , . . . , bn − an ): q d(A, B) = kB − Ak = (b1 − a1 )2 + · · · + (bn − an )2 . Se poi S1 e S2 sono due sottospazi affini di Rn si definisce distanza tra S1 e S2 il numero reale positivo d(S1 , S2 ) = inf{d(P, Q) : P ∈ S1 e Q ∈ S2 }; in particolare, se S1 ∩ S2 6= ∅ allora d(S1 , S2 ) = 0. In R2 considerato un punto P0 = (x0 , y0 ) ed una retta r : ax + by + c = 0 si prova che |ax0 + by0 + c| √ . d(P0 , r) = a2 + b 2 Invece considerare due rette r ed r0 si ha che d(r, r0 ) = 0 se r ed r0 sono incidenti, altrimenti r ed r0 sono parallele e si ottiene che d(r, r0 ) = d(P, r0 ) qualsiasi sia il punto P di r. Consideriamo ora nel dettaglio il caso di R3 . Considerato un punto P0 = (x0 , y0 , z0 ) ed il piano π : ax + by + cz + d = 0 si potrebbe provare che risulta |ax0 + by0 + cz0 + d| √ d(P0 , π) = . a2 + b2 + c2 Esempio 5.4.10. Considerati il piano π : 2x − y + z − 4 = 0 ed il punto P(1, 3, −1), si ha che d(P, π) = √ |2 · 1 − 1 · 3 + 1 · (−1) − 4| 6 p = √ = 6. 2 2 2 6 2 + (−1) + 1 Se invece consideriamo un punto P0 ed una retta r, per calcolare la distanza d(P0 , r) si determina il piano π per P0 ortogonale ad r ed il punto di intersezione P tra r e π, e si ottiene – come sarebbe possibile provare – che d(P0 , r) = d(P0 , P). 5.4 questioni metriche 105 x−y+3 = 0 , 4x − z + 9 = 0 il piano per P ortogonale ad r ha equazione π : x √ + y + 4z − 3 = 0 ed interseca r nel punto H(−2, 1, 1), così d(P, r) = d(P, H) = 11. Esempio 5.4.11. Considerati il punto P(1, 2, 0) e la retta r : Consideriamo ora il caso di due rette r ed r0 . Se r ed r0 sono parallele (e distinte) allora si determina il piano π che contiene r ed è parallelo ad r, scelto poi un quasiasi punto P di r0 si può provare che d(r, r0 ) = d(P, π). Se le rette invece sono incidenti allora la loro distanza è 0. Infine se le due rette sono sghembe, si può provare che la distanza tra le due rette coincide con la distanza tra i punti a minima distanza che si determinano come nella dimostrazione del teorema 5.4.8. Esempio 5.4.12. Si considerino le rette sghembe x = 1−t x = 2−t y = 1 + 2t y = 2t e r0 : r: z = 2+t z = −1 + 3t 13 E’ stato visto nell’esercizio 5.4.9 che i punti a minima distanza sono P 45 , 12 5 , 5 √ 5 13 e Q 52 , 11 5 , 5 . La cui distanza tra P e Q è 5 e rappresenta la distanza di r da r 0 . Infine se consideriamo due piani π e π0 , si ha che d(π, π0 ) = 0 se i due piani sono incidenti, se invece sono paralleli risulta essere d(π, π0 ) = d(P, π0 ) qualsiasi sia il punto P ∈ π.