Politecnico di Milano A. A. 2017/2018 Lezioni di algebra lineare a cura di Prof. Elena Beretta Indice 1 SISTEMI LINEARI 1.1 Definizione e prime proprietà . . . . . . . . . . . . . . 1.2 Sistemi lineari e matrici . . . . . . . . . . . . . . . . . 1.3 Algoritmo di Gauss per le matrici . . . . . . . . . . . . 1.4 Soluzioni di sistemi lineari con l’eliminazione di Gauss 1.5 Algoritmo di Gauss-Jordan . . . . . . . . . . . . . . . 1.6 Soluzione generale dei sistemi lineari . . . . . . . . . . 1.7 Applicazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 . 1 . 4 . 5 . 6 . 8 . 9 . 11 2 ALGEBRA DELLE MATRICI 2.1 Operazioni matriciali . . . . . . . . . . 2.2 Applicazioni . . . . . . . . . . . . . . . 2.3 Proprietà delle operazioni matriciali . 2.4 Potenze e radici di matrici . . . . . . . 2.5 Inversa di una matrice . . . . . . . . . 2.6 Applicazione . . . . . . . . . . . . . . 2.7 Matrici elementari . . . . . . . . . . . 2.8 Trasposta di una matrice . . . . . . . 2.9 Matrici simmetriche e antisimmetriche 2.10 Determinante di una matrice n × n . . 2.11 Applicazioni . . . . . . . . . . . . . . . 2.12 Operazioni elementari e determinante 2.13 Regola di Cramer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 13 15 16 18 18 22 23 25 26 26 28 29 31 3 SPAZI VETTORIALI 3.1 Algebra dei vettori in Rn . . . . . . . . . . . . 3.2 Definizione di spazio vettoriale . . . . . . . . . 3.3 Esempi di spazi vettoriali . . . . . . . . . . . . 3.4 Sottospazi di spazi vettoriali . . . . . . . . . . . 3.5 Indipendenza lineare . . . . . . . . . . . . . . . 3.6 Base . . . . . . . . . . . . . . . . . . . . . . . . 3.7 Dimensione di uno spazio vettoriale . . . . . . . 3.8 Sottospazi fondamentali di una matrice e rango 3.9 Coordinate e cambiamenti di base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 33 34 35 36 37 39 41 42 46 4 TRASFORMAZIONI LINEARI 4.1 Matrice associata ad una trasformazione lineare . 4.2 Nucleo e immagine di una trasformazione lineare 4.3 Isomorfismi . . . . . . . . . . . . . . . . . . . . . 4.4 Matrici simili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 50 51 53 54 5 AUTOVALORI E AUTOVETTORI 5.1 Definizione . . . . . . . . . . . . . . . . . 5.2 Determinazione di autovalori e autovettori 5.3 Proprietà . . . . . . . . . . . . . . . . . . 5.4 Conseguenze . . . . . . . . . . . . . . . . 5.5 Applicazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 55 56 58 60 62 . . . . . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1 SISTEMI LINEARI Definizione e prime proprietà In questo primo paragrafo introdurremo i sistemi lineari. Il caso più semplice, che già conoscete tutti, è quello di un’equazione lineare. Definizione 1.1. Un’equazione lineare in n variabili x1 , . . . , xn è un’equazione della forma a1 x1 + a2 x2 + · · · + an xn = b (1) dove a1 , . . . , an ∈ R sono i coefficienti , b ∈ R è il termine noto, a1 è detto coefficiente principale e x1 variabile principale. Definizione 1.2. Una soluzione del sistema lineare (1) è una n-pla s1 , . . . , sn di numeri reali tale che a1 s1 + a2 s2 + · · · + an sn = b Esempio 1.1. L’equazione lineare di una variabile 3x1 = 2 ha un’unica soluzione x1 = 32 . Esempio 1.2. L’equazione lineare di una variabile 0x1 = 2 non ha soluzione. Notiamo comunque che di solito, se ai = 0, il corrispondente termine viene omesso. Esempio 1.3. L’equazione lineare 2x1 − x2 = 1 è un’equazione lineare in due variabili. Per trovare eventuali soluzioni si può procedere così : ( x1 = s variabile libera x2 = 2s − 1, s ∈ R Ci sono quindi infinite soluzioni, che geometricamente rappresentano i punti della retta di equazione cartesiana 2x1 − x2 = 1. In questo caso diciamo che l’equazione ha ∞1 soluzioni, ossia infinite dipendenti da un parametro reale. Esempio 1.4. L’equazione lineare 3x1 − 2x2 − x3 = 0 è un’equazione lineare in tre variabili che ammette infinite soluzioni che si possono rappresentare nella forma x 1 = s x2 = t x3 = 3s − 2t s, t ∈ R Geometricamente sono tutti i punti appartenenti al piano di equazione cartesiana 3x1 − 2x2 − x3 = 0 In questo caso diciamo che il sistema ha ∞2 soluzioni. In realtà è più interessante, sia matematicamente che per le applicazioni, il caso in cui ci sono più equazioni lineari. Definizione 1.3. Definiamo sistema lineare di m equazioni in n variabili x1 , x2 . . . , xn un sistema della forma a11 x1 + a12 x2 + · · · + a1n xn = b1 a21 x1 + a22 x2 + · · · + a2n xn = b2 (2) .. .. .. .. . . . . am1 x1 + am2 x2 + · · · + amn xn = bm aij , i = 1, . . . , n, j = 1, . . . , m sono detti coefficienti, b1 , b2 , . . . , bm termini noti. 2 Definizione 1.4. Chiameremo soluzione del sistema (2) una n-pla s1 , s2 , . . . , sn che è simultaneamente soluzione di tutte le equazioni del sistema. Osserviamo che per il fatto di richiedere la soluzione simultanea di tutte le equazioni del sistema, le soluzioni di sistemi lineari sono praticamente imprevedibili senza l’ausilio del calcolo. Esempio 1.5. ( x+y =3 x − y = −1 Il sistema è di due equazioni in due variabili x e y e può essere risolto per sostituzione ( ( ( y =3−x y =3−x y=2 x − 3 − x = −1 ⇒ x=1 ⇒ x=1 Quindi il sistema ha un’unica soluzione. Geometricamente tale soluzione può essere interpretata come il punto di intersezione tra le due rette di equazioni cartesiane x + y = 3 e x − y = −1. Esempio 1.6. Si consideri ( ( x+y =3 x+y =3 2x + 2y = 6 ⇒ 0=0 In questo caso otteniamo infinite soluzioni rappresentate da ( x=s y = 3 − s, s ∈ R Infine consideriamo Esempio 1.7. ( x+y =3 x+y =1 ⇒1=3 Quindi in questo caso il sistema non ha soluzione. Quindi abbiamo visto che anche nel caso di sistemi ci sono tre situazioni possibili: (a) Esiste un’ unica soluzione (b) Esistono infinite soluzioni (c) Non esiste alcuna soluzione (questo caso è più naturale che nel caso di una sola equazione) Vedremo più avanti che queste sono le sole tre situazioni possibili per qualsiasi sistema lineare della forma (2). Nel caso (a) diremo che il sistema è determinato. Nel caso (b) diremo che il sistema è indeterminato. Nel caso (c) diremo che il sistema è impossibile. Ovviamente più il sistema cresce in dimensione e più è difficile verificare (a), (b) e (c). Consideriamo il seguente sistema 3x1 + 2x2 − 5x3 + x4 = 2 9x − 4x + 5x + 4x = −4 1 2 3 4 (3) 3x − 8x + 25x + 2x 1 2 3 4 = −8 −6x1 + 8x2 − 10x3 + 7x4 = 8 Come risolvere questo sistema di quattro equazioni in quattro variabili? Il matematico Gauss (17771855) ebbe la seguente idea: (i) Se il sistema (3) fosse ad esempio nella forma x1 + 2x2 − x3 + x4 = ... x2 − 5x3 + ... = x3 + x4 = ... x4 = .... (4) allora sarebbe molto semplice calcolare la soluzione (se questa esiste) mediante sostituzione all’indietro. Vediamo un’altro esempio 3 Esempio 1.8. x1 + x2 + x3 = 1 x2 + x3 = 2 x3 = 1 e quindi x1 = 1 − 1 − 1 = −1 x2 = 2 − 1 = 1 x3 = 1 Un sistema in questa forma è detto a scala. (Il primo elemento diverso da zero di una riga deve essere più a destra del primo elemento diverso da zero della riga precedente). Il primo coefficiente diverso da zero su ogni riga (quando c’è ) è detto pivot (capiremo più tardi il significato del nome). Una volta che il sistema è in questa forma lo si può risolvere sostituendo all’indietro come visto nell’esempio precedente. In particolare, un sistema a scala in cui il numero di equazioni coincide con il numero di variabili è detto triangolare. (ii) Se il sistema non è nella forma di un sistema a scala allora si eseguono delle operazioni dette mosse di Gauss che lo riducono ad un sistema a scala con lo stesso insieme di soluzioni. Vale il seguente Lemma 1.1. * Le seguenti operazioni sulle righe di un sistema lineare di m equazioni in n variabili non alterano l’insieme delle soluzioni (I) Sommare ad un’equazione un multiplo di un’altra equazione (II) Moltiplicare un’equazione per una costante diversa da zero (III) Scambiare due equazioni Diciamo che due sistemi sono equivalenti se hanno lo stesso insieme di soluzioni. Quindi due sistemi ottenuti uno dall’altro mediante queste operazioni sono equivalenti. Dimostrazione. Sia s1 , . . . , sn la soluzione del sistema lineare quindi tale che n X aij sj = bi i = 1, . . . , m (5) j=1 e consideriamo il nuovo sistema ottenuto sostituendo alla h-esima riga la somma tra la h-esima riga e λ volte la k-esima riga . Otteniamo (P n (ahj + λakj )sj = bh + λbk (6) Pj=1 n j=1 aij sj = bi ∀i 6= h e quindi s1 , . . . , sn è soluzione del nuovo sistema (6). Viceversa, se s1 , . . . , sn è soluzione di (6) si ha che (P Pn n ahj sj = bh − λ j=1 akj sj + λbk = bh Pj=1 n j=1 aij sj = bi ∀i 6= h e quindi si ha che s1 , . . . , sn risolve (5). Analogamente si può dimostrare l’equivalenza dei sistemi ottenuti tramite (II) e (III). Possiamo quindi applicare le operazioni (I), (II) e (III) per ridurre un sistema lineare qualsiasi alla forma di sistema a scala e per risolverlo (se possibile) con sostituzioni all’indietro. Applichiamo il Lemma (1.1) in modo non molto sistematico per ora. Più avanti individueremo un algoritmo preciso detto metodo di eliminazione gaussiana valido in generale. Vediamo ora un’ applicazione del teorema nel caso di un sistema di tre equazioni in tre variabili. Esempio 1.9. x − 2y + 3z = 9 −x + 3y = −4 2x − 5y + 5z = 17 4 Indichiamo ora con ri l’equazione i-esima del sistema e operiamo la mossa r2 + r1 → r2 . Otteniamo il sistema equivalente x − 2y + 3z = 9 y + 3z = 5 2x − 5y + 5z = 17 Quindi operando −2r1 + r3 → r3 si ricava x − 2y + 3z = 9 y + 3z = 5 −y − z = −1 e ponendo r2 + r3 → r3 si ricava x − 2y + 3z = 9 y + 3z = 5 2z = 4 Infine con l’operazione r3 /2 → r3 si ricava x − 2y + 3z = 9 y + 3z = 5 z=2 che è un sistema triangolare. Sostituendo all’indietro si ottiene x = 1 y = −1 z =2 e in questo caso il sistema ha un’unica soluzione. (Verificare che la soluzione trovata è effettivamente soluzione del sistema di partenza!) 1.2 Sistemi lineari e matrici Per dare una descrizione matematica più precisa del metodo di eliminazione gaussiana introduciamo il concetto di matrice, che consiste nel focalizzarci sui coefficienti del sistema opportunatamente organizzati spazialmente. Come vedremo le matrici appaiono non solo nella soluzione dei sistemi lineari ma in moltissime altre situazioni: ancora più che con i sistemi la formulazione spaziale delle matrici apre orizzonti usualmente inaccessibili alla mente umana. Definizione 1.5. Dati m, n interi positivi una matrice m × n è una tabella rettangolare di numeri a11 a12 . . . a1n a21 a22 . . . a2n A= . .. .. .. = [aij ]i=1,...,m,j=1,...,n .. . . . am1 am2 ... amn – Le righe orizzontali della matrice sono dette righe, mentre quelle verticali colonne – aij indica l’ elemento all’incrocio tra la i-esima riga e la j-esima colonna. Quindi i e’ l’indice di riga e j l’indice di colonna. – se n = m diremo che la matrice è quadrata. – m × n indica la dimensione della matrice. – se n = m gli elementi aii sono detti elementi della diagonale principale della matrice. L’idea è ora di reinterpretare il metodo di eliminazione gaussiana utilizzando le matrici seguendo il seguente schema 5 / matrice sistema lineare eliminazione di Gauss eliminazione di Gauss sul sistema matrice a scala sistema a scala o eliminazione di Gauss Jordan sostituzione all’indietro matrice a scala ridotta soluzione o 1. Si identificano delle matrici collegate al sistema 2. Si eseguono operazioni elementari (mosse di Gauss) sulle righe delle matrici 3. Si ritorna al sistema e si trova la soluzione se questa esiste (eventualmente con ulteriori passaggi) Il punto che può confondere è che si può ritornare al sistema in vari momenti e si è più o meno vicini alla soluzione. Sebbene sia intuitivo tornare presto al sistema, è numericamente e matematicamente più efficiente tornarvi solo all’ultimo con la soluzione già completa. Descriveremo entrambe le strade, chiamate eliminazione di Gauss per matrici e eliminazione di Gauss-Jordan. Un’ultima osservazione sull’utilizzo delle matrici: i passaggi dal sistema lineare alla matrice associata e viceversa può essere descritto a parole (in modo complicato) oppure tramite prodotti di matrici (vedi matrici elementari). Per ora omettiamo le dimostrazioni e tutto verrà reso formalmente rigoroso dopo aver introdotto le operazioni tra matrici nel prossimo capitolo. Definizione 1.6. Dato un sistema lineare a11 x1 + a12 x2 + · · · + a1n xn = b1 a21 x1 + a22 x2 + · · · + a2n xn = b2 (7) .. .. .. ... . . . am1 x1 + a22 x2 + · · · + amn xn = bm si dice matrice dei coefficienti la matrice A, m × n, in cui l’elemento aij è il coefficiente della variabile xj nella i -esima equazione. Chiameremo matrice completa la matrice B = (A b) m × (n + 1) data da a11 a12 . . . a1n b1 a21 a22 . . . a2n b2 B= . .. .. .. .. . . . am1 1.3 am2 ... amn bm Algoritmo di Gauss per le matrici E’ arrivato il momento di descrivere l’algoritmo di eliminazione di Gauss nel dettaglio. Definizione 1.7. Chiameremo pivot di una riga di una matrice il primo elemento non nullo da sinistra, se esiste. Definizione 1.8. Chiameremo matrice a scala una matrice m × n tale che se i2 > i1 il pivot della riga i2 (se esiste) è strettamente a destra del pivot della riga i1 , ossia se ai1 j1 e ai2 j2 sono i pivot allora i2 > i1 ⇒ j2 > j1 . Esempio 1.10. 1 0 2 1 0 2 0 0 A1 = 0 0 1 , A2 = , A3 = 0 0 1 0 0 0 0 0 0 2 1 Osserviamo che A1 è una matrice a scala e l’ultima riga non ha pivot. La matrice A2 è a scala mentre A3 non è a scala. 6 Il prossimo teorema descrive in dettaglio l’algoritmo di eliminazione di Gauss. Teorema 1.1. * Data una matrice A, m × n, il seguente algoritmo produce una matrice a scala. (0) Porre A(1) = A (1) Scambiare la prima riga di A(1) con la più in alto delle righe che hanno il pivot più a sinistra. Se nessuna riga ha il pivot la matrice è costituita da soli zeri e abbiamo concluso. Altrimenti indichiamo con a1j1 il pivot della prima riga dopo lo scambio (2) Moltiplicare la prima riga per 1 a1j1 (3) Sommare alla riga i-esima la prima riga moltiplicata per −aij1 per ogni i > 1. Tutti gli elementi della colonna j1 eccetto il primo sono ora nulli. (4) Se A(1) ha più di una riga ridefinire A(1) come matrice ottenuta trascurando la prima riga della precedente matrice A(1) continuando a riportare le righe trascurate. Se A(1) ha una sola riga concludere. (5) Ripetere (1)-(4) fino alla conclusione. Vediamo ora un esempio in cui applichiamo l’algoritmo Esempio 1.11. Sia A la seguente matrice 1 3 12 −6 0 0 2 0 0 0 3 12 −6 2 → → A= 1 1 3 1 3 2 2 0 0 3 1 0 3 1 Ignoriamo ora la prima nuova matrice 1 4 0 0 0 −1 0 3 appena descritto 4 0 3 3 1 −2 0 2 → 0 2 0 1 4 −2 0 2 −1 4 3 1 riga (che però continuiamo a riportare) e ripetiamo la procedura sulla 1 −2 0 2 → 0 4 0 1 Ignoriamo la prima riga e la 1 0 0 0 4 −1 0 3 1 −2 0 4 → 0 2 0 1 4 1 0 3 1 −2 0 −4 → 0 2 0 1 4 1 0 0 −2 −4 2 13 seconda riga continuando a riportarle e ripetiamo la procedura 1 4 −2 1 4 −2 4 −2 1 −4 → 0 1 −4 → 0 1 −4 0 0 1 0 0 1 0 2 0 0 0 0 13 0 0 13 Ignoriamo la prima riga, la seconda riga e la procedura 1 0 0 0 terza riga continuando a riportarle e ripetiamo la 4 1 0 0 −2 −4 1 0 Poichè nella matrice A1 è rimasta una sola riga di zeri abbiamo concluso. Abbiamo descritto l’ algoritmo di Gauss nel dettaglio; chiaramente nella pratica si possono combinare mentalmente vari passaggi come vedremo nei prossimi esempi. 1.4 Soluzioni di sistemi lineari con l’eliminazione di Gauss Combinando il Lemma 1.1 e il Teorema 1.1 si ottiene il seguente Corollario 1.1. Dato un sistema lineare con matrice completa (A b). Se (A0 b0 ) è la matrice a scala ottenuta con l’algoritmo del Teorema (1.1) da (A b), allora il sistema associato ad (A0 b0 ) ha le stesse soluzioni del sistema iniziale e può essere risolto per sostituzione all’indietro. Dal punto di vista pratico, questo modo di risolvere i sistemi lineari è il più conveniente per risolvere a mano sistemi lineari (con qualche eccezione che vedremo più avanti). Dal punto di vista teorico, da quello pratico (e poichè sarà utile in seguito per calcolare l’inversa di una matrice) invece, conviene non tornare subito alle soluzioni come descritto nel prossimo paragrafo 7 sull’eliminazione di Gauss-Jordan. Vediamo ora alcuni esempi di come applicare l’algoritmo di Gauss appena descritto alla soluzione di sistemi Esempio 1.12. Riprendiamo il sistema dell’esempio (1.5). ( x+y =3 x − y = −1 In tal caso la matrice dei coefficienti è 1 A= 1 1 −1 mentre la matrice completa 1 B= 1 1 −1 3 −1 Operiamo ora le operazioni elementari di riga sulla matrice B. Operando r2 − r1 → r2 e successivamente −r2 /2 → r2 si ha 1 1 3 1 1 3 B → B1 = → B2 = 0 −2 −4 0 1 2 ottenendo il sistema a scala equivalente a quello di partenza ( x+y =3 y=2 e sostituendo all’indietro si ottiene x = 1, y = 2. Esempio 1.13. Vediamo ora l’esempio (1.6). In tal caso la matrice completa è 1 1 3 B= 2 2 6 Eseguendo r2 − 2r1 si ottiene 1 B → B1 = 0 1 0 ( x+y =3 3 ⇒ 0 0=0 che quindi dà luogo al sistema indeterminato risolto nell’esempio (1.6) . Esempio 1.14. Vediamo ora l’esempio (1.7). In tal caso la matrice completa è 1 1 3 B= 1 1 1 Eseguendo r2 − r1 si ottiene 1 B → B1 = 0 ( x+y =3 3 ⇒ −2 0 = −2 1 0 che dà luogo a un sistema a scala impossibile . Esempio 1.15. Riprendiamo il sistema dell’esempio (1.9). Consideriamo la matrice completa B 1 −2 3 9 −1 3 0 −4 . 2 −5 5 17 ed eseguiamo le mosse di Gauss sulle righe della matrice analoghe a quelle fatte precedentemente sul sistema. Cominciamo con r2 + r1 → r2 1 −2 3 9 B → B1 = 0 1 3 5 2 −5 5 17 8 Ora eseguiamo r3 − 2r1 → r3 ottenendo 1 B1 → B2 = 0 0 −2 1 −1 3 3 −1 9 5 −1 Eseguendo r2 + r3 → r3 1 B2 → B3 = 0 0 −2 1 0 3 9 3 5 2 4 Infine con r3 /2 → r3 si ha 1 B3 → B4 = 0 0 x − 2y + 3z = 9 3 9 3 5 ⇒ y + 3z = 5 1 2 z=2 −2 1 0 Abbiamo così ottenuto la matrice corrispondente al sistema a scala risolto in precedenza. 1.5 Algoritmo di Gauss-Jordan Come abbiamo detto è possibile proseguire con le operazioni sulle righe della matrice fino alla determinazione della soluzione. Infatti dopo aver ridotto una matrice a scala è possibile usare l’algoritmo cosiddetto di Gauss-Jordan che permette di trasformare la matrice in una matrice che, in ogni colonna contenente un pivot, abbia solo il pivot come elemento non nullo. In questo caso diremo che la matrice è a scala in forma ridotta. Esempio 1.16. 1 0 1 1 0 0 1 A1 = 0 1 3 A2 = 0 1 0 0 0 0 1 0 0 1 2 A1 non è a scala ridotta mentre A2 lo è . Descriviamo ora nel dettaglio l’algoritmo di Gauss-Jordan. Teorema 1.2. Data una matrice A m × n, il seguente algoritmo produce una matrice a scala ridotta. (0) Effettuare l’eliminazione di Gauss (algoritmo del teorema (1.1)) e indicare con A(1) la matrice a scala che ne risulta. (1) Se A(1) è costituita da soli zeri concludere altrimenti supponiamo ci siano k pivot e indichiamo con (ik , jk ) la posizione del pivot più in basso (o,equivalentemente, più a destra). (2) Per tutti gli i < ik sommare alla i-esima riga la riga ik moltiplicata per −aijk . Tutti gli elementi della colonna jk eccetto il ik -esimo sono zero. (3) Se k ≥ 2 ridefinire A(1) come la matrice ottenuta trascurando la ik -esima riga dalla precedente matrice A(1) . Se k = 1 concludere. (4) Ripetere (1)-(3) fino a conclusione. Esempio 1.17. Nell’esempio (1.15) abbiamo ridotto la matrice completa alla matrice a scala 1 −2 3 9 B4 = 0 1 3 5 0 0 1 2 Procediamo ora a ridurla alla forma ridotta. Eseguiamo r2 − 3r3 → r2 1 −2 3 9 B4 → B5 = 0 1 0 −1 0 0 1 2 Quindi r1 − 3r3 → r1 1 B5 → B6 = 0 0 9 −2 1 0 0 3 0 −1 1 2 Infine r1 + 2r2 → r1 1 B6 → B7 = 0 0 0 1 0 0 0 1 1 x −1 ⇒ y 2 z =1 = −1 =2 quindi abbiamo direttamente la soluzione del sistema senza dover procedere con la sostituzione all’indietro. 1.6 Soluzione generale dei sistemi lineari Abbiamo visto che una volta ridotta la matrice completa ad una matrice a scala ridotta è possibile trovare la soluzione del sistema. In generale vale il seguente risultato Corollario 1.2. Dato un sistema lineare con matrice completa (A b). Se (A00 b00 ) è la matrice a scala ridotta ottenuta con l’algoritmo del teorema (1.2) da (A b), allora il sistema associato ad (A00 b00 ) ha le stesse soluzioni del sistema iniziale. Ecco tre esempi: Esempio 1.18. Supponiamo che la matrice completa del sistema sia 1 0 2 0 1 0 1 1 0 2 0 0 0 1 3 che e’ a scala ridotta. Osserviamo ore che la terza colonna e l’ultima colonna dei termini noti non hanno un pivot. Torniamo quindi al sistema associato. x1 + 2x3 = 1 x2 + x3 =2 x4 =3 La soluzione è immediata osservando che x3 può essere scelta in maniera arbitraria e quindi ha il ruolo di un parametro libero. Ponendo x3 = t otteniamo le infinite soluzioni x1 = 1 − 2t x = 2 − t 2 x3 = t x4 = 3 Osserviamo che la terza colonna (senza pivot) corrisponde alla variabile x3 che è quella libera. Esempio 1.19. Ancora più semplice è trovare la soluzione con la matrice a scala ridotta ottenuta nell’esempio (1.15): 1 0 0 1 B7 = 0 1 0 −1 0 0 1 2 In questo caso tutte le colonne hanno un pivot è x y z tranne l’ultima. Tornando al sistema la soluzione =1 = −1 =2 Esempio 1.20. Se invece la matrice completa a scala ridotta è 1 1 2 0 0 1 In questo caso l’ultima colonna ha un pivot e non ci sono soluzioni poichè 0 6= 1. Sulla base di questi esempi e di tutta la teoria fatta sinora diventa naturale descrivere tutte le soluzioni di un sistema lineare, con un teorema di struttura delle soluzioni. 10 Osservazione 1.1. Nel risolvere i sistemi precedenti abbiamo scelto delle variabili come parametri; questa scelta è stata fatta implicitamente sulla base di un’osservazione fondamentale: i pivot sono definiti riga per riga, ma appartengono anche ad una colonna. Quindi ci sono delle colonne con pivot e colonne senza pivot: in particolare abbiamo visto che le variabili utilizzate come parametri corrispondono alle colonne senza pivot. E’ questa l’osservazione fondamentale che ci permette di descrivere il seguente teorema. Teorema 1.3. Si consideri il sistema lineare (2). Sia (A b) la matrice completa associata e (A00 b00 ) la matrice a scala ridotta ottenuta dall’eliminazione di Gauss-Jordan. Allora (i) Se l’ultima colonna di (A00 b00 ) contiene un pivot il sistema è impossibile (ii) Altrimenti, supponiamo ci siano k colonne senza pivot con 0 ≤ k ≤ n ed n − k colonne con pivot e siano j1 , . . . , jk gli indici delle colonne senza pivot e jk+1 , . . . , jn gli indici delle colonne con pivot . Le soluzioni del sistema sono esattamente quelle della forma ( tl , se i = jl , l ∈ {1, . . . , k} (8) xi = Pk b00p − l=1 a00pjl tl se i = jk+p , p ∈ {1, . . . , n − k} dove t1 , . . . , tk sono dette variabili libere ossia parametri scelti arbitrariamente in R. Dimostrazione. Dall’ultimo corollario sappiamo che il sistema associato alla matrice a scala ridotta (A00 b00 ) ha le stesse soluzioni del sistema originale. (i) Nel sistema associato a (A00 b00 ) appare un’equazione della forma 0 = 1 nella riga che ha determinato il pivot trovato sull’ultima colonna. Quindi in questo caso il sistema non ha soluzione. (ii) Mostriamo che se alle variabili xi si assegnano i valori dati in (ii) allora si ottiene una soluzione del sistema. Infatti, la i-esima equazione non nulla del sistema associato alla matrice (A00 b00 ) è della forma xjk+p + a00pj1 x1 + . . . a00pjk xk = b00p (9) se (i, ji ) è la posizione del pivot nella i-esima riga; si noti che essendo (A00 b00 ) in forma ridotta, sono uguali a zero tutti i coefficienti aij j 6= ji corrispondenti a colonne con pivot. Sostituendo i valori di (8) in (9) si ha k k X X 00 00 bp − apjl tl + a00pjl tl = b00p l=1 l=1 Viceversa, se xi , i = 1, . . . , n sono una soluzione del sistema associato a (A00 b00 ), alle variabili xi , i = 1, . . . , n relative a colonne senza pivot saranno assegnati dei valori numerici, che siamo liberi di chiamare t1 . . . , tk . Per le righe in cui appare un pivot, le equazioni saranno della forma (9), ognuna con la sola variabile xjk+p non ancora assegnata. Sostituendo i simboli t1 . . . , tk in (9) si ha k X xjk+p + a00pjl tl = b00p l=1 da cui si deduce la tesi. Osservazione 1.2. Questo uso degli indici ha un aspetto non intuitivo: mentre j1 , . . . , jk e jk+1 , . . . , jn conviene prenderli ognuno in ordine crescente, in generale non sarà jk < jk+1 . Nell’esempio 1.18 k = 1, j1 = 3, j2 = 1, j3 = 2, j4 = 4. Osservazione 1.3. Nell’interpretare ed usare l’algoritmo occorre prestare molta attenzione al continuo scambio di ruolo tra indici delle righe e delle colonne: i pivot sono determinati dalle righe, ma poi si considerano le colonne con i pivot; le colonne senza pivot corrispondono alle variabili libere, ma per le altre variabili, che corrispondono alle colonne con pivot il valore di tali variabili viene determinato dalla riga; non ha senso chiedersi quali termini noti corrispondono alla variabili libere: le variabili sono in relazione alle colonne e i termini noti alle righe, quindi a priori non c’è nessuna corrispondenza. E’ in parte fortuita la corrispondenza tra le variabili non libere e i termini noti: più precisamente, questa corrispondenza è dovuta al fatto che il pivot (che in inglese vuol dire appunto perno) fa da perno per lo scambio riga colonna e permette di attribuire ad ogni variabile non libera (con indice di colonna) un termine noto (con corrispondente indice di riga). Alle variabili libere, che non hanno pivot, non si attribuisce alcun termine noto. Si possono ora contare le soluzioni del sistema 11 Teorema 1.4. * Un sistema lineare può avere – nessuna soluzione nel caso (i) del teorema 1.3 (ossia l’ultima colonna contiene un pivot) quindi il sistema è impossibile, – una sola soluzione nel caso (ii) del teorema 1.3 se k = 0 (ossia tutte le colonne eccettuata l’ultima hanno un pivot) e quindi il sistema è determinato – infinite soluzioni nel caso (ii) del teorema se k > 0; in questo caso ci sono k parametri liberi e quindi ∞k soluzioni e quindi il sistema è indeterminato Dimostrazione. La dimostrazione si ottiene immediatamente dal teorema precedente. Infatti nel caso (i) nel sistema associato a (A00 b00 ) appare un’equazione della forma 0 = 1 nella riga che ha determinato il pivot trovato sull’ultima colonna. Quindi in questo caso il sistema non ha soluzione. Nel caso (ii) si ha che se non vi sono variabili libere, dal teorema precedente, l’unica soluzione è data da xi = b00i , i = 1, . . . , n Se invece k > 0 la soluzione dipende da k variabili libere e quindi il sistema ha ∞k soluzioni rappresentate da (8). Osserviamo ora che in particolare nel caso di sistemi lineari omogenei a11 x1 + a12 x2 + · · · + a1n xn = 0 a21 x1 + a22 x2 + · · · + a2n xn = 0 .. .. .. ... . . . am1 x1 + a22 x2 + · · · + amn xn = 0 poichè l’ultima colonna non può mai avere pivot e non ci possono essere più pivot del numero di righe si ha il seguente Corollario 1.3. Un sistema lineare omogeneo ammette sempre soluzione. Inoltre se il sistema ha meno equazioni di incognite il sistema e’ indeterminato. 1.7 Applicazioni Esempio 1.21. Una società di software ha chiesto un prestito di 500.000 euro per acquistare nuovi prodotti. Ha avuto una parte di denaro con interesse al 9%, una parte con interesse al 10% e una al 12%. E’ possibile scrivere un opportuno sistema lineare per determinare quanto denaro ha avuto la società per ciascun tasso se l’interesse totale annuale che ha pagato è di 52.000 euro e il totale di denaro avuto al 10% è 2, 5 quello avuto al tasso del 9%. Il sistema da risolvere è il seguente = 500.000 x 1 + x 2 + x 3 0.09x1 + 0, 1x2 + 1, 2x3 = 52.000 −2.5x1 + x2 =0 Costruiamo la matrice completa associata 1 0.09 −2, 5 al sistema 1 0.1 1 1 1.2 0 500.000 52.000 0 e applicando il metodo di Gauss-Jordan e’ facile vedere che la soluzione del problema è 100.000 euro al 9%, 250.000 euro al 10% e 150.000 euro al 12%. Esempio 1.22. Consideriamo un flusso di traffico (descritto da numero di veicoli all’ora) su alcune strade a senso unico. Determinare i valori di flusso della rete data. 12 x3 100 x4 B 300 C x2 x5 A 300 400 D 600 x1 500 Come prima cosa scriviamo le equazioni che descrivono il flusso e poi troviamo la soluzione generale del sistema. Ad ogni incrocio il flusso di veicoli uscente deve coincidere con quello entrante. Inoltre il flusso totale che entra nella rete cioè 300 + 500 + 400 + 100 deve coincidere con il flusso totale uscente 300 + 600 + x3 . Quindi si ottiene il sistema 300 + 500 + 400 + 100 = 300 + 600 + x3 x2 + x4 = 300 + x3 x1 + x2 = 800 x1 + x5 = 600 x4 + x5 = 500 Stabilire quale è il flusso massimo di veicoli lungo la strada con il flusso interno x5 . Quale è il minimo flusso di veicoli lungo la strada con flusso interno x2 ? Risolviamo il sistema con il metodo di Gauss. Otteniamo il sistema equivalente x1 + x5 = 600 x − x = 200 2 5 x3 = 400 x4 + x5 = 500 e quindi il sistema generale è descritto da x1 x2 x3 x4 x5 = 600 − t = 200 + t = 400 = 500 − t = t, t ∈ R Un flusso negativo corrisponde ad un flusso nella direzione opposta a quella descritta nel modello. Poichè nel modello tutte le strade sono a senso unico le variabili sono tutte non negative. Quindi il minimo flusso è ottenuto per x5 = 0 e il massimo è ottenuto per x5 = 500. 2 ALGEBRA DELLE MATRICI Ricordiamo la definizione di matrice data nel capitolo precedente Definizione 2.1. Dati m, n interi positivi una matrice m × n è una tabella rettangolare di numeri a11 a12 . . . a1n a21 a22 . . . a2n A= . .. .. .. = [aij ]i=1,...,m,j=1,...,n .. . . . am1 am2 ... amn 13 – Le righe orizzontali della matrice sono dette righe, mentre quelle verticali colonne – aij indica l’ elemento all’incrocio tra la i-esima riga e la j-esima colonna. Quindi i e’ l’indice di riga e j l’indice di colonna. – se n = m diremo che la matrice è quadrata. – m × n indica la dimensione della matrice. – Se m = 1, n > 0 A = [a11 . . . a1n ] si riduce a un vettore riga a11 – Se m > 0, n = 1 A = ... si riduce ad un vettore colonna. am1 – n = m Gli elementi aii sono detti elementi della diagonale principale della matrice Possiamo ora considerare operazioni algebriche tra matrici: per esempio, possiamo pensare le matrici 1 × 1 come numeri reali e per ogni coppia fissata m e n , l’insieme Mm,n delle matrici m×n come una struttura analoga dei numeri reali (R = M1,1 ). Analogamente le matrici possono essere considerate estensioni dei vettori. Tutto questo suggerisce varie operazioni, alcune naturali altre meno ovvie. 2.1 Operazioni matriciali In realtà per cominciare occorre chiarire il senso di uguaglianza tra matrici (che verrà scelta in modo ovvio) 1. Uguaglianza: Due matrice A e B sono uguali se hanno la stessa dimensione m × n, m, n ∈ N e aij = bij , i = 1, . . . , m, j = 1, . . . , n Altrettando ovvia e’ la definizione di somma 2. Somma: Date due matrici m × n A = [aij ] e B = [bij ] con i = 1, . . . , m, j = 1, . . . , n la matrice A + B la matrice m × n di elementi A + B = [aij + bij ], i = 1, . . . , m, j = 1, . . . , n Esempio 2.1. 3 2 −3 −1 A= B= −1 1 1 2 3−3 2−1 0 1 A+B = = −1 + 1 1 + 2 0 3 In analogia con operazioni tra vettori si introduce l’ovvia definizione di moltiplicazione scalare. 3. Moltiplicazione per uno scalare: Sia A = [aij ], i = 1, . . . , m, j = 1, . . . , n una matrice m × n e sia λ ∈ R. Allora λA è la matrice m × n λA = [λaij ], i = 1, . . . , m, j = 1, . . . , n Osservazione 2.1. A partire da 1 e 2 possiamo definire la differenza tra matrici A − B = [aij − bij ], i = 1, . . . , m, j = 1, . . . , n Esempio 2.2. Date le matrici 1 A = −1 2 2 4 2 0 1 , B = 1 1 1 3 Calcolare A − B e 21 A + 2B. 14 1 −1 2 0 1 1 4. Prodotto tra matrici: La definizione di prodotto è tutt’altro che ovvia. Per questo partiamo da un’applicazione Esempio 2.3. Consideriamo la seguente tabella Tennis 3 0 1 1 Anna Paola Carlo Marco Golf 5 1 1 0 Calcio 0 0 1 6 Può essere interpretata come una matrice A di dimensione 4 × 3 dove l’elemento aij indica il numero di ore che lo studente della riga i dedica allo sport corrispondente alla colonna j. Osserviamo intanto che la somma degli elementi di ciascuna riga ci dice quante sono le ore complessive che ciascuno studente dedica ai tre sport mentre la somma degli elementi lungo ciascuna colonna ci dice quante sono le ore totali dedicato dal gruppo di studenti a ciascuno sport. Consideriamo ora una nuova tabella Tennis Golf Calcio Cuore 3 1 3 Polmoni 2 2 3 Gambe 3 3 3 che può essere interpretata come una matrice B di dimensione 3 × 3 dove l’elemento bij indica il beneficio orario (espresso in punti/h) che lo sport i-esimo ha sull’organo j-esimo. Vorremmo ora sapere l’effetto che ha lo sport sul cuore per Anna. E’ chiaro che questo sarà 3 punti/h per tre ore dal tennis più 1punto/h per cinque ore dal golf più 3 punti/h per zero ore per il calcio con un totale di 14 punti. Abbiamo fatto una strana operazione (un prodotto scalare) tra la prima riga della prima matrice e la prima colonna della seconda matrice. Questo suggerisce la seguente definizione: Definizione 2.2. Consideriamo una matrice A = [aij ] di dimensione m × p e una matrice B = [bij ] di dimensione p × n. Allora la matrice prodotto C = AB è una matrice m × n e i suoi elementi cij si calcolano nel seguente modo cij = p X aik bkj = ai1 b1j + ai2 b2j + · · · + aip bpj , i = 1, . . . , m, j = 1, . . . , n k=1 Vediamo più da vicino come è fatto quest’elemento; è il prodotto scalare tra il vettore riga b1j [ai1 . . . aip ] della matrice A e il vettore colonna ... bpj Esempio 2.4. Siano −1 A= 4 5 3 −2 , 0 B= −3 −4 2 1 Poichè A ha dimensione 3 × 2 e B ha dimensione 2 × 2 la matrice prodotto AB avrà dimensione 3 × 2 3 − 12 −2 + 3 −9 1 AB = −12 + 8 8 − 2 = −4 6 −15 10 −15 10 Osservazione 2.2. Ci sono modi diversi di esprimere il prodotto tra matrici. Infatti sia A matrice m × n e B matrice n × l. Osserviamo, per cominciare che Bx = x1 b1 + · · · + xl bl dove b1i bi = ... bni Utilizzando le proprieta’ delle operazioni matriciali (AB)x = A(Bx) = A(x1 b1 + · · · + xl bl ) = A(x1 b1 ) + · · · + A(xl bl ) = x1 Ab1 + · · · + xl Abl 15 e quindi (AB)x = [Ab1 . . . Abl ]x da cui si ricava AB = A[b1 . . . bl ] = [Ab1 . . . Abl ] Esempio 2.5. Calcolare AB utilizzando la formula per il prodotto appena ricavata. 2 3 4 3 6 A= B= 1 −5 1 −2 3 Calcoliamo quindi 2 3 4 11 2 Ab1 = = Ab2 = 1 −5 1 −1 1 3 3 0 2 = Ab3 = −5 −2 13 1 3 6 21 = −5 3 −9 Quindi AB = 11 −1 0 13 21 −9 Osserviamo che ogni colonna di AB è una combinazione lineare di colonne di A con coefficienti nelle corrispondenti colonne di B. Osserviamo anche che è possibile esprimere il prodotto AB in termini di vettori riga. Infatti scrivendo b1 .. B= . bn osserviamo che [a11 . . . a1n ]B = a11 b1 + · · · + a1n bn Quindi si ha r1 B AB = ... rn B dove r1 , . . . , rn sono i vettori riga della matrice A. 2.2 Applicazioni Esempio 2.6. Riprendiamo ora l’esempio (2.3) visto in precedenza e consideriamo la matrice prodotto AB di dimensione 4 × 3 che puo’ essere rappresentata con la seguente tabella Anna Paola Carlo Marco Cuore 14 1 7 21 Polmoni 16 2 7 20 Gambe 24 3 9 21 in cui l’elemento cij indica il beneficio riportato all’organo j dallo studente i dall’attività praticata. Esempio 2.7. Un sistema lineare di m equazioni in n incognite può essere scritto in forma compatta usando il prodotto di matrici. Infatti considerato il sistema a11 x1 + a12 x2 + · · · + a1n xn = b1 a21 x1 + a22 x2 + · · · + a2n xn = b2 .. .. .. ... . . . am1 x1 + a22 x2 + · · · + amn xn = bm indicando con x il vettore colonna n × 1 delle variabili x1 x2 x= . .. xn 16 e con b il vettore colonna m × 1 dei termini noti b1 b2 b= . .. bm e infine indicando con A la matrice m × n dei coefficienti possiamo riscrivere il sistema nella forma matriciale utilizzando la definizione di prodotto tra matrici Ax = b. Anche la soluzione generale (8) può essere scritta tramite matrici e vettori utilizzando la formula del teorema 1.3 Esempio 2.8. Nell’esempio 1.17 si ha k = 1 e j1 = 3. Quindi la soluzione può essere scritta come 1 −2 2 −1 x = + t1 0 1 3 0 Esempio 2.9. Se ora la matrice [A0 b0 ] ha 1 [A0 b0 ] = 0 0 la forma 2 0 0 0 1 0 −1 2 0 0 −2 0 3 1 1 si ha che k = 2 e j1 = 2 e j2 = 4. Quindi la soluzione può essere scritta come 1 −2 −2 0 1 0 x= 3 + t1 0 + t2 −2 1 0 0 0 0 1 2.3 Proprietà delle operazioni matriciali – Somma e moltiplicazione per uno scalare Date le matrici A, B, C di dimensioni m × n e fissati λ, µ ∈ R si ha (1) A + B = B + A (proprietà commutativa) (2) A + (B + C) = (A + B) + C (proprietà associativa) (3) (λµ)A = λ(µA) (proprietà associativa del prodotto per uno scalare) (4) 1A = A (5) λ(A + B) = λA + λB (proprietà distributiva) (6) (λ + µ)A = λA + µA (proprietà distributiva) (7) Sia Om,n la matrice nulla di dimensione m × n A + Om,n = A (8) A + (−A) = Om,n (9) λA = Om,n se λ = 0 oppure A = Om,n La dimostrazione di (1)-(9) è ovvia e si basa sulle proprietà dei numeri reali ed è quindi lasciata come esercizio al lettore. – Prodotto tra matrici Per il prodotto tra matrici le cose non sono ovvie come vedremo tra poco. Una domanda naturale che possiamo porci a questo punto è se valga la proprietà commutativa del prodotto. La risposta è no. In generale AB 6= BA 17 Esempio 2.10. Siano A= 1 1 Si ha che 1 , 1 B= 3 AB = 3 mentre BA = 1 2 −1 −1 1 1 0 −1 1 1 Quindi AB 6= BA Vediamo ora quali proprietà sono invece vere. Siano A, B, C matrici di dimensioni opportune e sia λ ∈ R (1) A(BC) = (AB)C (proprietà associativa del prodotto) (2) A(B + C) = AB + AC (proprietà distributiva del prodotto rispetto alla somma) (3) (A + B)C = AC + BC (proprietà distributiva del prodotto rispetto alla somma) (4) λ(AB) = (λA)B = A(λB) ( proprietà associativa) (5) A matrice m × n. AIn = Im A = A dove Ik indica la matrice k × k detta identità cioè in cui tutti gli elementi sulla diagonale principale sono 1 mentre i restanti sono 0. Dimostrazione. Dimostriamo (1). X X XX XX [A(BC)]il = aij bjk ckl = aij bjk ckl = aij bjk ckl = [(AB)C]il, ∀i, l j j k k k j Dimostriamo ora (2). [A(B + C)]il = X aij (bjl + cjl ) = j X aij bjl + X j aij cjl = [AB + AC]il , ∀i, l j Per dimostrare (3) si procede in maniera analoga. Per (4) osserviamo che X X X [λ(AB)]il = λ aij bjl = λaij bjl = [(λA)B]il = aij λbjl = [A(λB)]il , ∀i, l j j j Infine (5) si ottiene osservano che [AIn ]il = X aij δjl j dove δjl = 1 se j = l mentre δjl = 0 se j 6= l. Quindi [AIn ]il = ail = [A]il Analogamente si mostra che Im A = A Un’altra proprietà falsa è la regola di cancellazione del prodotto. Questo rende le equazioni matriciali più complicate di quelle di variabile reale. Infatti AX = BA ⇒ X = B? AX = AB ⇒ X = B? In generale la risposta è no come mostra il seguente esempio 18 Esempio 2.11. Sia A= e siano AX = 3 2 1 X= −1 1 −1 0 B= 0 0 0 e Si ha 3 2 0 0 0 0 AB = 0 0 0 0 Quindi AX = AB ma chiaramente 2.4 0 X= 6 0 0 0 Potenze e radici di matrici Sia A una matrice n × n. Chiameremo potenza k-esima di A la matrice ottenuta eseguendo il prodotto di A con se stessa k-volte Ak = A . . . A ben definito per l’associatività e chiameremo radice k-esima di A la matrice √ k A = B se B k = A 2.5 Inversa di una matrice In questo paragrafo ci concentriamo sulle matrici quadrate. Definizione 2.3. Una matrice A m×n tale che aij = 0 per ogni i 6= j è detta matrice diagonale. Osserviamo che la matrice identità è una matrice diagonale con tutti gli elementi sulla diagonale principale uguali a uno. Definizione 2.4. Chiameremo matrice identità la matrice diagonale In di dimesione n × n data da 1 0 .. In = . 0 1 Definizione 2.5. Una matrice A n × n è invertibile (non singolare) se esiste una matrice n × n B tale che AB = BA = In Esempio 2.12. Verificare, applicando la definizione, che −2 −3 −1 −3 −3 −1 −2 −4 −1 è la matrice inversa di 1 1 −6 −1 0 2 0 −1 3 Vale il seguente Teorema 2.1. * La matrice inversa di una matrice n × n, A, se esiste è unica e verrà indicata con il simbolo A−1 . 19 Dimostrazione. Supponiamo che esistano due matrici B, C tali che AB = BA = In AC = CA = In Allora AB = In ⇒ C(AB) = CIn = C ma C(AB) = (CA)B = In B = B quindi B = C Siamo arrivati qui ad una delle difficoltà nello sviluppo logico dell’algebra lineare: l’inversa di una matrice è stata definita come una matrice che è contemporaneamente inversa a destra e inversa a sinistra. Se troviamo l’inversa a destra sarà anche inversa a sinistra? La risposta è affermativa, ma non di immediata dimostrazione. Quindi enunciamo il seguente Teorema 2.2. AB = In ⇒ BA = In Vediamo ora un esempio di come calcolare l’inversa di una matrice 2 × 2 Esempio 2.13. Calcoliamo la matrice inversa di 1 4 A= −1 −3 Per determinare la matrice inversa di A verifichiamo che esiste una matrice X soluzione di AX = I2 (10) Indichiamo con xij i, j = 1, 2 le componenti di X. L’equazione (10) equivale a 1 4 x11 x12 1 0 = −1 −3 x21 x22 0 1 cioè eseguendo il prodotto tra matrici a sinistra e eguagliando le matrici equivale a risolvere il seguente sistema x11 + 4x21 =1 x + 4x =0 12 22 −x11 − 3x21 = 0 −x12 − 3x22 = 1 da cui si ricava X = A−1 = −3 1 −4 1 Sostanzialmente per trovare l’inversa abbiamo risolto i due sistemi ( ( x11 + 4x21 =1 x12 + 4x22 =0 −x11 − 3x21 = 0 −x12 − 3x22 = 1 Osserviamo ora che la matrice dei coefficienti è la stessa per entrambi i sistemi. Quindi, invece di risolverli separatamente, possiamo risolverli simultaneamente completando la matrice dei coefficienti nel modo seguente 1 4 1 0 B= = [A I2 ] −1 −3 0 1 Applicando il metodo di Gauss-Jordan si ricava ponendo r1 + r2 → r2 1 4 1 0 B → B1 = 0 1 1 1 e eseguendo r1 + (−4r2 ) → r1 1 B1 → B2 = 0 0 1 −3 1 −4 = [I2 A−1 ] 1 Infatti è come se avessimo risolto Axi = ei , i = 1, 2 dove e1 , e2 sono i versori fondamentali di x1i 2 V e xi = e trovato xi = A−1 ei che per i = 1, 2 rappresentano le colonne della matrice x2i A−1 . 20 Osservazione 2.3. Data una matrice A di dimensione 2 × 2 a b A= c d A e’ invertibile se e solo se ad − cb 6= 0 e A −1 1 d −b = ad − bc −c a Quanto visto nell’esempio precedente è vero in generale. Vale infatti il seguente teorema Teorema 2.3. Data una matrice A di dimensione n × n 1. Formiamo la matrice n × 2n [A In ] 2. Se è possibile ridurre la matrice A all’identità eseguendo le operazioni elementari sulla matrice [A In ] cioè ottenendo [In B] allora la matrice A è invertibile e B = A−1 . Se ciò non è possibile allora la matrice A non è invertibile (singolare) Vediamo ora un altro esempio: Esempio 2.14. Consideriamo la matrice 1 A= 1 −6 e consideriamo 1 [A I3 ] = 1 −6 −1 0 2 −1 0 2 0 −1 3 0 −1 3 1 0 0 0 1 0 0 0 1 a cui applichiamo il metodo di Gauss-Jordan. Iniziamo con l’operazione r2 − r1 → r2 1 −1 0 1 0 0 1 −1 −1 1 0 [A I3 ] → B1 = 0 −6 2 3 0 0 1 Quindi applichiamo r3 + 6r1 → r3 1 B1 → B2 = 0 0 −1 1 −4 0 −1 3 1 −1 6 0 0 1 0 0 1 Eseguendo quindi nell’ordine −r3 → r3 , r2 + r3 → r3 , r1 + r2 → r1 si giunge alla matrice 1 0 0 −2 −3 −1 0 1 0 −3 −3 −1 0 0 1 −2 −4 −1 quindi A−1 −2 = −3 −2 −3 −3 −4 −1 −1 −1 Vediamo ora le proprietà della matrice inversa Teorema 2.4. * Sia A una matrice n × n invertibile, k ∈ N, λ ∈ R. Allora A−1 e Ak sono matrici invertibili e (1) (A−1 )−1 = A (2) (Ak )−1 = (A−1 )k (3) (λA)−1 = λ1 A−1 (4) Se B è una matrice n × n invertibile (AB)−1 = B −1 A−1 21 Dimostrazione. Cominciamo da (1). Osserviamo che A−1 A = AA−1 = In che significa che A e’ inversa di A−1 cioè (A−1 )−1 = A. Per dimostrare (2) utilizziamo la proprietà associativa del prodotto Ak (A−1 )k = (A · · · A)(A−1 · · · A−1 ) = A · · · (AA−1 ) · · · A−1 = In Per dimostrare (3) scriviamo λA 1 −1 A λ = 1 λ λ (AA−1 ) = In dove abbiamo utilizzato le proprietà associative del prodotto scalare e del prodotto di matrici. Infine (AB)(A−1 B −1 ) = A(BB −1 )A−1 = AIn A−1 = In Ritorniamo ora alle proprietà di cancellazione, che vale per matrici quadrate: Corollario 2.1. Sia A una matrice n × n invertibile. Allora AX = AB ⇒ X = B XA = BA ⇒ X = B Dimostrazione. Considero AX = AB e moltiplico a sinistra per A−1 . Si ha A−1 (AX) = A−1 (AB) e usando la propietà associativa del prodotto di matrici si ricava (A−1 A)X = (A−1 A)B e quindi In X = In B ⇒ X = B Le matrici quadrate invertibili hanno quindi lo stesso ruolo dei numeri reali non nulli. E si possono risolvere equazioni matriciali: Esempio 2.15. Risolvere l’equazione matriciale 3AX + B = C assumendo che A sia invertibile. Applicando le operazioni matriciali viste in precedenza si ha AX = 1 (C − B) 3 e moltiplicando l’equazione a sinistra per A−1 1 1 1 X = A−1 ( (C − B)) = A−1 C − A−1 B 3 3 3 Vediamo ora che per alcune matrici speciali il calcolo della matrice inversa è immediato. Teorema 2.5. Se A è una matrice n × n diagonale allora A è invertibile se aii 6= 0 per ogni i = 1, . . . , n e in tal caso 1/a11 0 ... 0 0 1/a22 . . . 0 A−1 = . . . .. .. .. .. . 0 0 ... 1/ann Dimostrazione. Consideriamo la matrice completa [A In ]. Per ridurre tale matrice con il metodo di Gauss-Jordan ad una matrice a scala ridotta basta semplicemente dividere per 1/aii per i = 1, . . . , n. Se aii = 0 per qualche i ciò significa che c’è un pivot in una colonna k > n e quindi il sistema associato AX = In non ha soluzione 22 2.6 Applicazione Consideriamo un sistema di n equazioni in n variabili x1 , . . . , xn che possiamo scrivere nella forma matriciale Ax = b dove x1 x2 x= . .. xn b1 b2 b=. .. bn e dove A è la matrice dei coefficienti del sistema. Vale il seguente Teorema 2.6. Se A è invertibile allora l’equazione Ax = b ha un’ unica soluzione x = A−1 b Dimostrazione. Se la matrice A è invertibile allora moltiplicando l’equazione Ax = b a sinistra per A−1 ricaviamo x = A−1 b Dimostriamo ora che tale soluzione è unica. Supponiamo esista y tale che Ay = b Si ha A(x − y) = 0 ⇒ x − y = A−1 0 = 0 ⇒ x = y Osservazione 2.4. Benchè questo metodo di soluzione sembri più veloce dell’eliminazione di Gauss o di Gauss-Jordan, in realtà per calcolare l’inversa abbiamo l’eliminazione su [A I] che richiede più operazioni dell’eliminazione su [A b]. Naturalmente è più rapida se A−1 è nota per qualche motivo. Esempio 2.16. Consideriamo il sistema ( 3x1 + 2x2 = 1 x1 − x2 =2 La matrice dei coefficienti è 3 A= 1 2 −1 Poichè −3 − 2 = −5 6= 0 la matrice A è invertibile e l’inversa è data da 1 −1 −2 A−1 = − 5 −1 3 Quindi la soluzione del sistema è data da 1 −1 1 x = A−1 =− 2 5 −1 −2 3 1 −1 = 2 1 Esempio 2.17. Dato il sistema 2x + 3y + z 3x + 3y + z 32 + 4y + z = −1 =1 = −2 calcolare l’inversa A−1 della matrice dei coefficienti A e quindi calcolare la soluzione x −1 y = A−1 1 z −2 23 2.7 Matrici elementari Negli scorsi paragrafi abbiamo visto le operazioni elementari su righe e abbiamo introdotto il prodotto di matrici. Ora vedremo come utilizzare il prodotto per eseguire le operazioni sulle righe. E qui succede qualcosa di magico: per eseguire un’operazione elementare su una riga di una matrice B, m × n, si esegue tale operazione sulla corrispondente riga della matrice identità Im ottenendo una matrice che chiameremo E e quindi si moltiplica la matrice B a sinistra per E. Definizione 2.6. Una matrice E ottenuta dalla matrice identità Im eseguendo una operazione elementare di riga è detta matrice elementare. Esempio 2.18. Quali tra queste matrici è elementare? 1 0 0 1 0 0 1 0 0 1 0 E1 = E2 = 0 0 1 E3 = 0 1 0 E4 = 0 0 1 0 2 0 1 0 −3 0 1 1 1 1 E1 è elementare perchè è ottenuta dall’identità eseguendo 2r2 → r2 , E2 è elementare perchè è ottenuta dall’identità eseguendo r3 → r2 , E3 è elementare perchè è ottenuta dall’identità eseguendo r3 − 3r1 → r3 . La matrice E4 non è elementare. Verifichiamo ora con un esempio la proprietà prodotto di matrici con matrici elementari. Esempio 2.19. 1 0 0 2 0 0 1 −1 0 1 0 5 descritta all’inizio del paragrafo utilizzando il 3 2 2 = 5 4 −1 3 4 2 Quindi abbiamo scambiato la seconda con la terza riga moltiplicando a sinistra la matrice per una matrice elementare ottenuta scambiando la seconda con la terza riga. Mentre 1 0 0 2 3 2 3 0 0 1 −1 2 = −1 2 −3 0 1 5 4 −1 −5 In questo caso abbiamo eseguito r3 − 3r1 → r3 . Osservazione 2.5. Operazioni riga elelmentari che riducono una matrice B a scala ridotta si possono rappresentare come prodotti di matrici elementari con B cioè nella forma Ek Ek−1 · · · E1 B Esempio 2.20. Consideriamo la matrice 1 A= 0 1 −2 3 −4 Vogliamo ridurla a scala ridotta usando matrici elementari. 1 −1 1 0 1 1 3 1 −1 1 = 0 1 0 −1/2 0 −2 −4 0 1 0 1 1 3 1 = 2 0 0 1 1 2 Definizione 2.7. Due matrici A, B sono equivalenti per righe se esistono un numero finito di matrici elementari E1 , . . . , Ek tali che A = Ek Ek−1 · · · E1 B Teorema 2.7. Una matrice elementare è invertibile e l’inversa è una matrice elementare. Dimostrazione. Una matrice elementare E si ottiene dall’identità I applicando un’operazione elementare di riga. Quindi è possibile eseguire un’operazione elementare di riga che riporta E in I cioè esiste una matrice F elementare tale che FE = I e anche EF = I e quindi F = E −1 . 24 Esempio 2.21. Determinare l’inversa di 1 E1 = 0 −4 0 0 1 0 0 1 Per trasformare E1 in I3 serve eseguire l’operazione 4r1 + r3 → r3 . Quindi la matrice inversa di E1 è 1 0 0 E1−1 = 0 1 0 4 0 1 Teorema 2.8. Sia A una matrice n × n. Allora A è invertibile se e solo se può essere espressa come prodotto di matrici elementari. Dimostrazione. Se A è invertibile allora la matrice [A On ] è riducibile mediante operazioni di riga elementari alla matrice [In On ] poichè il sistema Ax = 0 ha un’unica soluzione. Quindi Ek · · · E1 A = In ⇒ A = (Ek · · · E1 )−1 = E1−1 · · · Ek−1 . Viceversa se A = E1 · · · Ek allora A è invertibile in quanto prodotto di matrici invertibili. A questo punto ci chiediamo: a che cosa serve tutto questo? Per implementare le operazioni di riga su una matrice. Inoltre vedremo più avanti che quanto detto è anche utile per trovare un’espressione algebrica dell’inversa di una matrice. Riassumendo possiamo dire che le seguenti condizioni sono equivalenti: A matrice n × n 1. A è invertibile. 2. Ax = b ha un’unica soluzione ∀b. 3. Ax = 0 ha la sola soluzione nulla. 4. A è equivalente alla matrice identità In . 5. A può essere scritta come prodotto di matrici elementari. 2.8 Trasposta di una matrice Definizione 2.8. Data una matrice m×n A = [aij ] la sua trasposta è la matrice n×m AT = [a0ij ] che si ottiene scambiando righe con colonne ossia tale che a0ij = aji , i = 1, . . . , n, j = 1, . . . , m Più esplicitamente se a11 a21 A= . .. a12 a22 .. . ... ... .. . a1n a2n .. . am1 am2 ... amn a11 a12 AT = . .. a21 a22 .. . ... ... .. . am1 am2 .. . a1n am2 ... amn allora Esempio 2.22. Riprendiamo l’esempio (2.3). In esso consideravamo la tabella A 4 × 3 Anna Paola Carlo Marco Tennis 3 0 1 1 25 Golf 5 1 1 0 Calcio 0 0 1 6 che ci indica quante ore pratica ciascun studente giocando a tennis, golf e calcio. Se adesso consideriamo la matrice trasposta AT 3 × 4 otteniamo la tabella Anna 3 5 0 Tennis Golf Calcio Paola 0 1 0 Carlo 1 1 1 Marco 1 0 6 che ci indica per ogni sport quali studenti lo praticano e per quante ore. Vediamo ora altri esempi Esempio 2.23. 2 3 A= 0 1 −1 1 2 0 AT = 3 1 1 1 2 A= 8 1 1 1 −1 1 1 AT = [2 8] 0 1 A = 2 4 1 −1 0 2 1 T A = 1 4 −1 Vediamo ora alcune proprietà della trasposizione Teorema 2.9. Siano A, B matrici di dimensioni opportune, λ ∈ R. Valgono le seguenti proprietà 1. (AT )T = A 2. (A + B)T = AT + B T 3. (λA)T = λAT 4. (AB)T = B T AT 5. (AT )−1 = (A−1 )T se A è invertibile Dimostrazione. Le proprietà 1-3 sono ovvie. Dimostriamo 4. X X X [(AB)T ]ij = [AB]ji = ajk bki = bki ajk = [B T ]ik [AT ]kj = B T AT k k k Concludiamo dimostrando 5. Si ha (A−1 )T AT = (AA−1 )T = I Esempio 2.24. Calcolare la soluzione di (AB − X T )T = B T AT Si ha (AB − X T )T = (AB)T − (X T )T = (AB)T − X = B T AT − X Quindi B T AT − X = B T AT da cui −X = O ⇒ X = O 26 2.9 Matrici simmetriche e antisimmetriche Definizione 2.9. Una matrice n × n A è simmetrica se A = AT . Definizione 2.10. Una matrice n × n A è antisimmetrica se AT = −A. Vediamo alcuni esempi Esempio 2.25. Consideriamo la matrice dell’amicizia dove l’elemento aij è uno o zero a seconda che la persona i sia o meno amica/o della persona j Anna Paola Carlo Anna 1 0 1 Paola 0 1 1 Carlo 1 1 1 Chiaramente tale matrice è simmetrica. Purtroppo quella dell’amore spesso non è simmetrica! Esempio 2.26. Consideriamo la matrice in cui nella posizione ij c’è l’importo di cui i è creditore verso j se positivo o debitore verso j se negativo. In questo caso si ottiene una matrice A che ovviamente è antisimmetrica. Ad esempio se A è la matrice Anna Paola Carlo Anna 0 -10 5 Paola 10 0 15 Carlo -5 -15 0 si ricava facilmente che −A = AT che implica che A è antisimmetrica. 2.10 Determinante di una matrice n × n Il determinante è un numero magico che, come vedremo, ci dà un sacco di informazioni utili sulla matrice. Cominciamo con il caso di matrici 2 × 2. Definizione 2.11. Data la matrice a b A= c d Chiameremo determinante di A il numero detA = ad − bc Osserviamo che se detA 6= 0 la matrice A è invertibile. Esempio 2.27. 2 2 A= 1 4 In questo caso detA = 8 − 2 = 6. Mentre se A= 1 −3 −2 6 detA = 6 − 6 = 0. Estendiamo ora il concetto di determinante ricorsivamente a matrici di dimensione arbitraria n × n. Per fare ciò servono delle definizioni preliminari. Definizione 2.12. Data una matrice n × n A indichiamo con Mij la matrice (n − 1) × (n − 1) ottenuta da A cancellando la i-esima riga e la j-esima colonna. Esempio 2.28. Data la matrice 3 2 3 A = 1 4 1 2 −1 5 Calcoliamo ad esempio M23 matrice 2 × 2 ottenuta da A cancellando la seconda riga e la terza colonna. Quindi 3 2 M23 = 2 −1 mentre M12 è data da M12 = 27 1 2 1 5 Ora vogliamo definire il determinante di una matrice n × n supponendo di saper calcolare il determinante di una matrice (n − 1) × (n − 1). Definizione 2.13. Data una matrice n × n A chiameremo complemento algebrico dell’elemento aij il numero Cij = (−1)i+j detMij Il complemento algebrico Cij è quindi il determinante della matrice (n − 1) × (n − 1) ottenuta cancellando la i-esima riga e la j-esima colonna di A cambiato di segno se i + j è dispari Nell’esempio precedente possiamo calcolare 3 2 5 C23 = (−1) det =7 2 −1 e C12 = (−1)3 det 1 2 1 = −3 5 Siamo ora pronti per dare la definizione di determinante Definizione 2.14. Data una matrice n × n A il suo determinante è quel numero che si ottiene sommando gli elementi della prima riga per i corrispondenti complementi algebrici. In formule detA = n X a1i C1i i=1 La formula è consistente con la definizione di determinante di matrice 2 × 2. Esempio 2.29. a a12 A = 11 a21 a22 Si ha detA = a11 a22 − a12 a21 . Esempio 2.30. Consideriamo la matrice 3 × 3 0 2 A = 1 0 1 −1 2 1 1 In questo caso 0 detA = 0det −1 1 1 − 2det 1 1 Osserviamo che per il calcolo del determinante a11 A = a21 a31 1 1 + 2det 1 1 0 = −2 −1 di una matrice 3 × 3 è la formula di Sarrus. Se a12 a13 a22 a23 a32 a33 si ha che detA = a11 a22 a33 + a12 a23 a31 + a13 a21 a32 − a13 a22 a31 − a11 a23 a32 − a12 a21 a33 Osserviamo che in realtà il determinante può essere calcolato a partire da una qualsiasi riga o colonna. Vediamo un esempio Esempio 2.31. Sia 3 0 −3 2 A = 1 4 2 −1 3 Sviluppando rispetto alla prima riga si ottiene 4 2 1 4 detA = 3det − 3det = 3(12 + 2) − 3(−1 − 8) = 42 + 27 = 69 −1 3 2 −1 Sviluppiamo ora secondo la seconda colonna 1 2 3 −3 3 detA = 0det + 4det + 2 3 2 3 1 28 −3 = 4(9 + 6) + 6 + 3 = 69 2 Vediamo un altro caso in cui è semplice calcolare il determinante Definizione 2.15. Una matrice n × n si dice triangolare alta (bassa) se ha tutti gli elementi sotto (sopra) la diagonale principale nulli. Vale il seguente Teorema 2.10. Il determinante di una matrice triangolare è il prodotto degli elementi sulla diagonale. Dimostrazione. Dimostriamo il teorema (2.10). Procediamo per induzione. Consideriamo il caso di una matrice 1 × 1. A = [a11 ] detA = a11 Supponiamo che il teorema sia vero per una matrice triangolare alta (k − 1) × (k − 1) c e consideriamo una matrice k × k. Espandiamo il determinante rispetto alla k-esima riga della matrice. Si ha detA = 0Ck1 + . . . 0Ckk−1 + akk Ckk e dall’ipotesi di induzione Ckk = a11 a22 · · · ak−1k−1 Quindi si ha detA = a11 a22 · · · ak−1k−1 akk 2.11 Applicazioni Esempio 2.32. Dati due vettori u = (u1 , u2 u3 ), v = (v1 , v2 , v3 ) ∈ R3 il prodotto vettoriale di u per v (u × v) è dato da i j k u2 u3 u1 u3 u1 u2 u × v = det u1 u2 u3 = idet − jdet + kdet v2 v3 v1 v3 v1 v2 v1 v2 v3 Esempio 2.33. Consideriamo tre vettori u, v, w ∈ R3 . Calcoliamo il volume del parallelepipedo P formato dai tre vettori. Indicando con α l’ ampiezza dell’angolo formato tra u × v e w si ha w1 w2 w3 volP = ku × vkkwk|cosα| = | < u × v, w > | = det u1 u2 u3 v1 v2 v3 2.12 Operazioni elementari e determinante Esempio 2.34. Calcoliamo il determinante della matrice 3 2 1 A = 1 0 3 1 1 2 Sviluppando il determinante rispetto alla seconda riga si ottiene 2 1 3 2 detA = −det − 3det = −(4 − 1) − 3(3 − 2) = −6 1 2 1 1 Ora calcoliamo il 2 det 1 1 determinante della matrice ottenuta da A sostituendo alla prima riga r1 − r2 2 −2 2 −2 2 2 0 3 = −det − 3det = −(4 + 2) − 3(2 − 2) = −6 1 2 1 1 1 2 In questo caso il determinante è rimasto lo stesso. Vediamo ora cosa succede calcolando il determinante della matrice in cui si moltiplica la seconda riga di A per due 3 2 1 det 2 0 6 = −12 1 1 2 29 In questo caso il determinante e’ il determinante di A moltiplicato per due. Infine vediamo cosa succede al determinante scambiando la prima con la seconda riga 1 0 3 det 3 2 1 = 6 1 1 2 Il determinante ha cambiato segno! Vale il seguente risultato generale Teorema 2.11. Data una matrice n × n A 1. Se B è ottenuta scambiando due righe o due colonne allora detB = −detA. 2. Se B è ottenuta da A moltiplicando una riga o una colonna per λ ∈ R allora detB = λdetA. 3. Se B è ottenuta sommando un multiplo di una riga o colonna ad un’altra riga o colonna allora detB = detA. Dimostrazione. Osserviamo che le proprietà elencate valgono nel caso di matrici 2 × 2. Quindi calcolando ora il determinante di una matrice n × n lasciando le due righe scambiate per ultime si ottiene 1. La proprietà 2 si ottiene sviluppando il determinante rispetto alla riga o colonna moltiplicata per λ. Infine per dimostrare 3 osserviamo che se B è la matrice a11 a12 ... a1n a21 a22 ... a2n .. .. .. .. . . . . B= ai1 + λak1 ai2 + λak2 . . . ain + λakn .. .. .. .. . . . . an1 an2 ... ann si ha detB = detA + λdetA0 dove A0 ha due righe uguali e quindi dalla proprietà 1. si ha che detA0 = 0 Osservazione 2.6. Le proprietà 2 e 3 implicano la linearità del determinante rispetto a operazioni lineari su una singola riga (colonna.) Abbiamo quindi stabilito una proprietà magica del determinante: l’invarianza rispetto a operazioni elementari di riga. Quindi possiamo eseguire operazioni di riga riducendo una matrice a forma triangolare o a scala e poi calcolarne il determinante. Questo è sicuramente conveniente quando la matrice ha grandi dimensioni poichè il calcolo del determinante è nell’ordine di n!. Vediamo ora altre proprietà importanti del determinante: Teorema 2.12. A, B matrici di dimensione n × n. Allora det(AB) = detAdetB Dimostrazione. (1) Cominciamo con il caso A = E dove E è una matrice elementare. Allora det(EB) = ±detB o λdetB D’altra parte detE = ±1 o λ. Quindi det(EB) = detEdetB (2) Supponiamo ora che A sia una matrice invertibile. Allora A = Ek Ek−1 · · · E1 Dimostriamo per induzione che det(Ek Ek−1 · · · E1 B) = detEk · · · detE1 detB Per k = 1 il risultato è stato dimostrato al punto (1). Supponiamo ora che il risultato sia vero fina a k − 1. Si ha det(Ek Ek−1 · · · E1 B) = detEk det(Ek−1 · · · E1 B) = detEk detEk−1 · · · detE1 detB 30 dove nell’ultima uguaglianza abbiamo usato l’ipotesi di induzione. Quindi det(AB) = det(Ek Ek−1 · · · E1 B) = detEk detEk−1 · · · detE1 detB = detEk · · · det(E2 E1 )detB = · · · = det(Ek Ek−1 · · · E1 )detB = detAdetB (3) Supponiamo ora che A non sia invertibile. Allora A è equivalente ad una matrice A0 che ha una riga di zeri cioè Ek Ek−1 · · · E1 A = A0 cioè A = E1−1 · · · Ek−1 A0 Quindi detA = det(E1−1 · · · Ek−1 )detA0 e poichè detA0 = 0 si ha che detA = 0. D’altra parte se A è singolare anche AB è singolare. In caso contrario infatti AB(AB)−1 = In ⇒ A(B(AB)−1 ) = In che implica che anche A è invertibile assurdo. Quindi det(AB) = 0 = detAdetB che conclude la dimostrazione. Vediamo ora un’altra proprietà del determinante. Teorema 2.13. det(λA) = λn detA Dimostrazione. Segue dalle proprietà del determinante fattorizzando λ in ciascuna delle n righe di A. Esempio 2.35. 4 A = 8 2 6 −2 −2 2 12 16 = 2 4 1 12 3 6 −1 8 = 2A0 −1 6 Abbiamo detA = 23 detA0 = 8(−47) = −376 Vale inoltre il seguente Teorema 2.14. * A matrice n × n invertibile ⇔ detA 6= 0. Dimostrazione. Supponiamo A invertibile e osserviamo che in tal caso det(AA−1 ) = detIn = 1 → detAdetA−1 = 1 → detA 6= 0. Supponiamo ora detA 6= 0 allora necessariamente A è invertibile. Infatti in caso contrario A sarebbe equivalente and una matrice B con una riga di zeri e quindi tale che detB = 0 e seguirebbe che anche detA = 0 assurdo. Corollario 2.2. A matrice n × n invertibile ⇒ detA−1 = 1 detA Osserviamo anche che Teorema 2.15. A matrice n × n. Si ha detAT = detA Il teorema segue dall’equivalenza del calcolo del determinante per righe o per colonne. Esempio 2.36. Calcolare det(3AT BC −1 ). Usando le proprietà del determinante si ha det(3AT BC −1 ) = 3n 31 detAdetB detC 2.13 Regola di Cramer Non è molto interessante e si usa solo per risolvere sistemi n × n con n molto piccolo ma è comunque bene sapere che esiste. Definizione 2.16. Data una matrice A n × n si definisce matrice aggiunta la matrice trasposta della matrice costituita dai complementi algebrici della matrice A C11 C21 adj(A) = . .. C12 C22 .. . ... ... .. . T C1n C2n .. . Cn1 Cn2 ... Cnn Esempio 2.37. Sia −1 A= 0 1 3 1 −2 3 −2 0 E’ facile vedere che la matrice aggiunta è data da 4 adj(A) = 1 2 6 0 3 7 1 2 Vediamo ora come è possibile calcolare l’inversa di una matrice A a partire dalla matrice aggiunta Teorema 2.16. * Data una matrice A n × n invertibile. Allora A−1 = 1 adj(A) detA Dimostrazione. Consideriamo il prodotto Aadj(A). L’elemento ij di tale matrice è dato da ai1 Cj1 + · · · + ain Cjn Osserviamo ora che per i = j tale elemento coincide con detA mentre per i 6= j otteniamo zero poichè è come calcolare il determinante di una matrice che ha due righe uguali con la i-esima al posto della j-esima. Quindi, in definitiva Aadj(A) = detAIn e poichè per ipotesi A è invertibile necessariamente detA 6= 0 e quindi A adj(A) adj(A) = In ⇒ A−1 = detA detA Il prossimo teorema descrive la cosiddetta regola di Cramer che permette di trovare, quando possibile, una formula generale per la soluzione di un sistema n × n. Teorema 2.17. * Se la matrice dei coefficienti A di un sistema n × n è tale che detA 6= 0 allora la soluzione del sistema in forma matriciale Ax = b ha componenti x1 , . . . , xn date da x1 = detA1 detAn , . . . , xn = detA detA dove Ai è la matrice ottenuta da A sostituendo alla i-esima colonna la colonna dei termini noti b cioè Ai = [a1 , . . . ai−1 , b, ai+1 . . . , an ] per i = 1, . . . , n e dove aj indica la colonna j-esima di A. 32 Dimostrazione. Poichè detA 6= 0 la matrice A è invertibile e quindi la soluzione del sistema è data da b1 C11 C21 . . . Cn1 C11 b1 + · · · + Cn1 bn 1 1 C12 C22 . . . Cn2 b2 1 .. x = A−1 b = adj(A)b = .. .. .. .. .. = . detA detA . . . . . detA C1n b1 + · · · + Cnn bn bn C1n C2n . . . Cnn Quindi n xi = 1 X detAi bk Cki = . detA detA k=1 Esempio 2.38. Sia A la matrice 1 A = 2 1 0 1 −1 2 3 0 Si ha che detA = −3 6= 0. Vogliamo risolvere il sistema 1 Ax = −1 0 A tale scopo usiamo la formula di Cramer. Otteniamo 1 0 2 det −1 1 3 0 −1 0 −5 = x1 = −3 3 1 1 2 det 2 −1 3 1 0 0 −5 x2 = = −3 3 1 0 1 det 2 1 −1 1 −1 0 4 x3 = = −3 3 Infine osserviamo che per risolvere un sistema n × n con la regola di Cramer servono n!(n + 1) = (n + 1)! operazioni mentre con il metodo di eliminazione gaussiana siamo sull’ordine di n3 operazioni. 3 SPAZI VETTORIALI E’ una generalizzazione di quanto già visto in in R2 e in R3 . L’interpretazione geometrica sarà più complessa, ma la modellizzazione matematica ci aiuta; sarà infatti fondamentale seguire il seguente schema: vettori scelta di una base / rappresentaz.in coordinate algebra applicazioni o interpretaz. 33 soluzione di problemi basato sul fatto che problemi difficili riferiti ai vettori possono essere risolti algebricamente una volta scelta una base. 3.1 Algebra dei vettori in Rn L’insieme dei vettori V n di Rn è costituito da frecce o segmenti con direzione verso e modulo uscenti dall’origine. Spesso hanno significato fisico di forza, spostamento, velocità ecc.. e sono definite le operazioni di somma e prodotto scalare. Per trattarli algebricamente si sceglie una base che spesso è rappresentata dalla base canonica Esempio 3.1. i, j ∈ R2 è la base canonica e tutti i vettori si esprimono rispetto a questa base. Ad esempio u = 3i − 2j Alla fine quello che conta sono le coordinate del vettore e quindi è naturale identificare V n con Rn , ma occorre sempre avere presente la differenza Esempio 3.2. 3 u = 3i − 2j = h3, −2i = −2 da non confondersi con il punto (3, −2) n Quindi generico vettore u ∈ V può essere identificato con una n-pla ordinata di numeri reali un u1 u = ... . Le operazioni tra vettori si esprimono algebricamente nel seguente modo: un u1 v1 – Somma: Dati u = ... e v = ... la somma è definita come un vn u1 + v1 v1 u1 .. u + v = ... + ... = . vn un u n + vn u1 – Moltiplicazione per uno scalare: Dato u = ... ∈ V n e λ ∈ R un λu1 λu = ... λun u1 .. – Lunghezza: Dato u = . ∈ V n un |u| = q u21 + . . . u2n Abbiamo detto tutto questo sommariamente perchè la teoria dei vettori in Rn è supposta nota. (La trattazione successiva conterrà questo come caso particolare) 3.2 Definizione di spazio vettoriale Daremo ora una definizione astratta di spazio vettoriale e studieremo alcune proprietà sempre in astratto. Lo scopo di questa prima parte è quello di garantire la possibilità di usare come in V n le coordinate in uno spazio vettoriale astratto. Useremo quindi lo schema: 34 spazi vettoriali proprietà def. di base scelta di una base/ coordinate algebra interpretazione Applicazioni o sol di problemi Definizione 3.1. Uno spazio vettoriale V è un insieme in cui sono definite due operazioni fondamentali di somma e moltiplicazione per uno scalare e inoltre soddisfa le seguenti condizioni. (1) Per ogni u, v ∈ V si ha che u + v ∈ V (chiuso rispetto alla somma) (2) Per ogni u, v ∈ V si ha u + v = v + u proprietà commutativa della somma (3) Per ogni u, v, w ∈ V si ha che u + (v + w) = (u + v) + w proprietà associativa (4) V ha l’elemento nullo tale che u + 0 = 0 + u = u, ∀u ∈ V (5) ∀u ∈ V esiste l’inverso rispetto alla somma −u tale che u + (−u) = 0 (6) λu ∈ V , ∀λ ∈ R e ∀u ∈ V (chiuso rispetto alla moltiplicazione per uno scalare) (7) λ(u + v) = λu + λv ∀λ ∈ R e ∀u ∈ V (proprietà distributiva) (8) (λ + µ)u = λu + µu ∀λ, µ ∈ R e ∀u ∈ V (proprietà distributiva) (9) λ(µu) = (λµ)u ∀λ, µ ∈ R and ∀u ∈ V (proprietà associativa) (10) 1u = u 3.3 Esempi di spazi vettoriali Verifichiamo ora quali tra gli insiemi elencati qui sotto sono spazi vettoriali secondo la definizione appena data. Esempio 3.3. V 2 e di V 3 sono spazi vettoriali con le usuali operazioni di somma di vettori e di moltiplicazione per uno scalare Esempio 3.4. V n con n ≥ 4 è uno spazio vettoriale con le operazioni di somma definita da u1 u1 + v1 .. . un + vn v1 .. .. . + . = un vn e moltiplicazione per uno scalare u1 λu1 .. .. λ . = . un λun Esempio 3.5. L’insieme u1 .. X = u = . ∈ V n : ui ≥ 0 ∀i = 1, . . . , n un 35 con le operazioni come nell’esempio 3.4 non è uno spazio vettoriale poichè non è chiuso rispetto alla moltiplicazione per uno scalare. (λu ∈ / X se λ < 0) Esempio 3.6. L’insieme M2,3 delle matrici 2 × 3 con le operazioni di somma e prodotto scalare definiti nel capitolo 2. Verifichiamolo. Osserviamo che se A, B ∈ M2,3 la somma A + B ∈ M2,3 . Inoltre anche λA ∈ M2,3 per ogni λ ∈ R, O2,3 matrice 2 × 3 costituita di soli zeri è l’elemento nullo. −A è l’elemento inverso. Infine, usando le proprietà delle operazioni matriciali si possono verificare le restanti condizioni. Esempio 3.7. L’insieme P2 dei polinomi di grado minore o uguale a due con le operazioni di somma tra polinomi e moltiplicazione di un polinomio per un numero reale. E’ uno spazio vettoriale. Infatti è chiuso rispetto alla somma e al prodotto scalare. Contiene l’elemento nullo rappresentato dal polinomo identicamente nullo e l’inverso di un polinomio p è dato da −p. Esempio 3.8. L’insieme P dei polinomi è uno spazio vettoriale. Esempio 3.9. L’insieme V = {p ∈ P : p(0) = 1} non è uno spazio vettoriale non essendo chiuso rispetto alla somma poichè presi due polinomi p1 , p2 ∈ V chiaramente p1 (0) + p2 (0) = 2 6= 1 Esempio 3.10. L’insieme V = {p ∈ P : p(0) = 0}. E’ facile verificare che in questo caso V è uno spazio vettoriale. Esempio 3.11. L’insieme V delle funzioni continue su [0, 1] con le operazioni di somma e moltiplicazione per uno scalare definiti puntualmente in [0, 1] è uno spazio vettoriale. Esempio 3.12. Gli insiemi Z, Q, R con le usuali operazioni di somma e moltiplicazione per un numero reale. Chiaramente Z e Q non sono spazi vettoriale poichè non sono chiusi rispetto al prodotto scalare mentre R è uno spazio vettoriale. Vediamo ora alcune importanti proprietà che discendono dalla definizione di spazio vettoriale Teorema 3.1. Sia V uno spazio vettoriale e v ∈ V e λ ∈ R. Si ha (1) 0v = 0 ∀v ∈ V (2) λ0 = 0 ∀λ ∈ R (3) Se λv = 0 ⇒ λ = 0 o v = 0 (4) (−1)v = −v Dimostrazione. Dimostriamo (1). Usando le proprietà (8) di spazi vettoriali si ha 0v = (0 + 0)v = 0v + 0v D’altra parte usando la proprietà (5) degli spazi vettoriali e la relazione appena ottenuta si ha 0 = 0v + (−0v) = 0v + 0v + (−0v) = 0v + 0 = 0v Dimostriamo ora (2) usando la (7) λ0 = λ(0 + 0) = λ0 + λ0 ⇒ λ0 = 0 Per quanto riguarda (3) osserviamo che se λ 6= 0 utilizzando (10), (9) e (2) si ha 1 1 1 v = 1v = λ v = (λv) = 0 = 0 λ λ λ Se λ = 0 ⇒ λv = 0. Infine dimostriamo la (4.) Utilizzando la proprietà (10) di spazio vettoriale si ha (−1)v = −(1v) = −v Ora vedremo proprietà simili a quelle viste in V n : 3.4 Sottospazi di spazi vettoriali Definizione 3.2. Un sottoinsieme non vuoto W di uno spazio vettoriale V è detto sottospazio di V se W è uno spazio vettoriale rispetto alle operazione di V . 36 Esempio 3.13. Consideriamo il sottoinsieme di V3 (" # W = x 0 : x, z ∈ R z 0 0 0 ) " # Tale insieme è un sottospazio di V3 . Infatti ∈ W . Inoltre presi due elementi arbitrari x1 x2 w1 = 0 , w2 = 0 ∈ W chiaramente z1 z2 x1 x2 x1 + x2 w1 + w2 = 0 + 0 = 0 ∈ W z1 z2 z1 + z2 e anche per w ∈ W e λ ∈ R si ha x λx λw = λ 0 = 0 ∈ W. z λz Inoltre è facile verificare che valgono tutte le restanti proprietà di spazio vettoriale. Osserviamo che geometricamente tale sottospazio rappresenta il piano y = 0. Vediamo ora un criterio necessario e sufficiente per vedere che un dato insieme è un sottospazio. Teorema 3.2. Sia W un sottoinsieme non vuoto di uno spazio vettoriale V . Allora W è un sottospazio di V se e solo se 1. ∀u, v ∈ W si ha che u + v ∈ W 2. ∀u ∈ W e ∀λ ∈ R si ha che λu ∈ W Vediamo ora alcuni esempi Esempio 3.14. Sia V = M2,2 spazio vettoriali delle matrici 2 × 2 definito come nell’esempio 3.6 e consideriamo l’insieme W delle matrici 2 × 2 simmetriche. Chiaramente W ⊂ V , inoltre W non è vuoto in quanto contiene almeno I2 . Inoltre osserviamo che utilizzando le proprietà della matrice trasposta se A, B ∈ W si ha (A + B)T = AT + B T = A + B e quindi A + B ∈ W . Inoltre si ha che per λ ∈ R e A ∈ W (λA)T = λAT = λA e quindi λA ∈ W e quindi dal criterio necessario e sufficiente si ha che W è un sottospazio di M2,2 . Esempio 3.15. Sia W = {p ∈ P2 : p(0) = 0} è un sottospazio dello spazio vettoriale V = P2 . Chiaramente W ⊂ V , inoltre W non è vuoto in quanto contiene almeno almeno il polinomio nullo. Inoltre è chiuso rispetto alla somma e al prodotto per uno scalare. Esempio 3.16. Sia V = Mn,n lo spazio vettoriale delle matrici n × n e sia W il sottoinsieme delle matrici singolari. Si ha che W ⊂ V , W 6= ∅ poichè contiene la matrice nulla On,n ma non è un sottospazio vettoriale poichè prese le matrici 1 0 0 0 A= ∈W eB= ∈W 0 0 0 1 entrambe sono singolari poichè detA = detB = 0 mentre 1 0 A+B = = I2,2 ∈ /W 0 1 37 3.5 Indipendenza lineare Definizione 3.3. Sia V uno spazio vettoriale. Un vettore v ∈ V è detta combinazione lineare dei vettori u1 , u2 , . . . , uk ∈ V se v = λ1 u1 + λu2 + · · · + uk per qualche λ1 , λ2 , . . . , λk ∈ R. Esempio 3.17. Sia V = V 2 e siano u1 , u2 due vettori di R2 . Si ha che il vettore somma v = u1 + u2 che geometricamente si rappresenta con la legge del parallelogramma è una combinazione lineare dei vettori u1 , u2 . Esempio 3.18. Sia V = P2 . Si ha che p(x) = 2 + 6x + 4x2 è combinazione dei polinomi p1 (x) = 2(1 + x + x2 ) e p2 (x) = 21 (8x + 4x2 ) Definizione 3.4. Un insieme di vettori S = {v1 , v2 , . . . , vk } è detto insieme generatore dello spazio vettoriale V se ogni u ∈ V è combinazione lineare di vettori in S. 2 Esempio 3.19. S = {i, j} è l’insieme di generatori di V . 1 0 0 1 0 0 Esempio 3.20. S = , , è l’insieme dei generatori del sottospazio W 0 0 1 0 0 1 delle matrici simmetriche in M2,2 . a b Infatti sia A = ∈ W . Si ha che b c 1 A=a 0 0 0 +b 0 1 1 0 +c 0 0 0 1 cioè la matrice A è combinazione lineare degli elementi di S. Definizione 3.5. Sia S = {v1 , v2 , . . . , vk } un insieme di vettori di V spazio vettoriale. Chiamiamo span dell’insieme S (span(S)) l’insieme di tutte le combinazioni lineari dei vettori di S cioè span(S) = {λ1 v1 + λ2 v2 + · · · + λk vk , λ1 , . . . , λk ∈ R} Vale il seguente Teorema 3.3. * Sia S = {v1 , v2 , . . . , vk } ⊂ V . Allora span(S) è un sottospazio di V . Inoltre esso è il più piccolo sottospazio di V contenente S. Dimostrazione. Chiaramente span(S) è un sottospazio poichè somme di combinazioni lineari sono ancora combinazioni lineari e una combinazione lineare moltiplicata per uno scalare è ancora una combinazione lineare. Sia ora W ⊂ V un sottospazio contenente S. Si ha che λ1 v1 + λ2 v2 + · · · + λk vk ∈ W e quindi span(S) ⊂ W . Definizione 3.6. Un insieme di vettori S = {v1 , v2 , . . . , vk } è linearmente indipendente se l’equazione λ1 v1 + λ2 v2 + · · · + λk vk = 0 ha come unica soluzione la soluzione banale λ1 = λ2 = · · · = λk = 0 In caso contrario diremo che l’insieme è linearmente dipendente Prima di dare alcuni esempi vediamo una condizione equivalente Teorema 3.4. * Un insieme di vettori S = {v1 , v2 , . . . , vk } è linearmente dipendente se e solo se uno di questi può essere scritto come combinazione lineare dei restanti. Dimostrazione. ⇐ Sia ad esempio vi = λ1 v1 + · · · λi−1 vi−1 + λi+1 vi+1 + · · · + λk vk . Quindi il sistema λ1 v1 + . . . λi−1 vi−1 − vi + λi+1 vi+1 + · · · + λk vk = 0 ha soluzione con i λi non tutti nulli ⇒ S è dipendente. ⇒ Supponiamo che esistano λ1 , . . . , λk non tutti nulli tali che λ1 v1 + λ2 v2 + · · · + λk vk = 0 38 Supponiamo sia λi 6= 0. Si ha vi = − 1 (λ1 v1 + · · · + λi−1 vi−1 + λi+1 vi+1 + · · · + λk vk ) λi cioè vi è combinazione lineare dei vettori {v1 , . . . , vi−1 , vi+1 . . . , vk }. Vediamo ora alcuni esempi significativi. Esempio 3.21. I vettori 1 0 −2 v1 = 2 , v2 = 1 , v3 = 0 3 2 1 sono linearmente indipendenti cioè il sistema 3 × 3 λ1 v1 + λ2 v2 + λ3 v3 = 0 ha l’unica soluzione λ1 = λ2 = λ3 = 0 Infatti è facile vedere che presa la matrice associata al sistema 1 0 −2 B = 2 1 0 3 2 1 e applicando il metodo di Gauss 1 0 B → B1 = 1 1/2 3 2 1 → B4 = 0 0 0 1 2 si ha 1 −2 0 → B2 = 0 3 1 1 −2 4 → B5 = 0 0 7 0 1 0 0 1/2 2 −2 1 0 2 → B3 = 0 1 1 3 2 −2 1 4 ⇒→ B6 = 0 1 0 0 1 0 −2 4 1 −2 1 0 ⇒→ B7 = 0 1 0 0 1 0 0 0 1 e poichè la matrice a scala ridotta è l’identità ha un pivot in ogni colonna e quindi il sistema omogeneo ha come unica soluzione λ1 = λ2 = λ3 = 0 e quindi i vettori sono linearmente indipendenti. Osserviamo che avremmo potuto anche dimostrare l’indipendenza dei vettori verificando che il determinante della matrice A è diverso da zero. In tal caso infatti la matrice A è invertibile e quindi il sistema omogeneo ha un’unica soluzione che è quella nulla cioè λ1 = λ2 = λ3 = 0. Esempio 3.22. Consideriamo l’insieme S = {x, x2 , 2x−x2 } ⊂ P2 e osserviamo che tale insieme è linearmente dipendente. Infatti 2x − x2 = 2x + (−1)x2 cioè il terzo vettore può essere scritto come combinazione lineare dei primi due. Osservazione 3.1. Considerati due vettori v1 , v2 in V 2 o V 3 essi sono linearmente dipendenti se sono paralleli. Tre vettori v1 , v2 , v3 in V 3 sono dipendenti se appartengono allo stesso piano cioè se sono complanari. Da ciò discende quindi che tre vettori in V 2 sono sempre dipendenti. Esempio 3.23. Consideriamo i vettori 1 3 2 v1 = 2 , v2 = 1 , v3 = −1 3 1 −2 e verifichiamo se sono dipendenti in V 3 o equivalentemente complanari. Per vedere ciò possiamo considerare la matrice A = [v1 v2 v3 ] e osservando che il suo determinante è nullo e ricordando che |detA| rappresenta il volume del parallelepipedo individuato dai tre vettori segue immediatamente che v1 , v2 , v3 giacciono nel medesimo piano e quindi sono dipendenti. 39 3.6 Base Finalmente possiamo definire il concetto di base: Definizione 3.7. Dato uno spazio vettoriale V , un insieme di vettori S = {v1 , v2 , . . . , vn } ⊂ V si dice base di V se S è un insieme generatore di V e se i vettori v1 , v2 , . . . , vn sono linearmente indipendenti. 1 1 Esempio 3.24. L’insieme {i, j} è una base di V 2 . Verificare che i vettori , costitui0 1 scono una base di V 2 . Esempio 3.25. E’ facile verificare che l’insieme dei vettori {i, j, k} è una base di V 3 . Esempio 3.26. Vediamo che l’insieme dei polinomi S = {1, x, x2 } è una base di P2 . Infatti chiaramente ogni polinomio di grado minore o uguale a due può essere espresso come combinazione dei polinomi di S. Quindi S è un insieme generatore. Verifichiamo che i polinomi sono indipendenti. Infatti affinchè sia verificata a1 + bx + cx2 = 0 per il principio di identità dei polinomi necessariamente deve essere a = b = c = 0. In conclusione quindi S è una base della spazio P2 . Esempio 3.27. Verificare che S = {1, x} non è una base di P2 . Esempio 3.28. Vediamo che l’insieme dei polinomi S = {1 + x2 , 1 − x2 , 2 + x2 } non è una base di P2 . Per fare questo possiamo procedere identificando ciascun polinomio con un vettore di V 3 associando ad ogni polinomio di grado due la terna dei suoi coefficienti partendo dal termine di 1 1 grado zero. Quindi possiamo identificare 1 + x2 con il vettore 0, 1 − x2 con il vettore 0 e 1 −1 2 infine 2 + x2 con il vettore 0. A questo punto osserviamo che la matrice A che ha per colonne 1 questi tre vettori 1 1 2 0 0 0 1 −1 1 ha una riga di zeri e quindi detA = 0 che implica che i tre vettori sono dipendenti e quindi l’insieme S non è una base. Verificare che a tale conclusione si arriva dimostrando che a(1 + x2 ) + b(1 − x2 ) + c(2 + x2 ) = 0 ha soluzioni non banali. Infatti a(1 + x2 ) + b(1 − x2 ) + c(2 + x2 ) = (a + b + 2c)1 + 0x + (a − b + c)x2 = 0 che dà luogo al sistema di due equazioni in tre incognite ( a + b + 2c = 0 a+b+c =0 che quindi ha infinite soluzioni. Quindi per verificare se un sistema di n vettori è linearmente indipendente si analizza il sistema omogeneo λ1 v1 + λ2 v2 + · · · + λn vn = 0 utilizzando il metodo di eliminazione gaussiana; se il sistema ha una sola soluzione allora i vettori sono linearmente indipendenti. Se il sistema ha infinite soluzioni allora i vettori sono linearmente dipendenti. Vediamo ora che una base ci permette di assegnare le coordinate ad un vettore. Vale infatti il seguente Teorema 3.5. * Se S = {v1 , v2 , . . . , vn } è una base di uno spazio vettoriale V allora ogni vettore v ∈ V può essere rappresentato univocamente come combinazione lineare di v1 , v2 , . . . , vn . Dimostrazione. Sia v ∈ V tale che v = λ1 v1 + λ2 v2 + · · · + λn vn 40 e v = µ1 v1 + µ2 v2 + · · · + µn vn allora sottraendo membro a membro le due equazioni si ottiene 0 = (λ1 − µ1 )v1 + (λ2 − µ2 )v2 + · · · + (λn − µn )vn ⇒ λ1 − µ1 = λ2 − µ2 = · · · = λn − µn = 0 poichè per ipotesi i vettori v1 , v2 , . . . , vn sono indipendenti. Definizione 3.8. Dato v ∈ V ed S = {v1 , v2 , . . . , vn } una base di V . Sia v = λ1 v1 + λ2 v2 + · · · + λn vn I numeri reali λ1 , λ2 , . . . , λn sono dette coordinate di v. Tutta l’algebra in V si basa su questo. Vediamo ora un’altra proprietà delle basi Teorema 3.6. * Sia S = {v1 , v2 , . . . , vn } una base di uno spazio vettoriale V . Ogni insieme costituito da più di n vettori è linearmente dipendente. Dimostrazione. Sia S1 = {u1 , u2 , . . . , um } con m > n. Dimostriamo che esistono k1 , k2 , . . . , km non tutti nulli tali che k1 u1 + k2 u2 + · · · + km um = 0 Poichè S è una base di V si ha che ui = n X cji vj , ∀i = 1, . . . , m. j=1 Quindi, sostituendo nell’equazione sopra e raggruppando opportunamente i termini si ottiene d1 v1 + d2 v2 + · · · + dn vn = 0 dove di = ci1 k1 + · · · + cim km . Poichè i vettori v1 , v2 , . . . , vn sono indipendenti si ha ∀i = 1, . . . , n di = 0, e otteniamo un sistema omogeneo di n equazioni nelle m > n variabili k1 , . . . , km che ha quindi infinite soluzioni. Vale inoltre il seguente importante risultato Teorema 3.7. * Ogni base di uno spazio vettoriale V ha lo stesso numero di vettori linearmente indipendenti. Dimostrazione. Siano S1 = {v1 , v2 , . . . , vn } ed S2 = {u1 , u2 , . . . , um } due basi di V . Dal teorema precedente poichè S1 è una base di vettori e i vettori di S2 sono linearmente indipendenti si ha che m ≤ n. Similmente si dimostra che n ≤ m e quindi n = m. Esempio 3.29. Dimostrare che l’insieme S = {x + 2, x + 1, x2 + x + 1} formano una base di P2 . Verifichiamo l’indipendenza. Un modo è quello di vedere che se c1 (x + 2) + c2 (x + 2) + c3 (x2 + x + 1) = 0 necessariamente c1 = c2 = c3 = 0. Infatti riscrivendo l’equazione nella forma c3 x2 + (c1 + c2 + c3 )x + 2c1 + c2 + c3 = 0 e usando il principio di identità dei polinomi si ottiene il sistema c3 = 0 c1 + c2 = 0 2c1 + c2 = 0 che implica c1 = c2 = c3 = 0. Ovviamente S è un insieme di generatori. Quindi è una base. 41 3.7 Dimensione di uno spazio vettoriale Siamo ora in grado di definire il concetto di dimensione di uno spazio vettoriale Definizione 3.9. Se uno spazio vettoriale V ha una base di n vettori n è detta dimensione dello spazio V (dim(V ) = n). Nel caso in cui V sia costituito dal solo elemento nullo porremo dim(V ) = 0. Vediamo alcuni esempi significativi: Esempio 3.30. Verificare che lo spazio vettoriale V n dei vettori nello spazio euclideo Rn ha dimensione n cioè dim(V n ) = n. Esempio 3.31. Verificare che lo spazio vettoriale delle matrici m × n Mm,n ha dimensione mn cioè dim(Mm,n ) = mn. Esempio 3.32. Lo spazio vettoriale dei polinomi di grado minore o uguale ad n Pn ha dimensione n + 1 cioè dim(Pn ) = n + 1. Infatti l’insieme S = {1, x, x2 , . . . , xn } è una base poichè è chiaro che ogni elemento di Pn può essere espresso come combinazione di elementi di S. Inoltre tali elementi sono indipendenti poichè dal principio di identità dei polinomi segue che a0 + a1 x + · · · + an xn = 0 ⇒ ai = 0, ∀i = 0, 1, . . . , n Esempio 3.33. Consideriamo il sottospazio W ⊂M simmetriche e calcoliamone 2,2 delle matrici 1 0 0 1 0 0 la dimensione. Avevamo già visto che S = , , costituisce un insieme di 0 0 1 0 0 1 generatori. Verifichiamo ora che sono indipendenti cioè il sistema 1 0 0 1 0 0 0 0 λ1 + λ2 + λ3 = 0 0 1 0 0 1 0 0 ha come unica soluzione λ1 = λ2 = λ3 = 0. Infatti, applicando le operazioni matriciali viste precedentemente possiamo riscrivere il sistema nella forma λ1 λ2 0 0 = λ3 λ4 0 0 da cui discende λ1 = λ2 = λ3 = 0. Quindi dim(W ) = 3. Esempio 3.34. Determinare se l’insieme S = {x + 2, x2 + x + 1} è una base di P2 . La risposta è negativa poichè dim(P2 ) = 3 mentre S ha solo due elementi che quindi dim(S) ≤ 2. a b Esempio 3.35. Dato il sottoinsieme W = A = ∈ M2,2 : a + b + c + d = 0 . Dimoc d strare che W è un sottospazio di M2,2 e calcolare dim(W ). Dimostriamo che W è un sottospazio. O2,2 ∈ W . Inoltre W è chiuso rispetto eprodotto a somma a b a0 b0 0 0 . per uno scalare. Infatti consideriamo due elementi A, A ∈ W con A = ,A = 0 c d c d0 Osserviamo che A + A0 ∈ M2,2 . Inoltre, poichè ’ a + b + c + d = 0 e a0 + b0 + c0 + d0 = 0, si ha che anche a + a0 + b + b0 + c + c0 + d + d0 = 0 e quindi A + A0 ∈ W . Analogamente λA ∈ M2,2 se λ ∈ R e A ∈ W . Inoltre poichè a + b + c + d = 0 anche λa + λb + λc + λd = λ(a + b + c + d) = 0 da cui λA ∈ W . Osserviamo ora che se A ∈ W a b −b − c − d b −1 1 −1 0 −1 0 = =b +c +d c d c d 0 0 1 0 0 1 Quindi S= −1 0 1 −1 , 0 1 0 −1 , 0 0 0 1 è un insieme di generatori e sono indipendenti (da verificare!) e quindi dim(W ) = 3. Vedremo nel capitolo riguardante le trasformazioni lineari che due spazi della stessa dimensione sono isomorfi, ossia equivalenti dal punto di vista algebrico. Questo è un risultato matematico fondamentale che permette di semplificare molti calcoli ma l’interpretazione di spazi isomorfi può essere molto diversa e quindi non utilizzeremo questo risultato con eccessiva frequenza. Svilupperemo ora una teoria speciale, quella dei tre sottospazi di V n identificati da una matrice fissata A. 42 3.8 Sottospazi fondamentali di una matrice e rango Abbiamo introdotto il concetto di spazio vettoriale e quello di base. Useremo le matrici per determinare tre sottospazi vettoriali detti sottospazi fondamentali di una matrice utili per studiare la matrice stessa. Interpretiamo a tale scopo le righe o colonne come vettori Esempio 3.36. Data la matrice 1 3 5 A= 1 4 2 1 3 5 i vettori colonna sono v1 = , v2 = , v3 = e rT1 = [1 3 5] e rT2 = [1 4 2] i vettori riga. 1 4 2 Attenzione: I vettori sono sempre colonna e quindi i vettori riga si ottengono trasponendo i vettori colonna. Definizione 3.10. Sia A una matrice m × n. Lo spazio generato dalle righe di A e indicato con row(A) è un sottospazio di V n . Lo spazio generato dalle colonne di A e indicato con col(A) o anche con Im(A) è un sottospazio di V m . Esempio 3.37. Riprendiamo l’esempio appena visto in cui abbiamo considerato una matrice 2 × 3. In questo caso row(A) = span{rT1 , rT2 } = span{[1 3 5], [1 4 2]} cioè l’insieme dei punti x = srT1 + trT2 , s, t ∈ R T T che rappresenta geometricamente il piano generato daidue vettori r1 e r2 quindi è un sottospazio 1 3 5 di V 3 mentre col(A) = span{v1 , v2 , v3 } = span , che è un sottospazio di V 2 di 1 4 2 1 3 vettori dipendenti. , generano V 2 . 1 4 Vediamo ora alcune proprietà di questi sottospazi. Teorema 3.8. Le operazioni riga elementari non cambiano il sottospazio row(A). Possono però cambiare col(A). Vediamo un esempio Esempio 3.38. Consideriamo la matrice A su cui sommiamo alle terza riga la prima più la seconda cioè 1 0 1 0 A = 0 1 → B = 0 1 1 1 0 0 Notiamo che col(A) coincide con il piano xy mentre col(B) non è più il piano xy. Vediamo ora come costruire una base di row(A). Teorema 3.9. Se una matrice A è ridotta ad una matrice a scala B allora i vettori riga non nulli della matrice B formano una base di row(A). Vediamo un esempio Esempio 3.39. Sia 1 A= 1 3 4 5 1 →B= 2 0 3 1 5 −3 Quindi [1 3 5], [0 1 − 3] è una base di row(A) ⊂ V 3 (Verificare!). Vediamo ora alcune osservazioni interessanti 1. Questo teorema suggerisce una tecnica per trovare una base di un sottospazio di V n generato dai vettori {v1 , . . . vk }. – Si forma la matrice T v1 A = ... vkT – Si riduce la matrice A ad una matrice a scala B mediante operazioni elementari di riga – Si prendono i vettori riga non nulli di B e si ottiene una base del sottospazio 2. Per determinare una base di col(A) si costruisce una base di row(AT ). 43 Anche se le operazioni riga possono cambiare col(A) queste non ne alterano la dimensione. Vale quindi il seguente risultato (che rappresenta anche un altro modo per calcolare una base di col(A)) Teorema 3.10. Una base di col(A) si ottiene nel seguente modo – Si riduce la matrice A ad una matrice a scala B mediante operazioni elementari di riga, – si identificano le colonne con pivot, – si prendono i vettori colonna della matrice A (quella iniziale!) corrispondenti alle colonne di B con pivot Osserviamo che una volta ridotta la matrice A ad una matrice a scala le righe non nulle hanno un pivot. Quindi si ha un risultato a prima vista sorprendente Teorema 3.11. La dimensione di col(A) e di row(A) è la stessa ed è chiamata rango di A e si indica con il simbolo R(A). Vediamo un esempio Esempio 3.40. Consideriamo la una matrice a scala B 1 3 5 1 3 A = 2 6 10 → A1 = 1 3 1 3 6 1 3 matrice A e operiamo operazioni di riga che la riducano ad 5 1 5 → A2 = 0 6 1 3 0 3 5 1 0 → A3 = 1 6 0 3 3 0 5 1 6 → B = 0 0 0 3 0 0 5 1 0 Osserviamo che le colonne con due (la prima e la terza) e quindi la base di un pivot sono 5 1 col(A) è costituita dai vettori 2 , 10 . Quindi dim(col(A)) = 2 = dim(row(A)) = R(A). 6 1 Osserviamo infine che la base di row(A) = {[1 3 5], [0 0 1]} Vediamo ora la definizione di nucleo di una matrice, Data una matrice m × n A supponiamo di interpretare A come matrice dei coefficienti di un sistema lineare omogeneo Ax = 0 Definizione 3.11. Chiameremo nucleo di una matrice m × n A (N (A)) l’insieme dei vettori x ∈ V n tali che Ax = 0. Si noti che il nucleo corrisponde ai vettori che risolvono un sistema omogeneo. Vale il seguente Teorema 3.12. N (A) è un sottospazio di V n . Dimostrazione. Osserviamo che N (A) 6= ∅ poichè 0 ∈ N (A). Inoltre presi due vettori in x, y ∈ N (A) si ha che A(x + y) = Ax + Ay = 0 e preso λ ∈ R e x ∈ N (A) si ha A(λx) = λAx = 0. Definizione 3.12. Chiameremo nullità di A la dimensione del nucleo di A, dim(N (A)). Come si trova N (A)? – Si riduce A ad una matrice a scala ridotta A00 – si identificano le variabili libere del sistema che corrispondono alle colonne della matrice che non hanno pivot. – si prendono le colonne di A00 relative alle variabili libere cambiate di segno aumentate da opportuni coefficienti come descritto in precedenza con b = 0 ignorando eventuali righe di zeri in fondo alla matrice ridotta. Come sempre per comprendere il metodo lo vediamo applicato ad un esempio Esempio 3.41. Si consideri la matrice, che può essere pensata come matrice sistema omogeneo Ax = 0 omettendo la colonna di zeri. 1 3 5 −1 1 3 5 −1 1 3 5 A = 2 6 10 −2 → A1 = 0 0 0 0 → A2 = 1 3 6 1 3 6 0 1 3 6 0 0 0 0 44 associata ad un −1 0 0 1 A2 = 1 0 3 3 0 5 6 0 −1 1 0 → A3 = 0 0 0 3 0 0 5 1 0 −1 1 1 → A00 = 0 0 0 3 0 0 0 1 0 −6 1 0 Quindi abbiamo una matrice con due colonne senza pivot (la seconda e la quarta) e quindi due variabili libere x2 e x4 e quindi si ottengono infinite soluzioni della forma x1 = −3t + 6s x = t 2 x = −s 3 x4 = s s, t ∈ R o equivalentemente x1 −3 6 x2 1 0 x= x3 = t 0 + s −1 = tv1 + sv2 x4 0 1 Quindi N (A) è generato dai vettori v1 , v2 che costituiscono una base poichè sono indipendenti e quindi dim(N (A)) = 2 mentre il rango di A cioè dim(col(A)) è 2 poichè sono due le colonne (o le righe) con pivot. Quindi R(A) = 2. Osserviamo infine che dim(N (A)) + R(A) = 4 che corrisponde al numero di colonne della matrice A. Quanto visto in questo esempio si può generalizzare. Vale infatti il seguente Teorema 3.13. * Data una matrice m × n, A di rango R(A) si ha dim(N (A)) + R(A) = n Dimostrazione. Poniamo r := R(A). Poichè A ha rango r sappiamo che è equivalente ad una matrice a scala con r colonne linearmente indipendenti che generano col(A). Restano quindi n − r colonne senza pivot che rappresentano le colonne corrispondenti alle variabili libere. I vettori aumentati sono linearmente indipendenti in quanto contengono 1 e 0 in posizioni diverse e generano N (A) per costruzione. Quindi dim(N (A)) = n − r. Utilizzeremo ora gli spazi fondamentali per dare un significato geometrico alla soluzione generale di un sistema lineare. Teorema 3.14. Il sistema Ax = b è compatibile se e solo se b ∈ col(A). Dimostrazione. Abbiamo visto precedentemente che il prodotto Ax può essere scritto come Ax = x1 a1 +x2 a2 +· · ·+xn an dove x1 , . . . , xn sono le componenti del vettore x mentre a1 , . . . , an sono i vettori colonna di A. Quindi l’equazione Ax = b è verificata se e solo se x1 a1 +x2 a2 +· · ·+xn an = b cioè se e solo se b ∈ col(A). Osservazione 3.2. Osserviamo che possiamo riformulare il risultato appena dimostrato in termini del rango di A e della matrice completa (A b). Più precisamente il sistema Ax = b è compatibile se e solo se R(A) = R((A b)) Infatti se b ∈ col(A) allora ciò significa che b è dipendente dai vettori colonna di A e quindi dim(col(A)) = R(A) = dim(col((A b))) = R((A b)) e viceversa. Osserviamo ora che per sistemi lineari non omogenei vale il seguente Teorema 3.15. Sia A una matrice m × n e xp una soluzione particolare di Ax = b. Allora ogni altra soluzione si può scrivere come x = xp + xh dove xh è soluzione del sistema omogeneo Ax = 0. 45 Dimostrazione. Se xp una soluzione particolare di Ax = b. e xh è soluzione del sistema omogeneo allora xp + xh è anche soluzione dell’equazione non omogenea poichè A(xp + xh ) = Axp + Axh = b + 0 = b Viceversa se x è una soluzione arbitraria dell’equazione non omogenea allora x- xp è soluzione dell’equazione omogenea. Vediamo un esempio Esempio 3.42. Risolviamo Ax = b. 1 dove A è la matrice dell’esempio precedente e b = 2. Costruendo la matrice completa e 0 applicando il metodo di Gauss si arriva alla matrice seguente 1 3 0 −6 6 B = 0 0 1 1 −1 0 0 0 0 0 quindi poichè abbiamo due colonne senza pivot che corrispondono alle variabili x2 e x4 queste sono libere e le infinite soluzioni del sistema sono date da 6 6 −3 0 0 1 x = t 0 + s −1 + −1 = xh + xp 0 1 0 3.9 Coordinate e cambiamenti di base Torniamo ora alla teoria generale degli spazi vettoriali. Una proprietà fondamentale di una base B di uno spazio vettoriale V è che ogni vettore ha un’unica rappresentazione negli elementi della base. Definizione 3.13. Data una base B i coefficienti di un vettore u ∈ V sono detti coordinate nella base B e sono indicate con il simbolo [u]B Poichè considereremo spazi vettoriali di dimensione finita se la dimensione è n le coordinate possono essere interpretate come le componenti del vettore in V n . Vediamo alcuni esempi. Esempio 3.43. B = {i, j, i + j + k} è una base di V 3 . Quindi 2i − j + 3(i + j + k) = 5i + 2j + 3k e si ha che 2 [5i + 2j + 3k]B = −1 3 Esempio 3.44. Sia ora C = {i, j, k}. In questo caso le coordinate sono 5 [5i + 2j + 3k]C = 2 3 Esempio 3.45. Abbiamo visto che C = {1, x, x2 } è una base di P2 . Calcoliamo le coordinate di 3 + 2x + 5x2 . 3 [3 + 2x + 5x2 ]C = 2 5 46 Osserviamo ora che se [u]B sono le coordinate del vettore u nella base B = {v1 , . . . , vn } possiamo usare la rappresentazione matriciale definendo una nuova matrice [v1 . . . , vn ] che ha i vettori come elementi, e scrivere u = [v1 . . . vn ][u]B Come trovare le coordinate di un vettore in una data base? Ci si riconduce a risolvere un sistema lineare. Vediamo un esempio Esempio 3.46. Sia E = {1, x, 1 + x + x2 } che è una base di P2 . Troviamo le coordinate di p(x) = −1 + x − x2 rispetto alla base E cioè determiniamo c1 , c2 , c3 tale che −1 + x + x2 = c1 + c2 x + c3 (1 + x + x2 ) Si ottiene il seguente sistema c1 + c3 c2 + c3 c3 = −1 = −1 =1 che ha come unica soluzione c1 = 0, c2 = 2, c3 = −1. Quindi 0 [p]E = 2 −1 Se la base è infinita si usano tecniche matematiche che sono discusse in corsi più avanzati. Supponiamo ora che uno spazio vettoriale V abbia due basi B e C. Vogliamo stabilire quale sia la relazione tra le coordinate di un vettore nelle due differenti basi. Più precisamente siano B = {v1 , . . . , vn } e C = {w1 , . . . , wn } due basi di uno spazio vettoriale V . Quindi, usando la rappresentazione dei vettori wi della base C nella base B ossia, [wi ]B , e l’algebra delle matrici, si ottiene u = [v1 . . . vn ][u]B = [w1 . . . wn ][u]C = [[v1 . . . vn ][w1 ]B . . . [v1 . . . vn ][wn ]B ] [u]C = [v1 . . . vn ] [[w1 ]B . . . [wn ]B ] [u]C Abbiamo così ottenuto la seguente relazione [u]B = [[w1 ]B . . . [wn ]B ] [u]C La matrice P = [[w1 ]B . . . [wn ]B ] è chiamata matrice di transizione o di cambiamento di base. Vale il seguente Teorema 3.16. La matrice P è invertibile e [u]C = P −1 [u]B Dimostrazione. Poichè C è una base di V si ha che [u]C = Q[u]B = QP [u]C e quindi QP u = u, ∀u ∈ V in particolare ciò e’ vero per 1 0 0 0 e1 = . , . . . , en = . .. .. 0 1 e quindi QP = In da cui Q = P −1 . Vediamo ora alcuni esempi. 47 Esempio 3.47. Siano B = {1 + x, x, x2 } e C = {1, x, x2 − x} basi di V = P2 e sia 1 [p]C = 2 3 cioè p = 1 + 2x + 3(x2 − x) = 3x2 − x + 1. Vogliamo trovare la matrice di transizione P che ha per colonne le coordinate dei vettori della base C nella base B cioè nel caso specifico ha la forma P = [1]B [x]B [x2 − x]B Per ottenere [1]B vediamo che 1 1 = 1(1 + x) − x + 0x2 ⇒ [1]B = −1 0 Analogamente 0 x = 0(1 + x) + x + 0x2 ⇒ [x]B = 1 0 e infine 0 x2 − x = 0(1 + x) − x + x2 ⇒ [x2 − x]B = −1 1 Quindi la matrice P è data da 1 −1 0 1 0 0 1 1 −1 e si ha P 2 = −2 0 1 3 3 Controlliamo che effettivamente P rappresenti la matrice di cambiamento di base cioè 1 [1 + x x x2 ] −2 = 1 − x + 3x2 3 . Osservazione 3.3. 1. Osserviamo ora che avremmo potuto calcolare [p]B direttamente da p = 1 − x + 3x2 risolvendo un sistema lineare. Più precisamente risolvendo 1 − x + 3x2 = c1 (1 + x) + c2 x + c3 x2 ⇒ c1 = 1, c2 = −2, c3 = 3 Ma allora perchè mai abbiamo scelto la strada (più lunga) di calcolare la matrice P ? La risposta è che la matrice P non dipende dal vettore scelto e quindi una volta trovata P possiamo calcolare il cambiamento di base per un vettore arbitrario. (E’ come calcolare f (x0 ) oppure conoscere f (x), ∀x). 2. A volte (in V n ) la notazione può risultare ambigua identificando vettori con le loro coordinate. Ad esempio scrivendo 1 2 = i + 2j + 3k = v 3 ma in realtà 1 2 = [i + 2j + 3k]C 3 dove C = {i, j, k} e quindi la notazione corretta è v = i + 2j + 3k = [i j k][v]C " # 1 Molti testi usano la notazione 2 per brevità . 3 48 E’ importante capire il significato del cambiamento di base. Nei problemi concreti esso rappresenta solamente un cambiamento di nome, le coordinate di un vettore essendo come il suo nome nei vari sistemi di riferimento, ossia nelle varie basi. Si tratta di un cambiamento formale, e spesso un modo complicato ma molto potente, per verificare se una proprietà sia intrinseca o se la soluzione ad un problema sia ammissibile constatando se queste sono invarianti per cambiamento di base. Esempio 3.48. Ad esempio l’indipendenza di due vettori è una proprietà intrinseca. (Verificare) Esempio 3.49. Il fatto che le componenti di un vettore siano tutte positive non è un fatto intrinseco. (Verificare trovando un esempio) 4 TRASFORMAZIONI LINEARI Dopo aver introdotto gli spazi vettoriali introduciamo ora il concetto di trasformazione lineare tra spazi vettoriali. In particolare considereremo trasformazioni lineari tra spazi vettoriali di dimensione finita che, una volta fissate le basi, sono rappresentate da matrici. E’ importante distinguere le trasformazioni lineari dai cambiamenti di base; benchè come vedremo tra poco siano entrambi rappresentati da una matrice (nel caso di spazi di dimensione finita), le prime consistono di trasformazioni effettive (ad esempio un movimento) mentre i secondi, sono, come detto, solo cambiamenti formali di nomenclatura. Definizione 4.1. Dati due spazi vettoriali V e W una trasformazione lineare T : V → W è una funzione tale che T (u + v) = T (u) + T (v), ∀u, v ∈ V T (λu) = λT (u), ∀λ ∈ R, ∀u ∈ V. Lo spazio vettoriale V è detto dominio della trasformazione mentre lo spazio vettoriale W è detto codominio della trasformazione. Infine R(T ) = {T (x) : x ∈ V } è chiamato immagine di T . Vediamo ora alcuni esempi significativi Esempio 4.1. Consideriamo T : V 2 → V 2 dove T : u → 3u è ovviamente lineare e rappresenta una dilatazione u1 u1 Esempio 4.2. Consideriamo T : V 3 → V 3 dove T : u = u2 → u2 è ovviamente lineare e u3 0 rappresenta una proiezione sul piano x3 = 0 0 Esempio 4.3. L’applicazione T : P3 → P2 dove T : p → p R x è lineare. (Verificare) Esempio 4.4. L’applicazione T : P2 → P3 dove T: p→ 0 p(t) dt è lineare. (Verificare) 0 Esempio 4.5. Sia ora T : R → V 3 dove T : x → x2 non è lineare. (Verificare) x x 2x + y Esempio 4.6. Consideriamo T : V 2 → V 2 dove T : x = → . Verificare che tale y 2x + 1 applicazione non è lineare. Esempio 4.7. L’applicazione T : P2 → P2 dove T : p(t) → p(t + a) dove a è un numero reale fissato è lineare. Infatti T (p1 + p2 )(t) = (p1 + p2 )(t + a) = p1 (t + a) + p2 (t + a) = T (p1 ) + T (p2 ) Inoltre T (λp)(t) = λT (p(t)) = λT (p(t)) x Esempio 4.8. Consideriamo T : V 2 → R dove T : x = → 3x + 2y. Verificare che tale y applicazione è lineare. Esempio 4.9. Sia ora T : V n → V m con T : x → Ax e dove A è una matrice m×n. Applicando le proprietà matriciali è immediato vedere che T è lineare Tra breve dimostreremo che con basi fissate tutte le trasformazioni lineari da V n a V m si rappresentano in termini di una matrice m × n. 49 Esempio 4.10. Consideriamo T : Mn,n → Mn,n dove T : A → AB − BA, dove B è una matrice n × n fissata, è lineare. Infatti T (A + A0 ) = (A + A0 )B − B(A + A0 ) = AB + A0 B − BA − BA0 = T (A) + T (A0 ) Analogamente T (λA) = (λA)B − B(λA) = λ(AB) − λ(BA) = λ(AB − BA) Vediamo ora alcune proprietà delle trasformazioni lineari Teorema 4.1. Dati due spazi vettoriali V e W sia T : V → W una trasformazione lineare. Vale 1. T (0) = 0 2. T (−v) = −T (v), ∀v ∈ V 3. T (u − v) = T (u) − T (v), ∀u, v ∈ V Pn 4. Sia v = i=1 ci vi ∈ V allora T (v) = n X ci T (vi ) i=1 Dimostrazione. 1. Osserviamo che 0v = 0 ⇒ T (0) = T (0v) = 0T (v) = 0 2. T (−v) = T ((−1)v) = (−1)T (v) = −T (v) 3. T (u − v) = T (u + −v) = T (u) + T (−v) = T (u) − T (v) Pn Pn 4. T (v) = T (c1 v1 + i=2 ci vi ) = T (c1 v1 ) + T ( i=2 ci vi ) = · · · e iterando si ottiene la tesi Definizione 4.2. Chiameremo endomorfismo un’applicazione lineare da uno spazio vettoriale V in se stesso. Vediamo infine un’altro esempio interessante di applicazione lineare Esempio 4.11. Consideriamo l’applicazione lineare T : R2 → R2 data da T (x) = Ax con cos θ − sin θ sin θ cos θ che rappresenta in senso antiorario di un vettore di un angolo di ampiezza θ. Infatti la rotazione x r cos α sia x = = si può facilmente verificare che y r sin α Ax = 4.1 r cos α cos θ − r sin α sin θ r cos(α + θ) = r cos α sin θ + r sin α cos θ r sin(α + θ) Matrice associata ad una trasformazione lineare Abbiamo visto che una matrice rappresenta un’applicazione lineare. Vediamo ora che fissate le basi negli spazi V e W ad ogni trasformazione T : V → W è associata una matrice. Vale infatti il seguente Teorema 4.2. * Si consideri un’applicazione lineare tra due spazi vettoriali T : V → W e siano dim(V ) = n e dim(W ) = m con B e C basi di V e W rispettivamente. Allora esiste una matrice A, m × n detta matrice associata a T . Più precisamente se B = {v1 , . . . , vn } e C = {w1 , . . . , wm } allora A = [[T v1 ]C . . . [T vn ]C ] e [T (u)]C = A[u]B cioè le coordinate nella base C del vettore u trasformato sono uguali alle coordinate del vettore u nella base B trasformate dalla matrice A. 50 Dimostrazione. Consideriamo la trasformazione T : (V, B) → (W, C). Allora u = [v1 . . . vn ][u]B e per la linearità si ha T (u) = [T (v1 ) . . . T (vn )][u]B da cui [T (u)]C = [[T (v1 ) . . . T (vn )][u]B ]C = [[T (v1 )]C . . . [T (vn )]C ] [u]B = A[u]B Abbiamo usato il fatto che la rappresentazione in una base è unica. In particolare, nel penultimo passaggio abbiamo usato il fatto che [u]B è un vettore di coefficienti numerici e che per a, b ∈ R si ha [au + bv]C = a[u]C + b[v]C come è facile verificare da [w1 · · · wm ](a[u]C +b[v]C ) = a[w1 · · · wm ][u]C +b[w1 · · · wm ][v]C = au+bv = [w1 · · · wm ][au+bv]C Osservazione 4.1. Osserviamo ora che se V = V n e W = V m e B e C sono le basi canoniche allora T (u) = Au dove A matrice associata è data da A = [T (e1 ) . . . T (en )] Vediamo ora alcuni esempi in cui possiamo trovare esplicitamente la matrice associata Esempio 4.12. Nel caso della dilatazione T : V 2 → V 2 con V 2 dotato della base canonica e T : u → 3u si ha 3 0 3 0 A = [T (i) T (j)] = = 0 3 0 3 Esempio 4.13. Nel caso della proiezione T : V 3 → V 2 con V 3 e V 2 dotato della base canonica si ha 1 0 0 A = [T (i) T (j) T (k)] = 0 1 0 Esempio 4.14. Nel caso della riflessione T : V 3 → V 3 con V 3 dotato della base canonica e x x T : y → y −z z si ha 1 A = 0 0 0 1 0 0 0 −1 Esempio 4.15. Nel caso della rotazione antioraria di 45 gradi nel piano si ha "√ √ # 2 2 − 2 √2 A = √2 2 2 2 Rx Esempio 4.16. Consideriamo T : P2 → P3 con T (p) = 0 p dt. Trovare la matrice A associata a T relativamente alle basi B = {1, x, x2 } e C = {1, x, x2 , x3 }. Si ha 0 1 0 0 A = [[T (i)]C [T (j)]C [T (k)]C ] = 0 0 21 0 0 0 0 31 4.2 Nucleo e immagine di una trasformazione lineare Definizione 4.3. Data un’applicazione lineare tra due spazi vettoriali T : V → W . L’insieme dei vettori v ∈ V tali che T (v) = 0 è chiamato nucleo dell’applicazione T e si indica con il simbolo N (T ) := {v ∈ V : T (v) = 0} Vediamo subito degli esempi 51 Esempio 4.17. Sia T : P3 → P2 dove T : p → p0 . In questo caso N (T ) := {p ∈ P3 : T (p) = p0 = 0} = {c : c ∈ R} Esempio 4.18. Consideriamo T : M3,2 → M2,3 dove T A = AT . In questo caso N (T ) := {A ∈ M3,2 : T (A) = AT = O3,2 } = {A ∈ M3,2 : T (A) = A = O2,3 } = {O2,3 } Esempio 4.19. Sia ora T : V → W con T : v → 0. In questo caso si ha N (T ) = V Esempio 4.20. Sia ora T : V → V con T : v → v. In questo caso si ha N (T ) = {0} x x Esempio 4.21. Sia ora T : V 3 → V 3 con T : x = y → y . In questo caso si ha z 0 x N (T ) = {x = y : x = y = 0} z Geometricamente N (T ) = {0} è rappresentato dall’asse z. Vediamo ora alcune proprietà del nucleo Teorema 4.3. * Il nucleo di una trasformazione lineare T : V → W è un sottospazio di V . Dimostrazione. Chiaramente 0 ∈ N (T ). Inoltre presi due vettori x1 , x2 ∈ N (T ) dalle proprietà di T si ricava che T (x1 + x2 ) = T (x1 ) + T (x2 ) = 0 e anche per λ ∈ R e x ∈ N (T ) si ha T (λx) = λT (x) = 0 Osservazione 4.2. Osserviamo ora che se T (x) = Ax con A matrice m×n allora N (T ) = N (A) Definizione 4.4. Data un’applicazione lineare tra due spazi vettoriali T : V → W chiameremo immagine dell’applicazione T e lo indicheremo con il simbolo R(T ) l’insieme R(T ) = {T (x) : x ∈ V } Osservazione 4.3. Se T (x) = A(x) allora R(T ) = col(A) Vediamo ora alcune proprietà dell’immagine Teorema 4.4. * L’immagine di una trasformazione lineare T : V → W è un sottospazio di W . Dimostrazione. Chiaramente 0 ∈ R(T ) poichè T (0) = 0. Inoltre se y1 , y2 ∈ R(T ) cioè esistono x1 , x2 ∈ V tali che T (x1 ) = y1 , T (x2 ) = y2 dalle proprietà di T si ricava che anche y1 + y1 = T (x1 ) + T (x2 ) = T (x1 + (x2 ) e quindi y1 + y1 ∈ R(T ). Analogamente se y ∈ R(T ) e λ ∈ R si ricava λy = λT (x) = T (λx) e quindi y ∈ R(T ). Osservazione 4.4. Se V e W sono spazi di dimensione finita la dimensione di N (T ) è chiamata nullità (nullity(T )) mentre la dimensione di R(T ) è detto rango (R(T )). Vale il seguente risultato Teorema 4.5. * Data un’applicazione lineare tra due spazi vettoriali T : V → W e siano dim(V ) = n e dim(W ) = m con B e C basi di V e W rispettivamente. Si ha che dim(N (T )) + dim(R(T )) = n Questo teorema discende immediatamente dal teorema di rappresentazione visto in precedenza. Infatti tramite la matrice associata A ci si riconduce al risultato ottenuto per le matrici nel capitolo 3. Definizione 4.5. Data un’applicazione lineare tra due spazi vettoriali T : V → W diremo che T è iniettiva se ∀w ∈ W esiste un unico elemento v ∈ V tale che T (v) = w Osserviamo che la definizione di iniettività è equivalente alla seguente condizione T (v) = T (u) ⇒ v = u. Vediamo alcuni esempi di trasformazioni introdotti precedentemente e verifichiamone l’iniettività Esempio 4.22. 1. T (v) = λv è iniettiva per λ 6= 0. x 2. T : x = → 3x + 2y non è iniettiva. Infatti da T (x) = T (x0 ) ⇒ 3x + 2y = 3x0 + 2y 0 ⇒ y 3(x−x0 ) = −2(y −y 0 ) che chiaramente è soddisfatta anche quando x−x0 = 1, y −y 0 = −2/3. 52 Esempio 4.23. Riprendiamo l’applicazione T : Mn,n → Mn,n dove T : A → AB − BA dove B è una matrice n × n. Tale applicazione non è iniettiva. Infatti T (A) = T (A0 ) ⇒ AB − BA = A0 B − BA0 ⇒ (A − A0 )B − B(A − A0 ) = O che in generale non implica A − A0 = O. Teorema 4.6. * T è iniettiva se e solo se N (T ) = 0. Dimostrazione. Infatti se T è iniettiva da T (v) = 0 segue necessariamente v = 0 e quindi N (T ) = 0. Viceversa se N (T ) = 0 allora T (v) = 0 ha come unica soluzione v = 0. Siano u, v tali che T (v) = T (u). Allora T (v − u) = 0 e quindi v − u = 0. Definizione 4.6. Data un’applicazione lineare tra due spazi vettoriali T : V → W , diremo che T è suriettiva se ∀w ∈ W esiste almeno un elemento v ∈ V tale che T (v) = w Valgono le seguenti proprietà 1. T : V → W lineare e dim(W ) < +∞ allora T è suriettiva se e solo se R(T ) = dim(W ). Infatti osserviamo che R(T ) ⊂ W . Dimostriamo che W ⊂ R(T ). Infatti se esistesse un elemento w ∈ W tale che w ∈ / R(T ) necessariamente w sarebbe indipendente dagli n vettori della base di R(T ) arrivando alla contraddizione che R(T ) contiene n+1 vettori linearmente indipendenti. 2. T : V → W lineare e dim(V ) = dim(W ) = n. Allora T è suriettiva se e solo se è iniettiva. Tale affermazione e’ un’immediata conseguenza del Teorema 4.5 Vediamo ora un esempio x Esempio 4.24. Abbiamo visto che l’applicazione T : x = → 3x + 2y non è iniettiva y x x poichè N (T ) = : 3x + 2y = 0 ma è suriettiva in quanto ∀z ∈ R esiste ∈ V 2 tale che y y z = 3x + 2y. 4.3 Isomorfismi Definizione 4.7. Un’applicazione lineare T : V → W iniettiva e suriettiva (biunivoca) è detto isomorfismo. Definizione 4.8. Se esiste un isomorfismo tra due spazi vettoriali V e W diremo che i due spazi sono isomorfi. Vale il seguente risultato Teorema 4.7. Due spazi vettoriali V e W sono isomofi se e solo se dim(V ) = dim(W ). Esempio 4.25. Gli spazi vettoriali V = P3 e W = V 4 sono isomorfi poichè chiaramente hanno entrambi dimensione 4. Gli spazi vettoriali V = M3,3 e W = V 9 sono isomorfi poichè chiaramente hanno entrambi dimensione 9. Osservazione 4.5. Detto sommariamente un isomorfismo tra due spazi vettoriali è un’applicazione biunivoca che conserva le operazioni di somma e prodotto per uno scalare. Quindi due spazi vettoriali isomorfi sono sostanzialmente equivalenti, ed il teorema dice che spazi vettoriali con la stessa dimensione sono isomorfi. Per questo a volte sembra di fare la stessa cosa in V 3 e P2 appunto perchè sono isomorfi. D’altra parte l’isomorfismo è un’equivalenza matematica , quindi in sede di applicazioni l’interpretazione di due spazi isomorfi può essere molto diversa: in effetti un vettore di V 3 ha un’interpretazione molto diversa rispetto ad un polinomio di grado minore o uguale a due. Per questo, pur perdendo l’occasione di fare qualche semplificazione matematica, non sfrutteremo al massimo la teoria degli isomorfismi tra spazi vettoriali. Vediamo ora un esempio in cui chiariamo i concetti introdotti Esempio 4.26. Consideriamo l’applicazione lineare T : V 4 → V 3 rappresentata da T x = Ax dove A è la matrice 3 × 4 1 −2 1 0 A = 0 1 2 3 0 0 0 1 Determinare 53 1. la dimensione del dominio di T 2. l’immagine di T 3. il nucleo di T 4. T è iniettiva? 5. T è suriettiva? Soluzione: 1. dim(dom(T )) = dim(V 4 ) = 4 2. Poichè R(T ) = col(A) ⊂ V 3 è sufficiente determinare col(A) determinando una base di quest’ultimo. A tale scopo basta ridurre la matrice A ad una a scala B, individuare in questa le colonne con pivot e infine prendere le colonne corrispondenti in A In questo caso è facile vedere (lo si verifichi!) che −2 0 1 col(A) = span 0 , 1 , 3 0 0 1 3. Chiaramente N (T ) = N (A) e sempre dalla matrice a scala B è facile vedere che 1 N (A) = span 2 0 4. T non è iniettiva poichè dal punto precedente N (T ) 6= {0} 5. T è suriettiva poichè Im(T ) = col(A) = V 3 4.4 Matrici simili Abbiamo visto che la matrice associata A ad un endomorfismo T : V → V dipende dalla base. Una proprietà fondamentale che cercheremo di stabilire è se sia possibile trovare una base B tale per cui A è diagonale. Ci servono alcuni preliminari. Sia A la matrice associata a T nella base B e sia A0 la matrice associata a T nella base B 0 . Vediamo prima di tutto come è possibile determinare la matrice A0 dalla matrice A. Introduciamo quindi la matrice di transizione P (introdotta nel capitolo 3 quando abbiamo parlato di cambiamenti di coordinate) da B 0 a B e consideriamo inoltre la matrice P −1 da da B a B 0 . Vale il seguente diagramma: / [T (v)]B A [v]B O P −1 P / [T (v)]B0 A0 [v]B0 Quindi si ottiene che A0 = P −1 AP Vediamo alcuni esempi Esempio 4.27. Siano B= −3 4 , 2 −2 e sia A= B0 = −2 −3 54 −1 2 , 2 −2 7 7 la matrice associata a T : V 2 → V 2 nella base B. Dobbiamo quindi trovare −1 2 P = 2 B −2 B Abbiamo visto che ciò equivale a risolvere −3 4 −1 c1 + c2 = 2 −2 2 e d1 −3 4 2 + d2 = 2 −2 −2 e quindi ci si può ricondurre a ridurre a scala la matrice −3 4 −1 2 1 0 → 2 −2 2 −2 0 1 3 2 −2 −1 e quindi P = 3 2 −2 −1 Da cui ricaviamo 0 A =P −1 1 3 2 AP = −1 Esempio 4.28. Consideriamo T rotazione antioraria di 45 gradi intorno all’asse z e prendiamo come come base B la base canonica e come base B0 = 1 0 0 1 1 0 1 1 1 Osserviamo ora che T (i) = h √1 2 √1 2 i h 0 , T (j) = − √12 √1 2 i 0 , T (k) = 0 0 0 e quindi la matrice associata è data da √1 A= − √12 2 √1 2 √1 2 0 mentre 0 1 P = 0 0 1 1 0 0 0 1 1 1 1 Utilizzando il metodo di eliminazione di Gauss-Jordan è facile vedere che 1 −1 0 P −1 = 0 1 −1 0 0 1 e quindi finalmente 0 A0 = P −1 AP = √12 0 √ −√ 2 2 0 √ √− 2 2 − 1 1 Concludiamo con la definizione di similarità di matrici Definizione 4.9. Due matrici n × n A e A0 sono simili se esiste una matrice P invertibile tale che A0 = P −1 AP Riprenderemo questo concetto più avanti quando parleremo di diagonalizzazione di matrici. 55 5 AUTOVALORI E AUTOVETTORI 5.1 Definizione In questo capitolo vedremo come le matrici e in particolare gli autovalori e autovettori di una matrice abbiano un ruolo fondamentale per studiare modelli matematici di crescita di popolazioni. Vedremo anche, se il tempo ce lo permetterà , come l’algoritmo di PageRank di Google, inventato dai suoi fondatori Larry Page e Sergey Brin, che lo ha reso il più potente motore di ricerca al mondo si basi su un teorema dovuto a due matematici di fine ottocento (Perron e Frobenius) riguardante l’esistenza e unicità degli autovalori e autovettori di matrici a elementi non negativi. Ma vediamo ora di introdurre i principali concetti di questo capitolo. Consideriamo una matrice n × n A. In generale Au non è parallelo al vettore u. Vediamo un esempio Esempio 5.1. 3 2 1 5 Au = = 0 1 1 1 ma può succedere anche che Esempio 5.2. Au = 3 0 0 1 1 =3 3 1 1 Definizione 5.1. Data una matrice A n × n . Se accade che Au = λu per qualche u 6= 0 diremo che λ è un autovalore e u il corrispondente autovettore. Osservazione 5.1. Si noti che u = 0 non è considerato autovettore mentre λ = 0 può essere autovalore, infatti: Esempio 5.3. 1 −1 1 0 1 = =0 −2 2 1 0 1 Vedremo in seguito: – come trovare autovalori e autovettori di una matrice, – le proprietà di autovalori e autovettori – le principali conseguenze nell’analisi delle matrici. In particolare la diagonalizzazione delle matrici – significato e applicazioni 5.2 Determinazione di autovalori e autovettori Cominciamo il paragrafo osservando che Au = λu è equivalente a (A − λIn )u = 0 Quindi gli autovettori sono elementi del nucleo della matrice A − λIn e quindi, per ogni λ, di un sottospazio di V n . Tale sottospazio può ridursi anche a {0}, nel qual caso λ non è un autovalore o può essere di dimensione maggiore o uguale a 1 e nel qual caso λ è autovalore. Poichè cerchiamo soluzioni non banali del sistema omogeneo necessariamente A − λIn deve essere una matrice singolare e quindi vale Teorema 5.1. * λ è autovalore se e solo se det(A − λIn ) = 0 56 Dimostrazione. Chiaramente se λ è autovalore e u il corrispondente autovettore non nullo significa che l’equazione (A − λIn )u = 0 ha soluzioni non banali e quindi det(A − λIn ) = 0. Viceversa se λ è soluzione di det(A − λIn ) = 0 allora l’equazione (A − λIn )u = 0 ha una soluzione non banale e quindi λ è autovalore. Chiameremo det(A − λIn ) il polinomio caratteristico mentre l’equazione det(A − λIn ) = 0 è detta equazione caratteristica. Risolvendo l’equazione caratteristica troviamo gli autovalori λ. Una volta trovato l’autovalore λ determiniamo gli autovettori associati risolvendo (A − λIn )u = 0 con il metodo di eliminazione gaussiana. Vediamo alcuni esempi Esempio 5.4. Riprendiamo la matrice 3 2 A= 0 1 e determiniamo gli autovalori calcolando 3−λ 2 det(A − λI2 ) = det = 0 ⇒ (3 − λ)(1 − λ) = 0 ⇒ λ1 = 1, λ2 = 3 0 1−λ Quindi troviamo gli autovettori associati risolvendo (A − I2 )u = 0 e (A − 3I2 )u = 0. Osserviamo che 2 A − I2 = 0 2 1 → 0 0 1 0 e quindi le infinite soluzioni sono date da u=t −1 ,t ∈ R 1 −1 −1 cioè N (A − I2 ) = span e l’autovettore è quindi . Passiamo ora al secondo 1 1 autovalore e risolviamo 0 2 0 1 A − 3I2 = → 0 −2 0 0 1 1 e in questo caso N (A − 3I2 ) = span e un autovettore è quindi . 0 0 Esempio 5.5. Consideriamo ora la matrice 4 −1 6 A = 2 1 6 2 −1 8 e determiniamo gli autovalori calcolando 4−λ −1 6 1−λ 6 = −(λ−9)(λ−2)2 ⇒⇒ −(λ−9)(λ−2)2 = 0 ⇒ λ1 = 2, λ2 = 9 det(A−λI3 ) = det 2 2 −1 8−λ Troviamo gli autovettori associati risolvendo (A − 2I3 )u = 0 e (A − 9I3 )u = 0 57 Cominciamo dal primo sistema 2 A − 2I3 = 2 2 −1 6 1 −1 6 → 0 −1 6 0 −1/2 0 0 3 0 0 e quindi in questo caso abbiamo due variabili libere e le infinite soluzioni sono date da 1/2 −3 u = t 1 + s 0 , t, s ∈ R 0 1 cioè −3 1/2 N (A − 2I3 ) = span 1 , 0 0 1 e due autovettori sono quindi 1/2 −3 1 , 0 0 1 . Passiamo ora al secondo autovalore e risolviamo −5 −1 6 1 0 −1 A − 9I3 = 2 −8 6 → 0 1 −1 2 −1 −1 0 0 0 1 1 e in questo caso N (A − 9I3 ) = span 1 e un autovettore è quindi 1. 1 1 Esempio 5.6. Verificare che gli autovalori e autovettori di 2 1 0 A = −1 0 1 1 3 1 sono λ1 = −1 e λ2 = 2 con autovettori corrispondenti 1 −1/4 −3/4 e 0 . 1 1 Non sempre le radici dell’equazione caratteristica sono reali. Ad esempio Esempio 5.7. 1 −4 A= 4 2 si ha che det(A − λI2 ) = λ2 − 3λ + 18 = 0 ha radici complesse. Ignoreremo quest’ultimo caso. 5.3 Proprietà Definizione 5.2. Chiameremo molteplicità algebrica di un autovalore λ la sua molteplicità come soluzione dell’equazione caratteristica det(A − λIn ) = 0. Nell’esempio (5.5) l’autovalore 2 ha molteplicità 2 mentre l’autovalore 9 ha molteplicità 1. Definizione 5.3. Data un matrice n × n, A, chiameremo traccia di A e la indicheremo con il simbolo tr(A) la somma degli elementi sulla diagonale principale cioè tr(A) = n X i=1 58 aii . Vale il seguente risultato Teorema 5.2. Data un matrice A, n × n, si ha che il determinante di A è uguale al prodotto degli autovalori contati con la loro molteplicità mentre la traccia di A è uguale alla somma degli autovalori sempre contati con la loro molteplicità . La dimostrazione di tale risultato si può ottenere sviluppando algebricamente l’equazione caratteristica. Verifichiamo la validità di tale risultato nell’esempio (5.5). Si ha che det(A) = 36 e tr(A) = 9 + 4 = 13 e 2 · 2 · 9 = 36 e anche 2 + 2 + 9 = 13. Passiamo ora ad alcune importanti proprietà degli autovettori Teorema 5.3. L’insieme degli autovettori corrispondenti ad un autovalore con l’aggiunta dello 0 è uno spazio vettoriale ed è chiamato autospazio. La dimostrazione è ovvia e segue dalla proprietà di linearità delle matrici. Nell’esempio (5.5) abbiamo trovato tale autospazio, che coincide con N (A − λI3 ), ed è rappresentato, per λ1 = 2, (" #) (" # " #) da span −3 1/2 1 , 0 1 0 1 1 1 mentre per λ2 = 9 è dato da span . Definizione 5.4. Chiameremo molteplicità geometrica di un dato autovalore λ la dimensione dell’autospazio dim(span{u1 , · · · , uk }) = dimN (A − λIn ). Nell’esempio (5.5) la molteplicità geometrica di λ = 2 è uguale a 2 e coincide con quella algebrica la molteplicità geometrica di λ = 9 è uguale a 1 e coincide con quella algebrica. Osserviamo ora il seguente fatto Teorema 5.4. La molteplicità algebrica di un autovalore è sempre maggiore o uguale a quella geometrica. Esempio 5.8. Consideriamo la matrice 1 1 A= con det(A − λI2 )) = (1 − λ)2 0 1 quindi la molteplicità algebrica di λ = 1 è uguale a 2. Calcoliamo ora quella geometrica. A tale scopo osserviamo che 0 1 A − I2 = 0 0 1 1 e quindi gli elementi dell’autospazio sono della forma u = t e dim(N (A−I2 )) = dimspan = 0 0 1. Quindi in questo caso la molteplicità geometrica è minore di quella algebrica. Vale ora il seguente risultato riguardante gli autovettori Teorema 5.5. Se u1 , · · · , ur sono autovettori corrispondenti ad autovalori distiniti λ1 , . . . , λr allora essi sono linearmente indipendenti. Dimostrazione. Procediamo per assurdo. Supponiamo che u1 , · · · , ur non siano linearmente indipendenti e siano u1 , · · · , uk il sottoinsieme massimale di vettori indipendenti. Allora necessariamente u1 , · · · , uk , uk+1 sono dipendenti e quindi uk+1 = α1 u1 + · · · + αk uk (per semplicità abbiamo assunto che uk+1 sia esprimibile come combinazione lineare degli altri vettori). Applichiamo ora la matrice A e otteniamo Auk+1 = λk+1 uk+1 = A k X αi ui = i=1 k X αi λi ui i=1 Quindi λk+1 k X αi ui = i=1 k X αi λi ui i=1 cioè k k X X (λk+1 αi − αi λi )ui = 0 ⇐⇒ αi (λk+1 − λi )ui = 0 i=1 i=1 59 Poichè per ipotesi λk+1 − λi 6= 0 for all i = 1, . . . , k abbiamo che α1 = · · · = αk = 0 ⇒ uk+1 = 0 assurdo e quindi k = r. Vediamo infine il seguente Teorema 5.6. * Matrici simili hanno lo stesso polinomio caratteristico e quindi anche gli stessi autovalori. Dimostrazione. Siamo A e A0 simili. Allora esiste una matrice invertibile P tale che A0 = P −1 AP Si ha, applicando le proprietà del prodotto di matrici A0 − λIn = P −1 AP − λIn = P −1 AP − λP −1 P = P −1 (A − λIn )P e quindi applicando il teorema di Binet det(A0 −λIn ) = det(P −1 (A−λIn )P ) = det(P −1 )det(A−λIn )detP = det(A−λIn ) detP = det(A−λIn ) detP da cui anche det(A0 − λIn ) = 0 ⇐⇒ det(A − λIn ) = 0 Concludendo abbiamo visto che la molteplicità algebrica è sempre maggiore o uguale di quella geometrica. In particolare abbiamo visto l’esempio (5.4) in cui gli autovalori erano reali e distinti. Nell’esempio (5.5) gli autovalori sono reali e la molteplicità algebrica è maggiore di quella geometrica. Nell’esempio (5.6) invece λ = 2 ha molteplicità algebrica 2 e geometrica 1. Infine in (5.7) abbiamo visto che gli autovalori possono essere complessi. 5.4 Conseguenze Passiamo ora al processo di diagonalizzazione di una matrice utilizzando i concetti di autovalori e autovettori. Torniamo allo schema che abbiamo introdotto alla fine del capitolo 4 da una prospettiva diversa. Dati T , B e B 0 sia A [v]B O / [T (v)]B P −1 P [v]B0 A0 / [T (v)]B0 Partiamo cioè da una matrice n × n, A, che possiamo interpretare come una matrice associata ad un endomorfismo T : V → V con dim(V ) = n (quindi V è isomorfo a V n ) con B base canonica. Vogliamo ora scegliere la base B 0 ⊂ V n in modo che la matrice associata A0 sia più semplice possibile. In molti casi vedremo che questa matrice risulterà diagonale e questo ci permetterà di usare la seguente interpretazione fisico geometrica dell’applicazione T . Lo spazio vettoriale si può pensare come se fosse di gomma con dei fili rigidi nelle direzione degli autovettori; la trasformazione lineare dilata o comprime ognuno degli autovettori e tutto il resto dello spazio segue di conseguenza. Vedremo più avanti un esempio. Vale il seguente fondamentale risultato Teorema 5.7. * Se tutti gli autovalori della matrice A sono reali e distinti allora l’insieme degli autovettori è una base di V n ed esiste una matrice diagonale D tale che A = P DP −1 per qualche matrice P . In particolare, A è simile a D. 60 Dimostrazione. Abbiamo visto che se gli autovalori di A sono distinti a questi corrispondono n autovettori {b1 , . . . , bn } linearmente indipendenti. Sia P = [b1 . . . bn ] Si ha che AP = [Ab1 . . . Abn ] = [λ1 b1 . . . λn bn ] = P D dove D è la matrice diagonale che ha gli autovalori λ1 , . . . , λn sulla diagonale. Infine osserviamo che P è invertibile poichè le colonne sono linearmente indipendenti. Quindi di ricava A = P DP −1 che conclude la dimostrazione. Definizione 5.5. Diremo che una matrice n × n, A è diagonalizzabile se esiste una matrice diagonale D tale che A = P DP −1 . Esempio 5.9. Riprendiamo la matrice A dell’esempio (5.4) e mostriamo che è diagonalizzabile. Ricordiamo sono reali e distinti (λ1 = 3, λ2 = 1) con autovettori corrispondenti che gli autovalori 1 −1 u1 = , u1 = . Osserviamo quindi che 0 1 1 P = 0 −1 1 Calcoliamo quindi P Si ha 3 0 −1 1 1 = detP 0 2 1 = 1 0 1 1 = 1 0 −1 3 1 0 1 1 0 1 1 0 1 . 1 Vediamo ora il seguente risultato che generalizza il teorema precedente al caso in cui gli autovalori non sono necessariamente distinti Teorema 5.8. Se gli autovalori della matrice A sono reali e la molteplicità algebrica di ciascuno coincide con quella geometrica allora esiste una base di V n , {b1 , . . . , bn }, ottenuta scegliendo autovettori che sono una base in ciascun autospazio, ed A è diagonalizzabile. Osserviamo che la matrice dell’esempio (5.5) è diagonalizzabile e 2 D= 2 9 mentre la matrice dell’esempio (5.6) non è diagonalizzabile poichè vale il seguente risultato Teorema 5.9. Se la matrice A è diagonalizzabile allora A ha n autovettori linearmente indipendenti. Dimostrazione. Se A è diagonalizzabile allora esiste una matrice diagonale D tale che A = P DP −1 ⇒ AP = P D Le colonne di P sono indipendenti poichè P è invertibile e se P = [p1 . . . pn ] si ha Apk = λk pk cioè p1 . . . pn sono autovettori. Rimane da analizzare il punto 4 cioè il significato di autovalori ed autovettori. Osserviamo che se la matrice associata ad una trasformazione lineare è diagonalizzabile possiamo decomporre ogni vettore nella base {b1 , . . . , bn } degli autovettori. 61 Esempio 5.10. Consideriamo la matrice 3 0 2 1 e la trasformazione lineare T : V 2 → V 2 tale che T : x y → 3x + 2y . Chiaramente A è la y 1 matrice associata a T rispetto alla base canonica. Abbiamo già visto che b1 = è l’auto0 1 vettore corrispondente all’autovalore λ1 = 3 mentre b2 = è l’autovettore corrispondente −1 all’autovalore λ2 = 1. Quindi esprimendo un generico vettore u come combinazione lineare degli autovettori b1 , b2 cioè u = c1 b1 + c2 b2 si ha che 1 1 T (u) = T (c1 b1 + c2 b2 ) = c1 T (b1 ) + c2 T (b2 ) = 3c1 + c2 0 −1 Con questa decomposizione si può dare un’interpretazione geometrica della trasformazione lineare: essa consiste di uno stiramento o compressione degli autovettori, mentre il resto dello spazio segue di conseguenza. Nell’esempio 5.10 è avvenuto uno stiramento del vettore nella direzione dell’asse x. Esempio 5.11. Una rotazione cos θ − sin θ sin θ cos θ non ha autovettori e quindi non ha autovalori. Infine vale il seguente teorema Teorema 5.10. Siano T un endomorfismo da V in V e consideriamo le iterate T ◦T = T 2 . . . T ◦ · · · ◦ T = T k . Allora se la matrice A è diagonalizzabile si ha che AT 2 = P D2 P −1 . . . AT n = P Dn P −1 5.5 Applicazioni – Sistemi dinamici discreti: sistema preda-predatore. Consideriamo i ratti selvatici della California che rappresentano l’80% del nutrimento delle civette, predatori principali dei ratti selvatici. Studiamo il sistema dinamico lineare che modellizza il sistema preda (ratto)predatore (civetta). Indichiamo con Ck xk = Rk il vettore che ha per componenti la popolazione di civette e ratti al tempo k. Più precisamente, k è il tempo in mesi, Ck il numero di civette al tempo k, Rk il numero di ratti al tempo k presenti nella regione contati in migliaia. Supponiamo che Ck+1 = 0, 5Ck + 0, 4Rk Rk+1 = −pCk + 1, 1Rk dove p > 0 indica una costante da specificare più avanti. La quantità 0, 5Ck nella prima equazione ci indica che se non ci sono ratti da mangiare solo metà delle civette sopravvive al mese successivo mentre 1, 1Rk nella seconda equazione ci indica che senza civette il numero di ratti aumenta del 10% ogni mese. Se vi è abbondanza di ratti uno 0, 4Rk farà crescere la popolazione di civette mentre −pCk misura il numero di ratti morti dovuti alla caccia delle civette. Determiniamo l’evoluzione di tale sistema se p = 0, 104. Esprimiamo il sistema nella forma vk+1 = Avk dove A= 62 0, 5 −0, 104 0, 4 1, 1 è detta matrice di transizione. Troviamo ora gli autovalori soluzione di det(A − λI2 ) = 0 cioè λ1 = 1, 02 e λ2 = 0, 58 e gli autovettori cioè le soluzioni di (A − λI)u = 0 per λ1 = 1, 02 e λ2 = 0, 58 che sono rispettivamente u1 = 10 13 e u2 = 5 . Poichè tali 1 vettori sono indipendenti ogni vettore v0 = c1 u1 + c2 u2 e inoltre A è diagonalizzabile cioè 10 A= 13 5 1 1, 02 0 10 0 0, 58 13 5 1 −1 Si ha quindi v1 = Av0 = c1 Au1 + c2 Au2 = c1 λ1 u1 + c2 λ2 u2 v2 = Av1 = A(Av0 ) = A(c1 λ1 u1 + c2 λ2 u2 ) = c1 λ21 u1 + c2 λ22 u2 .. . vk = c1 λk1 u1 + c2 λk2 u2 Quindi vk = c1 (1, 02)k u1 + c2 (0, 58)k u2 , ∀k ≥ 0 Vediamo cosa succede asintoticamente cioè per k → ∞. Si ha 10 10 vk ' c1 (1, 02)k vk+1 ' c1 (1, 02)k+1 = (1, 02)vk 13 13 Quindi la popolazione di ratti e di civette cresce di un fattore 1, 02 ogni mese e quindi la crescita è del 2% ogni mese. Dalla relazione ottenuta si ha che vk è circa multiplo 10 Ck ' 10 dell’autovettore e quindi R 13 cioè ogni 10 civette ci sono circa 13.000 ratti. k 13 Osserviamo che questo esempio mostra un fatto generale riguardo i sistemi dinamici discreti vk+1 = Avk . Se gli autovalori di A sono tali che |λ1 | ≥ 1 e |λj | < 1 per ogni j = 2, . . . , n e v1 è l’autovalore che corrisponde a λ1 e inoltre se v0 = c1 u1 + · · · + cn un con c1 6= 0 allora per k grande si ha che vk ' c1 (λ1 )k+1 u1 dove u1 è l’autovettore che corrisponde a λ1 e quindi il rapporto tra le componenti di vk è circa lo stesso del rapporto tra le corrispondenti componenti dell’autovettore u1 . – L’algoritmo di PageRank Utilzzando un motore di ricerca come Google per avere informazioni su un argomento ci viene fornita una lista di pagine che contengono le parole chiave che abbiamo richiesto. Tali pagine appaiono in ordine di importanza e ai primi posti troviamo le più significative mentre in fondo alla lista troveremo quelle meno rilevanti. Come viene stabilito che una pagina è più importante di un’altra indipendentemente dal suo contenuto? Quale e’ l’algoritmo usato per ordinare le pagine? In alcuni dei più vecchi motori di ricerca le pagine venivano ordinate rispetto al numero di volte con cui la parola cercata compariva nei documenti presenti nella pagina. Ovviamente questo criterio è inefficiente e adito a imbrogli. Infatti per pubblicizzare la propria pagina bastava inserire una parola chiave milioni volte per apparire cosi’ tra le prime pagine del motore di ricerca. Successivamente il motore Altavista introdusse l’ordinamento delle pagine in base al numero dei link da altre pagine. Ovviamente anche questo criterio è inefficiente. Infatti è facile, per il gestore di una pagina, creare migliaia di pagine fittizie che puntino alla sua pagina. Inoltre non è sensato dare troppa importanza a essere puntati da pagine di poca importanza mentre è rilevante essere puntati da poche pagine di importanza elevata. Vediamo ora di costruire 63 un modello matematico che descriva tale problema partendo dalla descrizione dell’algoritmo proposto da Altavista per poi passare a quello ideato da Page e Brin che ha fatto conquistare la supremazia assoluta a Google cancellando sostanzialmente tutti gli altri motori di ricerca. Supponiamo di avere quattro pagine secondo il seguente schema: /c a ?_ o ?? ? O ?? ?? ??? ?? ? /d b Costruiamo ora la seguente matrice A, 4 × 4, in cui aij = 1 se la pagina i contiene un link alla pagina j, aij = 0 altrimenti. La matrice A associata allo schema descritto è a b c d a 0 0 1 1 b 1 0 0 0 c 1 1 0 1 d 1 1 0 0 Osserviamo che il vettore rT1 = [1 1 1 1]A produce un vettore le cui componenti sono la somma delle colonne della matrice che indicano il numero di link ad ognuna delle 4 pagine. Osserviamo che rT1 = [1 1 1 1]A = [2 1 3 2] e quindi le pagine secondo l’algoritmo di Altavista vanno ordinate nel seguente modo c, a, d, b oppure c, d, a, b. Un primo problema da risolvere è che una pagina che punta a tante pagine viene ad assumere un’influenza superiore ad una che punta a poche pagine. L’idea è quindi di distribuire la sua influenza in parti uguali alle varie pagine a cui punta cioè di normalizzare le righe in modo che la somma degli elementi su ogni riga sia uguale a 1. Quindi la matrice modificata sarà 0 1/3 1/3 1/3 0 0 1/2 1/2 A= 1 0 0 0 1/2 0 1/2 0 In questo caso il vettore diventa rT1 = [1 1 1 1]A = [ 96 62 86 65 ] e l’ordine delle pagine diventa a, c, d, b. Ma abbiamo detto prima che c’ è un altro problema da risolvere: Se il gestore della pagina b vuole far aumentare l’importanza della sua pagina egli può creare nuove pagine fittizie che puntano alla pagina b e vengono puntate da b. Otteniamo cosi’ una nuova matrice A a b c d α β a 0 0 1 1 0 0 b 1 0 0 0 1 1 c 1 1 0 1 0 0 d 1 1 0 0 0 0 α 0 1 0 0 0 0 β 0 1 0 0 0 0 28 13 7 2 3 Calcoliamo rT1 = [1 1 1 1 1 1]A = [ 18 12 12 12 12 12 12 ] e osserviamo che ora b è passata al primo posto. Per cercare di impedire questo imbroglio Altavista osservò che il vettore [1 1 1 1 1 1] indica, implicitamente, che ogni pagine vale quanto l’altra nella sua attività di influencer, e pensò quindi di fare una seconda iterazione: nella prima iterazione già fatta le pagine acquisiscono una certa importanza, e nella seconda iterazione usiamo quella importanza al 24 33 26 14 14 posto del vettore [1 1 1 1 1 1], considerando r2 = rT1 A = [ 33 24 24 24 24 24 24 ] e la pagina b è ultima. Questo è avvenuto perchè le pagine fittizie non erano puntate da altre pagine se non da b. L’idea è che pagine fittizie non hanno più peso dopo qualche iterazione. Chiaramente chi imbroglia può creare nuove pagine u, v, . . . che puntino alle pagine α, β e cosi’ via ma Altavista poteva usare tre iterazioni e cosi’ via ottenendo quindi una successione rTk = rTk−1 A = rTk−2 A2 = [1 1 1 1]Ak Chi avrà la meglio? Idealmente quello che vorremmo è di trovare un vettore r autoconsistente in modo che se usiamo quel vettore come importanza delle pagine quando agiscono 64 da influencer otteniamo lo stesso vettore come importanza delle pagine in quanto puntate cioè tale che valga la seguente relazione rT = rT A Questo corrisponde a trovare l’autovettore sinistro della matrice A corrispondente all’autovalore 1. Questa è stata l’idea di Google! In generale purtroppo non sarà unico. Ad esempio considerando una matrice della forma 0 1 0 0 1 0 0 0 0 0 0 1 0 0 1 0 è facile vedere che l’autospazio corrispondente all’autovalore 1 ha dimensione 2. Infatti gli autovettori che generano l’autospazio sono [1 1 0 0] e [0 0 1 1]. Questo avviene perchè ci sono delle famiglie di pagine che si puntano solo tra loro. Per ovviare a questo problema bisogna usare il teorema di Perron-Froebenius; una condizione sufficiente per poterlo applicare è che la matrice abbia tutti elementi strettamente positivi. Un modo per ottenere questa condizione è di considerare la matrice in cui tutti gli zeri sono cambiati in (la somma delle righe dovrà essere riportata a 1). A questo punto il teorema suddetto garantisce che 1 è l’autovalore di modulo massimo e l’autospazio corrispondente ha dimensione 1. Infatti se sostituiamo alla prima matrice che abbiamo introdotto 1 3+ 1 2+2 1+3 2+2 3+ 2+2 1+3 2+2 3+ 2+2 1+3 1 2+2 3+ 2+2 1 1+3 2+2 L’autovettore relativo a 1 per = 1/10 è rT = [0, 66 0, 29 0, 57 0, 40] e quindi l’ordine di importanza è a, c, d, b. Ovviamente trovare tale autovettore non è un compito facile poichè al di là dell’esistenza e unicità assicurata dal teorema di Perron-Froebenius la matrice avrà in generale dimensione N ×N dove N è il numero delle pagine presenti sulla rete e quindi dell’ordine di 10 miliardi. 65