APPUNTI DEL CORSO DI ALGEBRA LINEARE per il corso di Laurea in Matematica 1 L’algebra lineare svolge un ruolo cruciale in tutti i campi della matematica e, piu’ in generale, delle discipline scientifiche. Sia nelle scienze pure che applicate molti problemi si traducono in problemi di algebra lineare. Nella prima parte del corso ci occuperemo dello studio dei sistemi lineari. Tale studio ci condurra’ in modo naturale allo studio delle matrici e degli spazi vettoriali. Vedremo che risolvere un sistema lineare significa determinare le soluzioni comuni a una o piu’ equazioni di primo grado. Per prima cosa osserviamo che quando si richiede di risolvere un’equazione e’ indispensabile conoscere l’insieme dove si ricercano le soluzioni. In molti casi risolvere un’equazione significa individuare un sottoinsieme di R o di Rn . Nella pratica molti problemi per i quali occorre studiare delle equazioni trattano insiemi diversi da R. Per avere un’idea del tipo di situazioni che si possono incontrare, cominciamo con l’esaminare un caso semplicissimo. Consideriamo il caso di un’equazione di primo grado in una sola incognita con coefficienti a e b ∈ R : ax = b Possiamo dare a tale equazione un significato in termini di teoria degli insiemi. Determinare le soluzioni reali dell’equazione ax = b significa determinare l’insieme f −1 ({b}) dove f : R → R e’ definita da f (x) = ax. Se a = 0, l’equazione ammette un’unica soluzione reale (potrebbe invece non avere soluzioni intere!) x = b/a; se a = 0, ma b = 0, l’equazione non ha soluzioni; se a = 0 e b = 0, l’equazione ha infinite soluzioni, in quanto qualunque x ∈ R soddisfa l’equazione. Dunque in questo caso le soluzioni o non esistono o sono infinite oppure ce n’e’ una sola; in nessun caso sono in numero finito maggiore di uno. Vedremo se questo accade per ogni sistema lineare indipendentemente dal numero delle equazioni e dal numero delle incognite. Consideriamo ora il caso di un’equazione di primo grado in due incognite. 1 Con tali appunti si vuole fornire un sussidio didattico per lo studente. Essi raccolgono gli argomenti principali affrontati, non contengono le dimostrazioni e molti degli esempi ed esercizi svolti a lezione. 1 Esempio. Determinare le soluzioni reali dell’equazione 2x − 2y = 1 o equivalentemente studiare l’insieme f −1 ({1}) dove f : R2 → R e’ definita da f (x, y) = 2x − 2y. Graficamente significa individuare i punti della retta del piano 2x − 2y = 1. Le soluzioni sono quindi infinite e possono anche essere descritte come l’insieme 1 {(x, x − ) ∈ R2 : x ∈ R}. 2 Osserviamo invece che l’equazione 2x − 2y = 1 non ha soluzioni intere (basta osservare che 1 non e’ pari). Analogamente un’equazione del tipo ax + by = c con a, b, c ∈ R ha sempre infinite soluzioni reali (eccetto il caso a = b = 0 e c = 0) ed e’ possibile determinare condizioni su a, b, c ∈ Z affinche’ l’equazione ammetta soluzioni intere (la risposta la potrete dedurre dall’algoritmo euclideo che vedrete nel corso di algebra). Vediamo di esaminare altri esempi a voi gia’ noti al fine di evidenziare alcuni fatti che affronteremo nel seguito. Esempio. Determinare le soluzioni reali dei seguenti sistemi di equazioni: a) 2x + y = 1 x−y =2 b) x + 2y = −1 x−y =2 c) x−y =1 2x − 2y = 2 d) x−y =1 2x − 2y = 1 Osserviamo che il problema di determinare le soluzioni dei precedenti sistemi si puo’ tradurre in un problema di geometria piana in quanto le equazioni in questione rappresentano rette del piano (x, y). Graficamente possiamo osservare che a) e b) ammettono una unica soluzione rappresentata dal punto di intersezione delle due rette non parellele, d) non ammette soluzioni in quanto il sistema rappresenta l’intersezione di due rette parallele non coincidenti, c) ammette infinite soluzioni essendo le rette coincidenti. In particolare il sistema a) ha come unica soluzione (1, −1) ed e’ equivalente a b) (hanno le stesse soluzioni) in quanto la prima equazione in b) e’ ottenuta sottraendo le due equazioni del sistema a). Come prima detto, c) ammette infinite soluzioni e precisamente tutti i punti della retta x − y = 1, ossia {(x, x − 1) ∈ R2 : x ∈ R}. Chiaramente l’interpretazione geometrica non sara’ piu’ cosi’ chiara in presenza di piu’ incognite e piu’ equazioni. Nello studio dei sistemi lineari risultera’ invece utile scrivere la ”tabella” dei coefficienti delle incognite del sistema e dei termini noti. Riferendoci all’esempio precedente questo significa considerare 2 a) 2 1 1 −1 |1 |2 b) 1 1 2 −1 |−1 | 2 c) 1 −1 |1 2 −2 |2 d) 1 2 −1 −2 |1 |1 Osserviamo che in a) e b), sia nella tabella dei coefficienti delle incognite, che in quella completa con i termini noti, le righe non sono una multipla dell’altra (altro modo di dire che le rette non sono parallele). In c) le righe della matrice sono una multipla dell’altra (le rette sono coincidenti), in d) le righe della matrice completa non sono proporzionali, mentre nella tabella dei coefficienti continua a sussistere la proporzionalita’ (le rette sono parallele non coincidenti). Vedremo che tale decodifica trovera’ esauriente spiegazione nella teoria che svolgeremo. A questo scopo sara’ utile introdurre il calcolo matriciale. 1. Operazioni tra matrici Nel seguito quando scriveremo k intenderemo l’insieme dei numeri razionali o dei numeri reali o dei complessi. Dato che le proprieta’ algebriche che useremo in questi insiemi numerici saranno solo quelle che riguardano la loro struttura di campo, la teoria che svolgeremo continuera’ a valere in un campo k qualsiasi. Siano m, n interi positivi. Una matrice A di formato m × n e’ una collezione di mn elementi disposti in forma di tabella tra parentesi tonde: a11 a A = 21 ... am1 Per esempio, 2 −1 3 1 0 4 a1n a2n a12 a22 ... ... am2 . . . amn e’ una matrice 2 x 3. Gli elementi aij dove i, j sono indici (interi) con 1 ≤ i ≤ m e 1 ≤ j ≤ n sono chiamati entrate della matrice . Gli indici i e j sono chiamati, rispettivamente, indice riga e indice colonna. Cosi’ aij e’ l’elemento che compare nella i−esima riga e j−esima colonna. Nell’esempio precedente a12 = −1, a23 = 4. L’insieme di tutte le matrici m × n a entrate in k si indica con Mm,n (k). Denoteremo di solito una matrice con A oppure (aij ). • Una matrice con una sola riga, cioe’ una matrice 1 x n, viene detta matrice riga. Una matrice con una sola colonna, cioe’ una matrice m x 1, viene detta matrice colonna. 3 • Indicheremo con Ri = (ai1 , . . . , ain ) la i−esima riga di una matrice. Analogamente indicheremo la j−esima colonna con Cj . a1j a Cj = 2j ... amj • Se nella matrice A si ha m ≤ n, allora gli elementi a11 , a22 , . . . , amm vengono detti elementi della diagonale principale. • Una matrice n xn e’ detta quadrata di ordine n. Ad esempio 2 3 0 −1 0 −6 1 2 3 • Se in una matrice quadrata sono nulli tutti gli elementi aij con i > j, allora si dice che la matrice e’ triangolare superiore. Ad esempio 2 10 −1 0 1 0 0 0 3 • Se in una matrice quadrata sono nulli tutti gli elementi aij con i < j, allora si dice che la matrice e’ triangolare inferiore. Ad esempio 2 0 0 1 1 0 1 5 3 • Se una matrice quadrata A risulta sia triangolare superiore che inferiore, ossia se aij = 0 per i = j, allora A si dice diagonale. • Se in una matrice si cancellano righe o colonne, allora la matrice che si ottiene e’ detta sottomatrice. Definiamo ora le piu’ importanti operazioni tra matrici: 1.1. Somma di matrici Date A = (aij ) e B = (bij ) ∈ Mm,n (k) si definisce ancora in Mm,n (k) una matrice detta matrice somma e denotata con A + B nel seguente modo: 4 a11 + b11 a21 + b21 A+B = ... am1 + bm1 a12 + b12 a22 + b22 ... ... am2 + bm2 ... a1n + b1n a2n + b2n amn + bmn La somma di matrici gode delle seguenti proprieta’: 1. Associativita’. Se A, B, C ∈ Mm,n (k), allora (A + B) + C = A + (B + C). 2. Commutativita’. Se A, B ∈ Mm,n (k), allora A + B = B + A. 3. Esistenza dell’elemento neutro. Se A ∈ Mm,n (k), allora A + 0 = A dove 0 denota la matrice con tutte le entrate nulle. 4. Esistenza dell’opposto. Sia A ∈ Mm,n (k) e denotiamo con −A la matrice (−aij ), allora A + (−A) = 0. Vedrete che Mmn (k) con l’operazione di somma e’ un gruppo commutativo. 1.2. Prodotto di una matrice per uno scalare Dati A = (aij ) ∈ Mm,n (k) e uno scalare λ ∈ k, si definisce una matrice λA ∈ Mm,n (k) nel modo seguente: λa11 λa λA = 21 ... λam1 λa1n λa2n λa12 λa22 ... ... λam2 . . . λamn Ricordiamo alcune proprieta’ di tale operazione: 1. Associativita’. Se A ∈ Mm,n (k) e λ, µ ∈ k, allora (λµ)A = λ(µA). 2. Distributivita.’ Se A, B ∈ Mm,n (k) e λ ∈ k, allora λ(A + B) = λA + λB. Inoltre se µ ∈ k, allora (λ + µ)A = λA + µA. 3. Legge di annullamento del prodotto. Se λA = 0, allora A = 0 oppure λ = 0. 1.3. Prodotto di matrici Il prodotto tra matrici e’ piu’ complesso e a prima vista poco naturale coinvolgendo matrici non sempre dello stesso formato. Tale prodotto e’ anche detto ”righe per colonne” in quanto e’ definito iterativamente a partire dal caso particolare del 5 prodotto di una matrice riga per una matrice colonna. In tal caso il prodotto e’ definto se le matrici hanno lo stesso numero di entrate. Si ha b11 b (a11 . . . a1n ) 21 := (a11 b11 + a12 b21 + . . . + a1n bn1 ) ... bn1 Una possibile applicazione si ha se consideriamo un dolce contenente n ingredienti. Denotiamo con a1i i grammi dell’ingrediente i−esimo e con bj1 il costo al grammo dell’ingrediente j−esimo. Allora il prodotto AB fornisce il costo del dolce. Si dovra’ ricorrere al caso di matrici con piu’ righe o colonne se si considerassero piu’ oggetti, in questo caso piu’ dolci, o si dovesse considerare la variazione del costo in diversi anni. Il caso che affronteremo ora e’ particolarmente significativo. Dato il sistema lineare a11 x1 + a12 x2 + . . . + a1n xn = b1 a21 x1 + a22 x2 + . . . + a2n xn = b2 ... am1 x1 + am2 x2 + . . . + amn xn = bm e’ definito, estendendo in modo naturale il prodotto ”matrice riga per matrice x1 x colonna”, un prodotto tra A = (aij ) ∈ Mm,n (k) e X = 2 ∈ Mn,1 (k) in ... xn modo che il sistema precedente possa essere presentato con la notazione matriciale nelle forma familiare AX = B b1 b con B = 2 . ... bm Moltiplicando le singole righe della matrice A per la matrice colonna X, si ha infatti a11 a21 AX = ... am1 a12 a22 ... ... am2 ... a1n x1 a11 x1 + a12 x2 + . . . + a1n xn a2n x2 a21 x1 + a22 x2 + . . . + a2n xn = ... ... xn am1 x1 + am2 x2 + . . . + amn xn amn 6 Diremo che A e’ la matrice dei coefficienti, B e’ la matrice dei termini noti e a11 a21 M = (A|B) = ... am1 a12 a22 ... ... a1n a2n am2 . . . amn b1 b2 bm e’ la matrice completa. 2x + y = 1 puo’ essere riscritto come AX = B dove x−y =2 2 1 x 1 A= , X= , B= 1 −1 y 2 Ad esempio il sistema Estendendo ancora il caso precedente, introduciamo ora il prodotto tra matrici in forma generale. Date le matrici A = (aij ) ∈ Mm,n (k) e B = (bij ) ∈ Mn,p (k), si definisce la matrice prodotto AB ∈ Mmp (k) come descriveremo. Chiamiando C = (crs ) la matrice AB, l’elemento crs ottenuto moltiplicando la r−esima riga di A per la s−esima colonna di B sara’ crs = ar1 b1s + ar2 b2s + . . . + arn bns = n ark bks k=1 Tale definizione e’ ottenuta in modo naturale dal caso precedente pensando la matrice B costituita da p matrici colonna B1 , . . . , Bp e quindi AB = ( AB1 | AB2 | . . . |ABp ) Ricordiamo ancora che per poter moltiplicare due matrici A e B occorre che il numero delle colonne di A coincida con il numero delle righe di B. 1 Esercizio 1.3.1. Calcolare AB dove A = 2 −2 0 1 −1 e B = −1 0 2 0 0 −4 3 −1 Il prodotto di matrici gode delle seguenti proprieta’: 1. Associativita’. Siano A ∈ Mm,n (k), B ∈ Mn,p (k), C ∈ Mp,q (k) allora (AB)C = A(BC). 7 2. Distributivita’. Siano A ∈ Mm,n (k) e B, C ∈ Mn,p (k), si ha A(B + C) = AB + AC . Inoltre se A, B ∈ Mm,n (k) e C ∈ Mn,p (k), allora (A + B)C = AC + BC. Osservazione 1.3.2. E’ importante osservare che in generale la commutativita’ (ovviamente quando ha senso parlare sia di AB che di BA) e la legge di annullamento del prodotto sono false. 2 4 1 2 1 −1 −2 2 −2 −1 4 2 Ad esempio siano A = e B = . Allora AB = , 0 0 mentre BA = . In questo caso AB = BA. Inoltre BA = 0 senza che 0 0 2 A = 0 oppure B = 0. Ci sono anche matrici A = 0 tali che A = 0. Ad esempio 0 1 A= . 0 0 Questi esempi ci fanno capire che il prodotto righe per colonne che abbiamo definito non gode delle buone proprieta’ alle quali eravamo abituati con gli insiemi numerici. 1.4. Matrici invertibili Per ogni intero positivo n, esiste una matrice In ∈ Mn,n (k) tale che, per ogni A ∈ Mn,n (k), sono verificate le seguenti uguaglianze In A = AIn = A. Tale matrice, detta matrice identica, e’ una 1 ≤ i ≤ n. Quindi 1 0 0 1 In = ... 0 0 matrice diagonale tale aii = 1 per ogni ... 0 ... 0 ... 1 Se non ci sara’ ambiguita’ scriveremo I invece di In . Nel seguito considereremo matrici quadrate che denoteremo semplicemente con Mn (k). In tale insieme sono definite le operazioni di somma e prodotto e, come abbiamo visto, la matrice identica e’ l’elemento neutro rispetto al prodotto. Ha senso chiederci quindi quando una matrice e’ invertibile. Vedrete nel corso di algebra che Mn (k) con le operazioni introdotte e’ un anello non commutativo. Definizione 1.4.1. Una matrice quadrata A si dice invertibile quando esiste una 8 matrice B tale AB = BA = I. Se A e’ invertibile, B si dice inversa di A ed e’ unica. Inoltre se A e’ invertibile, indicheremo la matrice inversa con A−1 . Osserviamo inoltre che se A−1 e’ l’inversa di A, allora A−1 e’ invertibile e (A−1 )−1 = A. Esercizio 1.4.2. Verificare che l’inversa di A = 3 −5 −1 2 e’ 2 5 1 3 . E’ facile trovare esempi di matrici invertibili e di non invertibili. Osserviamo che la matrice nulla non e’ invertibile, ma ci sono matrici non nulle e non invertibili, ad 0 1 esempio A = . 0 0 Il sottoinsieme di Mn (k) delle matrici invertibili con l’operazione di prodotto (abbiamo visto che il prodotto di matrici invertibili e’ invertibile) e’ un gruppo, detto gruppo lineare e denotato con Gln (k). Nel seguito caratterizzeremo gli elementi di Gln (k). Puo’ chiaramente sorgere il dubbio che, data una matrice quadrata A, possa esistere B tale che AB = I (B e’ detta inversa destra), ma BA = I. La domanda analoga si puo’ porre per l’inversa sinistra ( BA = I). Per le matrici quadrate proveremo che A e’ invertibile se esiste B tale che AB = I oppure BA = I. Siccome non vale la legge commutativa tale proprieta’ non e’ ovvia. Per il momento possiamo provare il seguente fatto: Proposizione 1.4.3. Se A ha un’inversa destra B e un’inversa sinistra C, allora B = C. Proposizione 1.4.4. Siano A e B matrici invertibili, allora AB e’ invertibile e l’inversa e’ B −1 A−1 . Le matrici invertibili piu’ semplici sono le matrici elementari che, come vedremo, troveranno una interessante applicazione nella teoria dei sistemi lineari. Fissato un intero positivo n, oltre alla matrice identica, esistono tre tipi di matrici elementari: 9 1) Siano i, j interi tali 1 ≤ i, j ≤ n, i = j. Definiamo la matrice Eij ottenuta da I scambiando Ri con Rj . Ad esempio se n = 4, E23 1 0 = 0 0 0 0 1 0 0 1 0 0 0 0 0 1 −1 2 = I, quindi Eij = Eij . Osserviamo inoltre che Eij 2) Siano i un intero, 1 ≤ i ≤ n e λ ∈ k ∗ . Definiamo la matrice Ei (λ) ottenuta da I sostituendo Ri con λRi . Ad esempio se n = 4, 1 0 E2 (−3) = 0 0 0 0 0 −3 0 0 0 1 0 0 0 1 Osserviamo che Ei (λ)−1 = Ei (1/λ). 3) Siano i, j interi tali 1 ≤ i, j ≤ n, i = j e sia λ ∈ k. Definiamo la matrice Eij (λ) ottenuta da da I sostituendo Ri con Ri + λRj (la matrice identica con aij = λ). Ad esempio se n = 4, 1 −3 E21 (−3) = 0 0 0 1 0 0 0 0 1 0 0 0 0 1 Osserviamo che Eij (λ)−1 = Eij (−λ). In particolare quindi abbiamo visto che le matrici elementari sono invertibili e che le loro inverse sono ancora matrici elementari. Data A ∈ Mm,n (k), non e’ difficile verificare che: 1) Eij A e’ la matrice ottenuta da A scambiando Ri con Rj . 2) Ei (λ)A e’ la matrice ottenuta da A moltiplicando ogni elemento di Ri per λ. 10 3) Eij (λ)A e’ la matrice ottenuta da A sostituendo a Ri la riga Ri + λRj . Con il seguente esempio vediamo come operando sulle righe di una matrice A o, equivalentemente, moltiplicando A per matrici elementari, e’ possibile ottenere matrici con piu’ entrate nulle. Esempio 1.4.5. Data la matrice 1 −3 A= 0 1 2 1 −1 2 3 0 1 −1 −1 0 2 1 moltiplicando opportunamente per matrici elementari, otteniamo una matrice triangolare superiore. 1 2 0 7 (R2 → R2 + 3R1 ) → 0 −1 1 2 3 9 1 −1 −1 −3 (R4 → R4 − R1 ) 2 1 1 2 3 0 7 9 0 −1 1 0 0 −4 1 2 3 −1 1 9 −3 0 7 0 (R3 → 7R3 ) → (R3 → R3 + R2 ) → 0 −7 7 14 0 0 0 −4 2 0 1 2 3 −1 1 2 9 −3 0 7 0 7 (R4 → 4R4 ) → (R4 → R4 + R3 ) → 0 0 16 11 0 0 0 0 −16 8 0 0 2 3 7 9 0 16 0 −4 3 9 16 0 −1 −3 2 2 −1 −3 11 2 −1 −3 =A 11 19 Osserviamo che A = E43 (1)E4 (4)E32 (1)E3 (7)E41 (−1)E21 (3)A. Il procedimento dell’esempio precedente e’ chiamato riduzione per righe oppure eliminazione di Gauss. 2. Eliminazione di Gauss per la risoluzione di sistemi lineari Cerchiamo di capire come l’eliminazione di Gauss puo’ essere applicata allo studio dei sistemi lineari. Ad esempio consideriamo il sistema x + 2x2 + 3x3 = −1 1 −3x1 + x2 = 0 −x2 + x3 = 2 x1 + 2x2 − x3 = 1 11 Osserviamo che la matrice completa del sistema e’ la matrice dell’esempio 1.4.5.. La matrice A ottenuta corrisponde alla matrice completa del seguente sistema: x1 + 2x2 + 3x3 = −1 +7x2 + 9x3 = −3 16x3 = 11 0 = 19 I due sistemi hanno una parentela? Osserviamo che le operazioni elementari operate sulla matrice A per ottenere A corrispondono ad ”operazioni lecite” sulle equazioni del sistema. Questo concetto verra’ presto precisato per provare che i due sistemi hanno le stesse soluzioni. Guardando la nuova riformulazione del sistema, e’ facile vedere che non esistono soluzioni. Vediamo di formalizzare il procedimento. Data A ∈ Mm,n (k), si consideri il sistema lineare AX = B Siano M = (A|B) la matrice completa m × (n + 1) associata al sistema e E una matrice elementare o prodotto di matrici elementari m × m. Poniamo M = EM, A = EA, B = EB. Osserviamo che M = EM = (EA|EB) = (A |B ). Proviamo che Proposizione 2.1. AX = B. Le soluzioni del sistema A X = B sono le stesse del sistema Sia A una matrice non nulla, e’ facile vedere che, con successive moltiplicazioni per matrici elementari, ogni matrice puo’ essere ridotta ad una matrice ”a scalini” della forma 0 0 A = 0 0 0 ... ... ... ... ... 0 0 0 ... a1 0 ∗ ... ... 0 ... ... ... a2 0 ∗ ∗ ... ... ... ... ∗ ... ∗ . . . 0 a3 ... ... ... ∗ ... ∗ ... ∗ ... ... ... ∗ ∗ ∗ 0 a4 ... ... ... ... ... dove gli ai sono non nulli, ∗ denota un numero qualsiasi e lo spazio vuoto e’ costituito da zeri. 12 La matrice precedente e’ detta matrice ridotta per righe o matrice a scala e ha la proprieta’ che: Il primo elemento non nullo della (i + 1)−esima riga si trova alla destra rispetto al primo elemento non nullo della i−esima riga. Esercizio 2.2. Risolvere il seguente sistema lineare: x1 + 2x3 + x4 = 5 x + x2 + 5x3 + 2x4 = 7 1 x1 + 2x2 + 8x3 + 4x4 = 12 In virtu’ della Proposizione 2.1., si consiglia di determinare le soluzioni del sistema dopo aver ridotto per righe la matrice completa. Per la maggior parte di questa trattazione, avremmo potuto considerare le colonne invece delle righe. Abbiamo scelto di lavorare soprattutto sulle righe per applicare i risultati ai sistemi lineari. L’operazione che scambia tra loro le righe e le colonne e’ la trasposizione di matrici. La trasposta di una matrice A ∈ Mmn (k) e’ la matrice t A = (bij ) ∈ Mnm dove bij = aji . Possiamo verificare che: i) t (A + B) =t A +t B ii) t (λA) = λ t A iii) t (AB) =t B t A iv) t (t A) = A Diciamo che una matrice e’ ridotta per colonne se t A e’ ridotta per righe. Operando ancora con matrici elementari, possiamo verificare che ogni matrice non nulla puo’ essere ridotta per righe ad una matrice della forma: 0 ... 0 ... A = 0 ... 0 ... 0 ... 0 0 0 ... 1 ∗ ... ∗ 0 ... 0 1 ... ... ... ∗ ∗ ... ... ... ... ∗ 0 ∗ ... ∗ 0 ... ∗ 0 ∗ ... ∗ 0 ... 0 1 ∗ ... ∗ 0 ... ... 0 1 ... ... ... dove ∗ denota un numero qualsiasi e lo spazio vuoto e’ costituito da zeri. 13 ... ... ... ... ... La matrice A cosi’ ottenuta si dice matrice totalmente ridotta per righe. Una matrice totalmente ridotta per righe si puo’ definire come segue: a) Il primo elemento non nullo di ogni riga e’ 1. Tale elemento e’ chiamato pivot. b) Il pivot della (i + 1)−esima riga si trova alla destra rispetto al pivot della i−esima riga. c) Gli elementi al di sopra di un pivot sono nulli. Si puo’ dimostrare che la matrice totalmente ridotta per righe ottenuta a partire da una matrice assegnata A, e’ unica, ossia non dipende dalla particolare sequenza di operazioni eseguita. Esercizio 2.3. Data 0 1 1 −1 A= 1 0 1 1 −1 2 1 0 −1 3 2 1 1 0 0 1 1 0 −3 2 determinare la matrice totalmente ridotta per righe. Diciamo che una matrice e’ totalmente ridotta per colonne se t A e’ totalmente ridotta per righe. Analogamente alla riduzione per righe, data una qualunque matrice A, possiamo ottenere la matrice totalmente ridotta per colonne tramite operazioni elementari sulle colonne o, equivalentemente, moltiplicando a destra la matrice A per matrici elementari. Useremo la riduzione per righe per caratterizzare i sistemi lineari che ammettono soluzione anche se poi nel seguito ritorneremo sul problema affrontandolo da un altro punto di vista. Proposizione 2.4. Sia M = (A |B ) una matrice totalmente ridotta per righe. Allora il sistema di equazioni A X = B ammette soluzioni se e soltanto se l’ultima colonna non contiene pivot. Chiaramente un sistema omogeneo AX = 0 ammette almeno la soluzione banale X = 0. Considerando la matrice totalmente ridotta, possiamo facilmente dedurre che se il sistema omogeneo ha m equazioni e n incognite con m < n, ammette 14 infinite soluzioni. Basta infatti attribuire un valore arbitrario all’incognita xi se la colonna i−esima non contiene pivot. Esercizio 2.5. Determinare le soluzioni del seguente sistema: x1 − x2 + 2x3 − x4 = 0 2x1 + x2 + x4 = 0 x1 + x3 + 2x4 = 0 Utilizzeremo ora la riduzione per righe per caratterizzare le matrici quadrate invertibili. Proposizione 2.6. equivalenti: Sia A una matrice quadrata. Le seguenti condizioni sono a) A puo’ essere ridotta alla matrice identica tramite una successione di operazioni elementari sulle righe. b) A e’ prodotto di matrici elementari. c) A e’ invertibile. d) Il sistema lineare AX = 0 ammette solo la soluzione nulla. Osservazione 2.7. Nella prova della Proposizione 1.5.6. abbiamo messo in luce i seguenti fatti: 1. se M e’ una matrice quadrata totalmente ridotta per righe, allora o M e’ la matrice identica, oppure la sua ultima riga e’ nulla. 2. La riduzione per righe fornisce un metodo per calcolare l’inversa di una matrice. Possiamo facilmente osservare che se E1 , . . . , Ek sono matrici elementari tali E 1 · · · Ek A = I allora A e’ invertibile e moltiplicando i due membri dell’eguaglianza per A−1 si ottiene E1 · · · Ek I = A−1 . Sia A una matrice invertibile. Per calcolare la sua inversa A−1 , basta quindi effettuare operazioni elementari sulle righe riducendola all’identita’. La stessa successione di operazioni, applicata a I, fornisce A−1 . Esercizio 2.8. Determinare l’inversa di 0 1 A = 1 3 1 −4 15 −1 2 1 Terminiamo questa parte con un risultato che avevamo gia’ citato e che ora puo’ essere provato facilmente con i metodi introdotti. Proposizione 2.9. Sia A una matrice quadrata dotata di un’inversa sinistra B (BA = I), oppure di un’inversa destra ( AB = I). Allora A e’ invertibile e B e’ la sua inversa. 16 3. Determinanti e sistemi lineari. Siano n un intero positivo e In := {1, 2, . . . , n}. Indichiamo con Sn l’insieme delle applicazioni iniettive di In in In . Osserviamo che essendo In un insieme finito, una applicazione f : In → In e’ iniettiva se e solo se e’ surgettiva, se e solo se e’ bigettiva. Gli elementi di Sn sono dette permutazioni e un elemento σ : In → In si potra’ rappresentare con una tabella del tipo 1 2 ... n σ= . σ(1) σ(2) . . . σ(n) Ad esempio la permutazione σ : S4 → S4 definita da σ(1) = 2, σ(2) = 3, σ(3) = 1, σ(4) = 4 si indichera’ con 1 2 3 4 σ= . 2 3 1 4 E’ facile vedere che gli elemnti di Sn sono n!, ossia n(n − 1)(n − 2) · · · 2. Nell’insieme Sn abbiamo una operazione di composizione dovuta al fatto che la composta di due applicazioni bigettive e’ bigettiva. Tale operazione non e’ commutativa, ma e’ associativa; inoltre Sn possiede un elemento neutro rispetto a tale operazione: tale elemento e’ la permutazione identica. Inoltre ogni permutazione σ e’ invertibile e σ −1 ∈ Sn . E’ anche chiaro che se σ, τ ∈ Sn allora (στ )−1 = τ −1 σ −1 . Tale operazione rende Sn un gruppo non commutativo che si chiama il gruppo delle permutazioni di In . Spesso parleremo di moltiplicazione in Sn invece che di composizione. Un elemento σ ∈ Sn si dira’ una trasposizione o uno scambio o un 2−ciclo se per qualche i, j ∈ In risulta σ(i) = j, σ(j) = i e σ(k) = k, ∀k = i, j. Denoteremo una tale permutazione semplicemente con (i, j). Analogamente diremo che una permutazione σ e’ un k ciclo se esistono i1 , . . . , ik ∈ In tali che σ(i1 ) = i2 , σ(i2 ) = i3 , . . . , σ(ik−1 ) = ik , σ(ik ) = i1 , σ(j) = j, ∀j = i1 , . . . , ik . Una tale permutazione la indicheremo semplicemente con (i1 , . . . , ik ). Nell’analisi che stiamo per condurre, possiamo supporre che σ = id, ossia che la permutazione non sia quella identica. Teorema 3.1. Ogni permutazione e’ prodotto di cicli disgiunti. Ad esempio se σ= 1 6 2 8 3 4 4 3 17 5 1 6 5 7 2 8 7 . si ha σ = (1, 6, 5)(2, 8, 7)(3, 4). Teorema 3.2. Ogni ciclo e’ prodotto di 2-cicli. Infatti si ha la formula (i1 , i2 , . . . , id ) = (i1 , id )(i1 , id−1 ) · · · (i1 , i2 ). Si conclude quindi che ogni permutazione e’ prodotto di 2-cicli. Una permutazione σ ∈ Sn si dice di classe pari (risp. dispari) se si fattorizza nel prodotto di un numero pari (risp. dispari) di 2-cicli. La fattorizzazione di una permutazione nel prodotto di 2-cicli non e’ unica, ma si prova che se σ = T1 · · · Th e σ = T1 · · · Ts con Ti e Ti 2-cicli, allora h = s mod2, ossia si preserva la parita’ (risp. disparita’). Se σ ∈ Sn e’ una permutazione si definisce la segnatura di σ ponendo sgn(σ) = σ(j) − σ(i) i<j j−i . Proposizione 3.3. Se σ, τ ∈ Sn si ha: sgn(τ σ) = sgn(τ )sgn(σ). Essendo sgn((ij)) = −1, risulta che per ogni σ ∈ Sn sgn(σ) = ±1, in particolare sgn(σ) = 1 se σ e’ di classe pari e sgn(σ) = −1 se di classe dispari. Poiche’ sgn(id) = 1, si deduce in particolare che sgn(σ) = sgn(σ −1 ). Da questa analisi si puo’ provare anche che sgn(σ) = (−1) numero di inversioni di σ ove per calcolare il numero di inversioni di σ, si calcola il numero delle coppie (i, j) con i < j e σ(i) > σ(j). 18 Sia ora A = (aij ) una matrice quadrata ad elementi in k. Diremo determinante di A l’elemento di k cosí definito: sgn(σ)a1σ(1) a2σ(2) . . . anσ(n) . det(A) := σ∈Sn Il determinante di A si puo’ indicare anche con |A|. Le seguenti proprieta’ del determinante sono di facile verifica: 1. det(A) := τ ∈Sn sgn(τ )aτ (1)1 aτ (2)2 . . . aτ (n)n . 2. det(A) = det(t A). 3. Se si scambiano in A due righe ( o due colonne) il determinante cambia di segno. 4. Se A ha due righe (o due colonne) eguali , det(A) = 0. 5. Se a11 .. . A = ai1 + bi1 .. . an1 allora a11 .. . det(A) = det a1i . .. an1 ... .. . ... .. . ... ... .. . a1n .. . . . . ain + bin .. .. . . ... ann a11 a1n .. .. . . ain + det bi1 . .. .. . an1 ann ... .. . ... .. . ... a1n .. . bin .. . ann 6. Se una riga ( o una colonna) di A e’ nulla , allora det(A) = 0. 7. Se si sostiuisce ad una riga ( o una colonna) di A la riga stessa moltiplicata per una costante λ ∈ k, allora si ottiene una matrice il cui determinante e’ λ det(A). 8. Se due righe ( o due colonne) di A sono proporzionali, allora det(A) = 0. 9. Se si aggiunge ad una riga ( o colonna) di A un’altra riga ( o colonna) moltiplicata per λ ∈ k, il determinante non cambia. 10. Se si ha: a11 0 A= ... 0 ... a22 .. . ... 19 ... ... a1n a2n ... 0 ann allora det(A) = a11 · · · ann . 11. Se si aggiunge ad una riga ( o colonna) di A una combinazione lineare delle riman nenti righe (ossia a Ri si sostituisce Ri + j=1 λj Rj con λj ∈ k e j = i)(ugualmente per le colonne), il determinante non cambia. 12. Se le righe ( o le colonne) di A sono linearmente dipendenti (ossia esistono n λ1 , . . . , λn ∈ k non tutti nulli tali che j=1 λj Rj = 0 ), allora det(A) = 0. Osservazione 3.4. Da 3., 7. e 9. si verifica facilmente che det(Eij A) = −det(A) det(Ei (λ)A) = λdet(A) det(Eij (λ)A) = det(A) Poiche’ ogni matrice quadrata si puo’ trasformare in una matrice triangolare superiore moltiplicando per matrici elementari del tipo Eij e Eij (λ), la riduzione di Gauss da’ un metodo effettivo per il calcolo del determinante. Possiamo quindi concludere che, data una matrice A, esistono sempre una matrice triangolare superiore B e una matrice invertibile E tali che: A = EB e det A = det B. Esercizio 3.5. Calcolare 0 1 2 4 −1 1 2 0 det 3 1 0 4 0 1 1 1 con il metodo di riduzione di Gauss. Dall’osservazione precedente e dalla caratterizzazione data delle matrici invertibili, e’ facile dedurre il seguente importante risultato. Teorema 3.6. Una matrice quadrata A e’ invertibile se e solo se det(A) = 0. Infatti det(A) = 0 se e solo se det(A ) = 0 dove A denota la matrice totalmente ridotta ottenuta da A. Segue che det(A ) = 0 se e solo se A = I se e solo se A e’ invertibile. Osserviamo ora che det(Eij ) = −1, det(Ei (λ)) = λ, 20 det(Eij (λ)) = 1. Sia E una matrice elementare o prodotto di matrici elementari, da quanto detto sopra e dalle proprieta’ del determinante segue che det(EA) = det(E)det(A). Usando questo fatto si prova facilmente Teorema di Binet. Se A e B sono due matrici quadrate n × n, si ha det(AB) = det(A)det(B). Se A e’ una matrice quadrata ad entrate in k, diciamo complemento algebrico dell’elemento aij , l’elemento Aij definito come (−1)i+j per il determinante della matrice che si ottiene da A eliminando la riga i − ma e la colonna j − ma. Primo Teorema di Laplace. Per ogni matrice quadrata A = (aij ) e per ogni r = 1, . . . , n si ha n det(A) = arj Arj . j=1 Questo modo di esprimere il determinante di A si chiama lo sviluppo del determinante secondo la riga r − ma. Analogamente abbiamo una formula per lo sviluppo del determinante secondo la colonna s − ma. Precisamente si ha det(A) = n ajs Ajs . j=1 Se A e’ una matrice quadrata diciamo aggiunta di A e la denotiamo con A la matrice A =t ((Aij )) e cioe’ la matrice che al posto ij ha il complemento algebrico dell’elemento di posto ji. Secondo Teorema di Laplace. Per ogni matrice quadrata A si ha se r e s sono due interi distinti n ajs Ajr . 0= j=1 Usando questo teorema e’ facile provare che AA = det(A)I. 21 Se A e’ invertibile, allora det(A) = 0 e si ha quindi A−1 = A det(A). Se A e’ una matrice m × n e t e’ un intero 1 ≤ t ≤ min{n, m}, diciamo minore di ordine t di A il determinante di una qualunque sottomatrice quadrata di A che si ottiene fissando t righe e t colonne. In particolare i minori di ordine 1 × 1 sono gli elementi di A e se A e’ una matrice quadrata n × n c’e’ un solo minore di ordine n di A ed e’ il det(A). Sia A ∈ Mmn (k), diciamo caratteristica di A e la denotiamo con ρ(A), l’ordine massimo di un minore non nullo di A. Si ha quindi ρ(A) ≤ min{m, n}. In particolare se A ∈ Mn (k) si ha ρ(A) = n se e solo se det(A) = 0. Osserviamo che se A e’ una matrice ridotta per righe, ρ(A) coincide con il numero di righe non nulle di A. Consideriamo infatti la sottomatrice p × p costituita dalle p righe non nulle e dalle p colonne contenenti i pivot: abbiamo una matrice triangolare superiore con gli elementi sulla diagonale non nulli, per cui il suo determinante e’ non nullo. Inoltre, dato che A ha solamente p righe non nulle, tutti i minori di ordine p + 1 sono nulli. Dato che ogni matrice si puo’ trasformare con operazioni elementari sulle righe (risp. colonne) in una matrice ridotta per righe (risp. colonne), e’ naturale chiedersi se la caratteristica di una matrice puo’ variare per operazioni elementari. Ricordando il comportamento del determinante rispetto ad operazioni elementari, e’ facile provare il seguente fatto Proposizione 3.7. Sia A una matrice m×n e sia E una matrice elementare m×m, allora ρ(A) = ρ(EA) Analogamente se E una matrice elementare n × n, allora ρ(A) = ρ(AE) Possiamo concludere quindi che la caratteristica di una matrice coincide con il numero di righe non nulle di una (qualunque) matrice ridotta per righe ottenuta da A 22 oppure con il numero di colonne non nulle di una (qualunque) matrice ridotta per colonne ottenuta da A. Esercizio 3.8. Sia A ∈ Mn (k). Allora det A = 0 se e solo se esistono λ1 , . . . , λn ∈ k n non tutti nulli tali che i=1 λi Ri = 0 ( indichiamo con 0 la riga nulla). Dalla precedente proposizione possiamo dedurre il seguente importante fatto: Corollario 3.9. Siano A ∈ Mmn (k), B ∈ Glm (k) e C ∈ GLm (k). Allora ρ(A) = ρ(BAC) Diremo che due matrici A1 e A2 sono equivalenti se esistono B e C invertibili tali A1 = BA2 C L’equivalenza tra matrici e’ una relazione di equivalenza in Mmn (k). m Osserviamo che per una matrice m×n, le sottomatrici p×p sono m n · p , quindi anche al fine di calcolare la caratteristica di una matrice, il metodo di riduzione sembra ancora una volta una procedura estremamente utile. Vediamo ora un criterio che in molti casi semplifichera’ ancora il calcolo della caratteristica. Teorema di Kronecker. Sia A una matrice m × n. Se esiste un minore di ordine t di A che e’ non nullo ma che orlato in tutti i modi possibili con l’aggiunta di una riga e una colonna di A e’ nullo, allora si ha : ρ(A) = t Esempio 3.10. Si consideri la seguente matrice: 1 2 0 −1 0 1 1 −1 A= 1 1 −1 0 1 0 −2 1 1 2 = 0. Il teorema di Kronecker afferma che per provare Osserviamo che det 0 1 che ρ(A) = 2, non occorre controllare tutti i 16 minori di ordine 3 di A, ma basta controllare solo i quattro minori di ordine 4 che contengono il minore non nullo di ordine 2 che abbiamo selezionato. La teoria introdotta ci permette ora di provare ulteriori condizioni di compatibilita’ di un sistema lineare. Sia dato il sistema lineare di m equazioni ed n 23 incognite: a11 x1 + a12 x2 + . . . + a1n xn = b1 a21 x1 + a22 x2 + . . . + a2n xn = b2 .. . am1 x1 + am2 x2 + . . . + amn xn = bm Abbiamo visto che se indichiamo con A la matrice A = (aij ), e con b1 x1 b2 x2 X= ... B = ... xn bm il sistema si puo’ riscrivere come una equazione matriciale AX = B. Teorema di Cramer. Se m = n e A e’ invertibile allora il sistema dato ha una e una sola soluzione: 1 A B. X = A−1 B = det(A) Notiamo che A B e’ una matrice n × 1 che al posto i ha come elemento Ai1 b1 + Ai2 b2 + . . . + Ain bn = A1i b1 + A2i b2 + . . . + Ani bn Questo e’ il determinante della matrice che si ottiene da A sostituendo la colonna i − ma con la colonna dei termini noti. Dunque si ha la seguente formula per la soluzione del sistema : a11 a12 . . . b1 . . . a1n a21 a22 . . . b2 . . . a2n det .. .. .. ... . . . ∀i = 1, . . . , n xi = an1 an2 . . . bn det(A) . . . ann Dato il sistema AX = B indichiamo con M = (A|B) la matrice completa del sistema ossia la matrice che si ottiene da A aggiungendo come ultima colonna la colonna dei termini noti. E’ chiaro che M e’ una matrice m × (n + 1). Si prova il seguente risultato Teorema di Rouche’-Cappelli. Il sistema AX = B ha soluzione se e solo se ρ(A) = ρ(M ). 24 Ora se il sistema AX = B e’ risolubile, in accordo con il precedente teorema, sia t = ρ(A) = ρ(M ). Allora si consideri un minore t × t non nullo di A. Si puo’ provare che il sistema dato e’ equivalente al sistema che si ottiene trascurando le equazioni che non formano il minore scelto. Per risolvere il sistema si puo’ allora portare a termine noto le incognite che non formano il minore scelto, ottenendo cosi’ un sistema t × t la cui matrice dei coefficienti ha per determinante il minore non nullo scelto. Otteniamo dunque un sistema di Cramer che sappiamo risolvere. In tal modo si esprimeranno t delle incognite in funzione delle rimanenti n − t. Si dira’ allora che il sistema ha ∞n−t soluzioni , nel senso che le soluzioni del sistema si ottengono attribuendo ad arbitrio valori alle incognite ”libere” che sono appunto n − t. Se in particolare si deve studiare il sistema omogeneo AX = 0 allora chiaramente ρ(A) = ρ(M ), il che corrisponde al fatto che un tale sistema ha sempre la soluzione banale ossia la soluzione x1 = 0, x2 = 0, . . . , xn = 0. 4. Spazi Vettoriali. Un gruppo commutativo (abeliano) e’ un insieme G con una operazione binaria denotata usualmente con +, che gode delle seguenti proprieta’: a) Proprieta’ associativa. b) Proprieta’ commutativa. c) Esiste un elemento g ∈ G tale che a + g = g + a = a per ogni a ∈ G. d) Per ogni elemento a ∈ G esiste un elemento b ∈ G tale che a + b = b + a = g. Un elemento come in c) si chiamera’ un elemento neutro. Un elemento come in d) si dira’ un opposto di a. Si hanno le seguenti proprieta’: a) Unicita’ dell’elemento neutro. 25 b) Unicita’ dell’opposto. c) Legge di cancellazione, ossia a + b = a + c ⇒ b = c. Dopo aver verificato quanto sopra indicheremo con 0 l’unico elemento neutro del gruppo abeliano G e con −g l’unico opposto dell’elemento g ∈ G. E’ chiaro allora che la scrittura g − h significa g + (−h). Nel seguito k indichera’ un campo, ma per il momento ci limiteremo all’insieme dei numeri razionali, o l’insieme dei numeri reali, o l’insieme dei numeri complessi. Uno spazio vettoriale su k e’ un gruppo abeliano V con una operazione esterna che ad ogni elemento (a, v) di k × V associa un elemento av di V verificante le seguenti proprieta’: a) a(v1 + v2 ) = av1 + av2 , per ogni a ∈ V e per ogni v1 , v2 ∈ V. b) (a + b)v = av + bv, per ogni a, b ∈ k e per ogni v ∈ V. c) a(bv) = b(av) = (ab)v per ogni a, b ∈ k e per ogni v ∈ V. d) 1v = v per ogni v ∈ V. Gli elementi di uno spazio vettoriale V saranno detti vettori mentre gli elementi di k saranno detti scalari . Un tipico spazio vettoriale su k e’ lo spazio k n cosi’ definito: I vettori sono le n-uple ordinate di elementi di k e le operazioni sono cosi’ definite: (x1 , . . . , xn ) + (y1 , . . . , yn ) = (x1 + y1 , . . . , xn + yn ) e per ogni a ∈ k si ha a(x1 , . . . , xn ) = (ax1 , . . . , axn ). Osserviamo che k n e’ in corrispondenza biunivoca con l’insieme Mn1 (k) delle matrici colonna oppure delle matrici riga M1n (k) e le operazioni prima definite in k n concordano con le operazioni di somma e moltiplicazione per un elemento di k che abbiamo gia’ visto nel calcolo matriciale. Si verificano le seguenti proprieta’ aritmetiche negli spazi vettoriali: 26 a) 0v = 0, per ogni v ∈ V. b) a0 = 0 per ogni a ∈ k. c)(−1)v = −v per ogni v ∈ V. Un sottoinsieme W dello spazio vettoriale V si dira’ un sottospazio vettoriale di V se W e’ uno spazio vettoriale rispetto alla restrizione a W delle operazioni di V. Si puo’ dedurre facilmente che un sottoinsieme non vuoto W dello spazio vettoriale V e’ un sottospazio vettoriale di V se e solo se W e’ chiuso rispetto alle operazioni di V, ossia se per ogni a ∈ k, w1 , w2 ∈ W, w1 + w2 ∈ W e aw1 ∈ W. Cio’ e’ equivalente alla condizione ∀a, b ∈ k, ∀w1 , w2 ∈ W aw1 + bw2 ∈ W. Si verifica facilmente che {0V } e V sono sottospazi vettoriali di V. Se W e Z sono due sottospazi di V, allora W ∩ Z e’ ancora un sottospazio di V . Lo stesso vale per una famiglia anche non finita di sottospazi di V. Esempi 4.1. i) Tutti e soli i sottospazi vettoriali di R2 come R−spazio vettoriale sono: {(0, 0)}, le rette passanti per l’origine e R2 stesso. ii) Sia A ∈ Mmn (k), l’insieme delle soluzioni del sistema lineare omogeneo AX = 0 e’ un sottospazio vettoriale di k n . Siano V un k−spazio vettoriale e v ∈ V, allora < v >:= {av / a ∈ k} e’ un sottospazio vettoriale di V detto sottospazio generato da v ed e’ il piu’ piccolo (rispetto all’inclusione insiemistica) sottospazio di V contenente v. Piu’ in generale se S e’ un sottoinsieme (non necessariamente finito) dello spazio vettoriale V, definiamo < S > come l’insieme dei vettori di V che si possono scrivere come somme finite a1 v1 + a2 v2 + . . . + an vn 27 ove n e’ un intero positivo, ai ∈ k e vi ∈ S. E’ facile vedere che < S > e’ un sottospazio di V e anzi e’ il piu’ piccolo sottospazio di V che contiene S. Diremo che < S > e’ il sottospazio generato da S. Osserviamo ora che l’unione di due sottospazi di V non sempre e’ un sottospazio di V . Ad esempio se consideriamo in R2 i sottospazi W =< v1 > e Z =< v2 > dove v1 = (1, 2) e v2 = (2, 2), allora v1 + v2 deve appartenere a un qualunque sottospazio vettoriale contenente W ∪ Z, ma v1 + v2 ∈ W ∪ Z. Dati i sottospazi W e Z dello spazio vettoriale V , indicheremo con W + Z lo spazio < W ∪ Z > . Tale notazione e’ giustificata dal fatto che risulta W + Z = {w + z|w ∈ W, z ∈ Z}. Tale sottospazio sara’ detto la somma di W e di Z. Se W ∩ Z = {0} diremo che la somma W + Z e’ diretta e scriveremo W ⊕ Z. Se W1 , . . . , Wn e’ un insieme finito di sottospazi di V possiamo definire induttivamente W1 + . . . + Wn ; si ha che W1 + . . . + Wn e’ l’insieme dei vettori che si possono scrivere w1 + . . . + wn con wi ∈ Wi per ogni i = 1, . . . , n. Se S e’ un insieme finito, sia S = {v1 , v2 , . . . , vn } scriveremo < v1 , v2 , . . . , vn > invece di < {v1 , v2 , . . . , vn } > . Lo spazio < v1 , . . . , vn > sara’ detto sottospazio generato da v1 , . . . , vn . Lo spazio < v1 , . . . , vn > e’ anche denotato L(v1 , . . . , vn ). Gli elementi di tale sottospazio sono i vettori del tipo a1 v1 + . . . + an vn ove a1 , . . . , an ∈ k. Un tale vettore sara’ detto una combinazione lineare di v1 , . . . , vn e gli scalari a1 , . . . , an sono detti i coefficienti della combinazione lineare. Se i vettori v1 , . . . , vn ∈ V sono tali che < v1 , . . . , vn >= V diremo che v1 , . . . , vn ∈ V sono un sistema di generatori per V. Cio’ significa che ogni vettore v ∈ V si puo’ scrivere come una combinazione lineare di v1 , . . . , vn . 28 Osserviamo che, ad esempio, R2 =< (1, 0), (0, 1) > in quanto ogni vettore (a, b) ∈ R2 si scrive come a(1, 0) + b(0, 1), ma e’ anche vero che R2 =< (1, 0), (0, 1), (1, 1) > in quanto ogni vettore (a, b) ∈ R2 si scrive anche come (a + 1)(1, 0) + (b + 1)(0, 1) − (1, 1). Diciamo che i vettori v1 , . . . , vn ∈ V sono linearmente indipendenti se a1 v1 + . . . + an vn = 0 ⇒ a1 = a2 = . . . = an = 0. Cio’ significa che una combinazione lineare di v1 , . . . , vn e’ nulla solo quando tutti i coefficienti della combinazione lineare sono nulli. Osserviamo che nell’esempio precedente i vettori (1, 0), (0, 1) sono linearmente indipendenti, mentre (1, 0), (0, 1), (1, 1) sono linearmente dipendenti. Osservazione 4.2. Se v1 , . . . , vn sono vettori linearmente indipendenti e v ∈ < v1 , . . . , vn >, allora v si scrive in modo unico come combinazione lineare di v1 , . . . , vn . Una base per lo spazio vettoriale V e’ un insieme di vettori v1 , . . . , vn ∈ V tali che a) v1 , . . . , vn sono linearmente indipendenti b) < v1 , . . . , vn >= V , ossia v1 , . . . , vn sono generatori per V. Ad esempio una base per lo spazio vettoriale k n e’ la cosi’ detta base canonica di k n che e’ l’insieme degli n vettori e1 := (1, . . . , 0), e2 := (0, 1, . . . , 0), . . . , en := (0, . . . , 1). Usando il seguente Lemma di scambio si puo’ dimostrare che tutte le basi di uno spazio vettoriale che ha un sistema finito di generatori sono equipotenti. Lemma di scambio. Se v1 , . . . , vn sono una base di V, w ∈ V e w ∈< v2 , . . . , vn >, allora w, v2 , . . . , vn sono una base di V. Teorema di equipotenza delle basi. Due basi di uno spazio vettoriale V sono formate dallo stesso numero di vettori. Se V e’ uno spazio che ha una base, allora si e’ visto che tutte le basi hanno lo stesso numero di vettori. Tale numero intero si dira’ la dimensione di V . 29 Ad esempio si ha dim(k n ) = n. Ci chiediamo ora quando uno spazio vettoriale ha una base. Lemma di estrazione-completamento. Se V =< v1 , . . . , vn > e v1 , . . . , vk sono linearmente indipendenti, allora si puo’estrarre da {v1 , . . . , vn } una base che contiene v1 , . . . , vk . La strategia e’ la seguente: si guarda se vk+1 ∈< v1 , . . . , vk > . Se si, lo si cancella, se no, si mantiene e v1 , . . . , vk , vk+1 sono linearmente indipendenti. Procedendo in tale modo si arriva alla conclusione. Come conseguenza si prova che : Teorema 4.3. Ogni spazio vettoriale non nullo e finitamente generato ha una base. Come ulteriore applicazione del precedente teorema, si prova il Teorema di completamento di una base. Se v1 , . . . , vk sono vettori linearmente indipendenti nello spazio vettoriale V finitamente generato, allora si possono trovare vettori vk+1 , . . . , vn ∈ V tali che v1 , . . . , vn sia una base di V . Alcune considerazioni dai fatti precedenti: • Se dim(V ) = n e s > n, allora s vettori in V sono sempre linearmente dipendenti. • Dato il sistema lineare omogeneo a11 x1 + a12 x2 + . . . + a1n xn = 0 a21 x1 + a22 x2 + . . . + a2n xn = 0 .. . am1 x1 + am2 x2 + . . . + amn xn = 0 usando il punto precedente, si puo’ ottenere il risultato gia’ noto che se il numero n di incognite e’ maggiore del numero m di equazioni, allora il sistema ha una soluzione (s1 , . . . , sn ) = (0, . . . , 0). Basta infatti osservare che le colonne della matrice A dei coefficienti individuano vettori di k m che sono linearmente dipendenti (n > m). 30 • Se dim(V ) = n, ogni n−upla di vettori v1 , . . . , vn linearmente indipendenti in V, forma una base di V. • m vettori di k n sono linearmente indipendenti se e solo se la caratteristica della matrice che ha per colonne (o per righe) le coordinate dei vettori, ha caratteristica m. E’ naturale chiedere la relazione che intercorre tra la dimensione di uno spazio vettoriale e quella di un suo sottospazio. Teorema 4.4. Ogni sottospazio W di uno spazio finitamente generato V e’ finitamente generato e quindi ammette una base. Inoltre si ha dim(W ) ≤ dim(V ) e vale l’uguale se e solo se W = V. Se W e Z sono sottospazi dello spazio vettoriale V si prova la formula di Grassmann: dim(W + Z) = dim(W ) + dim(Z) − dim(W ∩ Z). In particolare dim(W ⊕ Z) = dim(W ) + dim(Z). Teorema di esistenza di un complemento diretto. Se V e’ finitamente generato, per ogni sottospazio W di V esiste un sottospazio T di V tale che V = W ⊕ T. E’ facile vedere che per ogni sottospazio vettoriale W di V ci sono diversi sottospazi che sono complemento diretto di W in V. Cio’ dipende dal fatto che un sistema di vettori linearmente indipendenti si possono completare ad una base in modi diversi. 5. Applicazioni lineari. D’ora in poi supporremo che tutti gli spazi vettoriali considerati siano finitamente generati. Se V e W sono spazi vettoriali su k diciamo che una applicazione f :V →W 31 e’ lineare o che e’ un omomorfismo di k-spazi vettoriali se sono verificate le seguenti proprieta’. a) f (v1 + v2 ) = f (v1 ) + f (v2 ), ∀v1 , v2 ∈ V. b) f (av) = af (v), ∀a ∈ k, ∀v ∈ V. Si vede facilmente che se f e’ una applicazione lineare si ha: a) f (0) = 0 b) f (−v) = −f (v), ∀v ∈ V. Ad esempio l’applicazione nulla e’ sicuramente lineare e se W = V l’applicazione identica e’ sicuramente lineare. Se f :V →W e’ lineare definiamo ker(f ) e lo diciamo il nucleo di f , l’insieme di vettori cosi’ caratterizzati: ker(f ) := {v ∈ V |f (v) = 0}. E’ chiaro che 0 ∈ ker(f ) e che ker(f ) e’ un sottospazio vettoriale di V. Si prova che Teorema 5.1. L’applicazione lineare f :V →W e’ iniettiva se e solo se ker(f ) = {0}. Se f : V → W e’ lineare definiamo Im(f ) e lo diciamo Immagine di f , l’insieme di vettori cosi’ caratterizzati: Im(f ) := {w ∈ W |∃v ∈ V, f (v) = w}. Si prova che Im(f ) e’ un sottospazio di W e che f e’ surgettiva se e solo se Im(f ) = W (se e solo se dim Im(f ) =dim W ). Osserviamo che se {v1 , . . . , vn } e’ un sistema di generatori di V , per ogni v ∈ V n possiamo scrivere v = i=1 λi vi , e quindi f (v) = n i=1 32 λi f (vi ), in particolare Im(f ) =< f (v1 ), . . . , f (vn ) > . Una applicazione lineare f : V → W si dice un isomorfismo di spazi vettoriali se e’ contemporaneamente iniettiva e surgettiva. Due spazi vettoriali V e W tra cui esista un isomorfismo si diranno isomorfi. Teorema 5.2. Se V e’ spazio vettoriale su k di dimensione n e {v1 , . . . , vn } e’ una sua base, allora l’applicazione f : kn → W definita con la formula f (a1 , . . . , an ) = a1 v1 + . . . + an vn e’ un isomorfismo di spazi vettoriali. In particolare, dal teorema precedente, deduciamo che due spazi vettoriali di uguale dimensione sono isomorfi. Osserviamo inoltre che il Teorema 5.2. afferma che ogni spazio vettoriale V di dimensione n ”puo’ essere pensato” come K n identificando, in modo univoco, ogni vettore di V con la n−upla dei coefficienti che esprimono il vettore tramite una base dello spazio vettoriale. Alla luce di questo fatto, si prova la seguente caratterizzazione: Proposizione 5.3. Sia {v1 , . . . , vn } una base di V e siano w1 , . . . , wm ∈ V. Siano n aij ∈ k, 1 ≤ i ≤ n, 1 ≤ j ≤ m tali che wj = i=1 aij vi e poniamo A = (aij ). Allora dim < w1 , . . . , wm >= t ⇐⇒ ρ(A) = t. A tale scopo basta provare che w1 , . . . , wt sono linearmente dipendenti se e solo se i corrispondenti vettori colonna C1 = (a11 , . . . , an1 ), . . . , Ct = (a1t , . . . , ant ) determinati dai coefficienti della combinazione lineare, sono linearmente dipendenti. In particolare si prova che λ1 w1 +. . .+λt wt = 0V se e solo se λ1 C1 +. . .+λt Ct = 0kn . Un importante risultato che lega il nucleo e l’immagine di una applicazione lineare e’ il seguente teorema. Teorema di nullita’ Se f : V → W e’ lineare allora vale: dim(V ) = dim(ker(f )) + dim(Im(f )). 33 Come immediato Corollario abbiamo Corollario 5.3. Se f : V → V e’ lineare, allora f e’ iniettiva ⇐⇒ f e’ surgettiva ⇐⇒ f e’ bigettiva. Matrici e omomorfismi. Siano V e W due spazi vettoriali su k, dim(V ) = n e dim(W ) = m. Sia poi f : V → W una applicazione lineare. Fissiamo una base E = {v1 , . . . , vn } di V e una base F = {w1 , . . . , wm } di W . Allora per ogni i = 1, . . . , n il vettore f (vi ) e’ un vettore di W e quindi si potra’ scrivere m f (vi ) = aji wj . j=1 In tal modo resta determinata la matrice (aij ) di tipo m × n ad elementi in k che chiameremo la matrice associata a f mediante le basi E e F e che indicheremo con MEF (f ). Sappiamo che se f : V → W e’ una applicazione lineare e {v1 , . . . , vn } un n sistema di generatori di V , per ogni v ∈ V possiamo scrivere v = i=1 λi vi , e quindi n λi f (vi ). f (v) = i=1 Quindi l’applicazione f e’ nota quando si conoscano i trasformati di un sistema di generatori di V e Imf =< f (v1 ), . . . , f (vn ) > . Ci si puo’ allora chiedere se dati n vettori w1 , . . . , wn di W esista sempre una applicazione lineare f : V → W tale che f (vi ) = wi , ∀i = 1, . . . , n. La risposta e’ negativa. Se pero’ {v1 , . . . , vn } e’ una base di V allora tale f esiste ed e’ unica. n Infatti per ogni v ∈ V potremo scrivere in modo unico v = i=1 λi vi e quindi definire la f nel modo seguente: f (v) := n λi wi . i=1 Per le considerazioni gia’ fatte si prova facilmente che 34 Proposizione 5.4. Dati gli spazi vettoriali V e W su k e una applicazione lineare f : V → W, allora dim Im(f ) = ρ(MEF (f )) comunque si fissino E = {v1 , . . . , vn } base di V e F = {w1 , . . . , wm } base di W . Dati gli spazi vettoriali V e W su k, indichiamo con Hom(V, W ) l’insieme delle applicazioni lineari di V in W. Se f, g ∈ Hom(V, W ) e α ∈ k definiamo (f + g) : V → W (αf ) : V → W ponendo (f + g)(v) := f (v) + g(v) (αf )(v) := αf (v) per ogni v ∈ V. E’ facile dimostrare che f + g e αf sono lineari e che, con tali operazioni, Hom(V, W ) e’ un k-spazio vettoriale. Fissate le basi E = {v1 , . . . , vn } di V e F = {w1 , . . . , wm } di W, definiamo allora una applicazione ϕ : Hom(V, W ) → Mmn (k) ponendo ϕ(f ) := MEF (f ). E’ facile provare, usando le considerazioni fatte precedentemente, che ϕ e’ lineare e che e’ un isomorfismo di spazi vettoriali. In particolare cio’ significa che valgono le seguenti relazioni: MEF (f + g) = MEF (f ) + MEF (g) MEF (αf ) = αMEF (f ). Siano dati ora tre spazi vettoriali V , W e Z su k e due applicazioni lineari f : V → W, g : W → Z. Se E, F e G sono basi di V , W e Z ci possiamo chiedere come siano legate MEG (g◦f ) e MF G (g), MEF (f ). Supponiamo si abbia E = {v1 , . . . , vn }, F = {w1 , . . . , wm } e Z = {z1 , . . . , zp }. Se poniamo MF G (g) = (aij ) e MEF (f ) = (bij ) risulta (g ◦ f )(vj ) = g[f (vj )] = g( m k=1 35 bkj wk ) = m k=1 bkj g(wk ) = = m k=1 p p m bkj ( aik zi ) = ( aik bkj )zi . i=1 i=1 k=1 Questa formula ci dice che la matrice MEG (g ◦ f ) ha come elemento di posto m ij l’elemento k=1 aik bkj e quindi che MEG (g ◦ f ) = MF G (g)MEF (f ). Usando tale considerazione, si prova facilmente che: • Date A ∈ Mmn e B ∈ Mnp , allora ρ(AB) ≤ min(ρ(A), ρ(B)). Supponiamo ora di avere una applicazione lineare f : V → V . Osserviamo che se f e’ un isomorfismo allora e’ iniettiva e surgettiva; quindi esiste una applicazione g : V → V tale che f ◦ g = g ◦ f = id. E’ facile provare che tale g e’ una applicazione lineare. Si prova che Teorema 5.5. Sia V uno spazio vettoriale di dimensione n su k e siano E e F due basi di V. Se f : V → V e’ una applicazione lineare e A = MEF (f ), sono fatti equivalenti: 1. f e’ iniettiva. 2. f e’ surgettiva. 3. f e’ un isomorfismo. 4. A e’ invertibile. 5. Esiste una matrice B ∈ Mn (k) tale che AB = I. 6. Esiste una matrice C ∈ Mn (k) tale che CA = I. 7. ρ(A) = n. 8. det(A) = 0. 36 Sia ora V uno spazio vettoriale e E e F due basi di V . Allora la matrice MEF (id) associata mediante le basi E e F alla applicazione identica id : V → V si dice matrice di passaggio dalla base F alla base E. Infatti se MEF (id) = (aij ) con E = {v1 , . . . , vn } e F = {w1 , . . . , wn }, si ha per ogni i = 1, . . . , n vi = id(vi ) = n aki wk k=1 e quindi tale matrice permette di scrivere i vettori della base E mediante i vettori della base F. E’ chiaro che si ha MEF (i)MF E (i) = MF F (i) = I e quindi (MEF (i))−1 = MF E (i). Dunque MEF (i) e MF E (i) sono invertibili e anzi sono una l’inversa dell’altra. Inoltre ogni matrice n × n invertibile puo’ essere pensata come una matrice di passaggio tra due basi qualunque di uno spazio vettoriale V di dimensione n. Sia ora f :V →V una applicazione lineare e E e F due basi di V . Allora risulta MF F (f ) = MEF (i)MEE (f )MF E (i) = MF E (i)−1 MEE (f )MF E (i). In generale due matrici quadrate A e B in Mn (k) si diranno simili se si ha B = P −1 AP per qualche matrice P ∈ Gln (k). Con questa definizione possiamo reinterpretare la formula precedente dicendo che matrici che rappresentano la stessa applicazione lineare f : V → V rispetto a basi diverse sono simili. Anche il viceversa di tale risultato e’ vero. Ossia si prova che se A e B sono matrici simili in Mn (k) e V e’ un k-spazio vettoriale di dimensione n, allora esistono due basi E e F di V e una applicazione lineare f : V → V tale che MEE (f ) = A, MF F (f ) = B. 37 La relazione di similitudine e’ una relazione di equivalenza . Cio’ significa che indicando con A ∼ B il fatto che A e’ simile a B risulta: a) A ∼ A, ∀A ∈ Mn (k). b) A ∼ B ⇒ B ∼ A, ∀A, B ∈ Mn (k). c)A ∼ B, B ∼ C ⇒ A ∼ C, ∀A, B, C ∈ Mn (k). 38 6. Omomorfismi diagonalizzabili. In questa parte intraprendiamo lo studio degli endomorfismi di uno spazio vettoriale di dimensione finita. La nostra analisi consiste nel ricercare, per un dato endomorfismo, un riferimento (una base speciale dello spazio vettoriale) per cui la matrice associata sia la piu’ semplice possibile. Abbiamo visto che matrici associate allo stesso endomorfismo tramite basi diverse sono simili, cerchiamo quindi un buon rappresentante della classe di equivalenza individuata da una qualsiasi matrice associata all’endomorfismo. Sia V uno spazio vettoriale e f : V → V una applicazione lineare. Diciamo che f e’ diagonalizzabile se esiste una base E di V tale che la matrice associata a f , MEE (f ), sia diagonale. Cio’ significa che esiste una base E = {v1 , . . . , vn } di V e scalari λ1 , . . . , λn ∈ k tali che ∀i = 1, . . . , n f (vi ) = λi vi equivalentemente λ1 0 ME (f ) = 0 0 0 0 λ2 0 0 0 0 ... 0 0 ... 0 ... 0 0 0 ... 0 0 0 λn Diremo pertanto che λ ∈ k e’ un autovalore per f se esiste un vettore non nullo v ∈ V tale che f (v) = λv. Sia λ ∈ k un autovalore per f . L’insieme Vλ := {v ∈ V |f (v) = λv} e’ un sottospazio di V : infatti e’ il nucleo dell’omomorfismo λid − f : V → V. Tale sottospazio si dice l’autospazio associato a λ e i suoi vettori sono detti gli autovettori di λ. E’ chiaro che per definizione di autovalore risulta dim(Vλ ) > 0. Osserviamo che f (Vλ ) ⊆ Vλ . Piu’ in generale diciamo che un sottospazio vettoriale W di V e’ f −invariante se f (W ) ⊆ W. Poiche’ una base di W puo’ essere completata a una base F di V, il fatto che W e’ f −invariante si puo’ leggere direttamente dalla matrice associata a f che sara’ della forma: A B MF (f ) = . 0 C 39 Supponiamo che V = W1 ⊕ W2 sia somma diretta di due sottospazi f −invarianti, allora esiste una base B di V (unione delle basi dei Wi ) tale che la matrice associata a f mediante B sara’ della forma: MB (f ) = A1 0 0 A2 . Osserviamo che se λ un autovalore di f, in particolare Vλ e’ invariante. Parlando di autovettore per una matrice n × n A, si intende un vettore che e’ autovettore rispetto alla moltiplicazione a sinistra per A, ossia un vettore colonna X non nullo tale che AX = λX per qualche λ ∈ k. Dal fatto che matrici simili rappresentano la stessa applicazione lineare, segue: Proposizione 6.1. Matrici simili hanno gli stessi autovalori. Vediamo ora come determinare gli autovalori di un endomorfismo. Sia f : V → V un omomorfismo e λ un elemento di k. Se A e’ la matrice associata ad f rispetto ad una base E di V , allora la matrice λI − A e’ associata all’applicazione lineare λid − f. Ne segue che un elemento λ ∈ k e’ un autovalore di f se e solo se ker(λi − f ) = 0 se e solo se det(λI − A) = 0. Dunque gli autovalori di f sono gli elementi di k che sono radici del polinomio det(XI − A). E’ facile provare che se A e B sono matrici simili allora det(XI − A) = det(XI − B) (avevamo gia’ osservato che hanno gli stessi autovalori). Tale polinomio non dipende quindi dalla base scelta ma soltanto dall’applicazione lineare f . Diremo che pf (X) := det(XI − A) e’ il polinomio caratteristico di f. E’ chiaro che pf (X) e’ un polinomio monico di grado n, se n = dim(V ). Inoltre, se scriviamo pf (X) = X n + c1 X n−1 + . . . + cn , allora si ha cn = (−1)n det(A) e c1 = −T r(A), ove T r(A) e’ la traccia di A ossia la somma degli elementi di A che sono sulla diagonale principale. 40 Cio’ prova in particolare che matrici simili hanno lo stesso determinante e la stessa traccia. Tuttavia le due matrici 1 0 1 1 0 1 0 1 hanno lo stesso polinomio caratteristico, ma non sono simili. Le considerazioni precedenti rendono importante studiare come trovare le radici di un polinomio a coefficienti razionali, reali o complessi. Ora se f (X) e’ un polinomio a coefficienti complessi di grado n, il teorema fondamentale dell’algebra ci assicura che f (X) ha esattamente n radici complesse se si contano con la dovuta molteplicita’. Se invece f (X) ha coefficienti reali sappiamo che puo’ non avere alcuna radice reale. Ma se per esempio ha grado dispari, usando il fatto che il coniugato della somma di due numeri complessi e’ la somma dei coniugati e il coniugato del prodotto e’ il prodotto dei coniugati, si prova facilmente che tale polinomio ha sempre una radice reale. Esistono endomorfismi di k−spazi vettoriali di dimensione n > 1o matrici n × n 0 1 con n > 1, privi di autovalori e autovettori. Ad esempio ∈ M2 (R). −1 0 Se p(X) = a0 + a1 X + . . . + am X m e’ un qualunque polinomio a coefficienti in k e A ∈ Mn (k), possiamo considerare p(A) := a0 In + a1 A + . . . + am Am ∈ Mn (k). Si puo’ dimostrare facilmente che, data una matrice A ∈ Mn (k), esistono polinomi non nulli p(X) ∈ k[X] tali che p(A) = 0. Basta osservare che Mn (k) come k−spazio vettoriale ha dimensione n2 e quindi i vettori In , A, A2 , . . . , Am sono linearmente dipendenti se m ≥ n2 . C’e’ un risultato piu’ profondo (Teorema di Cayley-Hamilton ) che non tratteremo in questo corso il quale afferma che se A = ME (f ), allora pf (A) = 0. Ritorniamo alla ricerca di un criterio che caratterizzi gli endomorfismi diagonalizzabili. Lemma 6.2. Se λ1 , . . . , λr sono autovalori distinti di f e se v1 , . . . , vr sono corrispondenti autovettori non nulli, allora v1 , . . . , vr sono linearmente indipendenti. In particolare si prova facilmente che se λ1 , . . . , λr ∈ k autovalori distinti di f, allora 41 Vλ1 + . . . + Vλr = Vλ1 ⊕ . . . ⊕ Vλr . Quindi possiamo provare che f : V → V e’ diagonalizzabile se e solo se esiste una base di V costituita da autovettori se solo se esistono λ1 , . . . , λr ∈ k auotvalori tali che V = Vλ1 ⊕ . . . ⊕ Vλr . Dal lemma precedente segue immediatamente un primo criterio di diagonalizzabilita’ per un omomorfismo. Teorema 6.3. Se V ha dimensione n e f ha n autovalori distinti, allora f e’ diagonalizzabile. Il viceversa di questo risultato non vale: infatti l’applicazione identica di V in V e’ diagonalizzabile ma ha il solo autovalore 1. Osserviamo che se λ e’ autovalore per f , allora 0 < dimVλ ≤ m(λ) dove m(λ) denota la molteplicita’ di λ in pf (X). Infatti se E = {v1 , . . . vr } e’ una base di Vλ , completando E a base di V, segue facilmente che (X − λ)r divide pf (X) e quindi r ≤ m(λ). Teorema 6.4. Se f : V → V e’ un omomorfismo, λ1 , . . . , λr sono le radici distinte del polinomio caratteristico di f , e m1 , . . . , mr le corrispondenti molteplicita’. Allora f e’ diagonalizzabile se e solo se per ogni i = 1, . . . , r, λi ∈ k e dim(Vλi ) = mi . Sia A una matrice quadrata ad elementi in k. Diremo che A e’diagonalizzabile se A e’ simile ad una matrice diagonale. Allora: Teorema 6.5. Sia A ∈ Mn (k) una matrice quadrata e sia V un k-spazio vettoriale di dimensione n. Se E e’ una base di V ed f : V → V l’omomorfismo tale che MEE (f ) = A, allora si ha che f e’ diagonalizzabile se e solo se A e’ diagonalizzabile. In particolare sia A una matrice quadrata n × n e f : k n → k n l’omomorfismo tale che MEE (f ) = A, essendo E la base canonica di k n . Se A (e quindi f ) e’ diagonalizzabile, sia F = {v1 , . . . , vn } la base di k n formata da autovettori di f. Se U e’ la matrice che ha come colonne i vettori v1 , . . . , vn rispettivamente, allora risulta λ1 0 . . . 0 0 λ2 . . . 0 U −1 AU = . .. .. .. ... . . . 0 0 42 . . . λn 7. Prodotto scalare e matrici ortogonali Vediamo come in R2 matrici associate ad endomorfismi possono rappresentare rotazioni intorno all’origine. Ad esempio, una rotazione antioraria del piano di un angolo θ, e’ rappresentata dalla matrice A= cosθ −senθ senθ cosθ . rcosα Per verificare che tale matrice rappresenta una rotazione, sia X = un rsenα vettore di R2 in coordinate polari. Le formule di addizione per il seno e coseno provano che rcos(α − θ) AX = , rsen(α − θ) dunque AX rappresenta un vettore di R2 ottenuto da X mediante la rotazione di θ. Osserviamo che la matrice A ha determinante 1 e che t A = A−1 . Una matrice n×n si dice ortogonale se t A = A−1 , o equivalentemente se t AA = I. Si prova facilmente che il determinante di una matrice ortogonale e’ ±1, infatti det(t A)A = dett A det A = 1. Si puo’ provare che On = {A ∈ Gln (R) / t AA = I} e’ un gruppo ed e’ detto gruppo ortogonale. Le matrici ortogonali aventi determinante +1 formano un sottogruppo chiamto gruppo ortogonale speciale. Si prova che una matrice A rappresenta una rotazione di R2 che lascia fissa l’origine se e solo se A ∈ O2 . Il significato geometrico della moltiplicazione di un vettore di Rn per una matrice ortogonale puo’ essere illustrato mediante i movimenti rigidi. Un movimento rigido o isometria di Rn e’ una applicazione m : Rn → Rn che conserva le distanze, ossia e’ una applicazione che soddisfa la seguente condizione: se X e Y sono punti di Rn , la distanza da X a Y e’ uguale alla distanza da m(X) a m(Y ). Un movimento rigido porta un triangolo in un triangolo congruente e pertanto conserva gli angoli. Si noti che la composizione di movimenti rigidi e’ un movimento rigido e che ogni movimento rigido e’ invertibile e l’inverso e’ ancora un movimento rigido. 43 Per comprendere la relazione tra matrici ortogonali e movimenti rigidi abbiamo bisogno di introdurre il prodotto scalare di vettori. In Rn consideriamo i vettori v = (x1 , . . . , xn ) e w = (y1 , . . . , yn ), diremo prodotto scalare di v e w il numero reale v · w := x1 y1 + . . . + xn yn ottenuto eseguendo il prodotto righe per colonne del ”vettore riga” v per il ”vettore colonna” w. Se v, v1 , v2 , v3 sono vettori di Rn , e λ ∈ R, valgono le seguenti proprieta’. 1. v1 · v2 = v2 · v1 per ogni v1 , v2 ∈ V 2. (v1 + v2 ) · v3 = v1 · v3 + v2 · v3 (commutativita’) λ(v · w) = (λv) · w (linearita’) 3. v · v ≥ 0 e v · v = 0 se e solo se v = 0. Come immediata conseguenza delle definizioni si ha : a) λ(v1 · v2 ) = (λv1 ) · v2 = v1 · (λv2 ) b) 0 · v = v · 0 = 0 Piu’ in generale diremo che uno spazio vettoriale V e’ uno spazio euclideo se e’ definito in V un prodotto scalare ossia una operazione che ad ogni coppia di elementi v, w ∈ V associa un numero reale v·w ∈R che verifica le proprieta’1., 2., 3. Sia V uno spazio euclideo. Per ogni vettore v ∈ V definiamo la norma o modulo di v come il numero reale √ v := v · v. In Rn si ha v = x21 + . . . + x2n . Si verifica che 44 1.v ≥ 0 e v = 0 se e solo se v = 0. 2. Disuguaglianza di Cauchy-Schwartz: v · w ≤ vw. 3. Disuguaglianza triangolare: v + w ≤ v + w. Se v, w ∈ V diciamo che v e w sono ortogonali e scriviamo v ⊥ w se v · w = 0. Se S e’ un sottoinsieme di V diciamo ortogonale di S l’insieme S ⊥ := {v ∈ V |v · w = 0, ∀w ∈ S}. E’ facile dimostrare che anche se S non e’ un sottospazio di V , S ⊥ lo e’. Se in particolare W =< v1 , . . . , vn >, risulta v ∈ W ⊥ se e solo se v ⊥ vi per ogni i = 1, . . . , n. E’ chiaro che W ∩ W ⊥ =< 0 > e (W ⊥ )⊥ = W. Un sottoinsieme S di V non contenente il vettore nullo si dice ortogonale se e’ costituito da un solo vettore oppure se i suoi vettori sono a due a due ortogonali (vi · vj = 0 per ogni i = j.) S si dice ortonormale se e’ ortogonale e inoltre i suoi vettori sono di norma 1. Si verifica che se A e’ una matrice quadrata A e’ ortogonale ⇐⇒ l’insieme dei vettori riga (o colonna) di A e’ ortogonale Enunciamo la seguente proposizione che da’ una motivazione geometrica allo studio delle matrici ortogonali: Proposizione 7.1. Sia m : Rn → Rn una applicazione lineare. Le seguenti condizioni sono equivalenti: 1. m e’ un movimento rigido che lascia fissa l’origine. 2. m conserva il prodotto scalare, ossia, per ogni X e Y in Rn si ha : X · Y = m(X) · m(Y ). 45 3. Esiste una matrice ortogonale A tale m(X) = AX per ogni X in Rn . Vediamo quindi come determinare matrici ortogonali. Proposizione 7.2. Ogni insieme ortogonale e’ costituito da vettori linearmente indipendenti. Infatti se S = {v1 , . . . , vr } e a1 v1 + . . . + ar vr = 0, moltiplicando scalarmente per vi , i = 1, . . . , r, si ottiene ai vi · vi = 0 da cui segue ai = 0. Quindi un insieme ortogonale non puo’ contenere piu’ di n = dimV vettori. Un sottoinsieme S ortogonale costituito da n vettori e’ base di V e si dice base ortogonale di V. Esso si dice base ortonormale se i suoi vettori sono di norma uno. Facciamo ora vedere come da una base qualsiasi di V si possa costruire una base ortonormale. Tale procedimento e’ noto come metodo di ortonormalizzazione di Gram-Schmidt. Sia B = {v1 , . . . , vn } una base di V contenente il sottoinsieme S = {v1 , . . . , vt } ortonormale. Possiamo supporre t < n e consideriamo il vettore wt+1 := vt+1 − t (vt+1 · vi )vi . i=1 Chiaramente wt+1 ∈ V ed e’ ortogonale a ciascun vettore di S. Segue che S ∪ {wt+1 /wt+1 } e’ ortonormale e quindi la base ortonormale di V si ottiene ripetendo il procedimento. Sia W un sottospazio dello spazio euclideo V e {v1 , . . . , vn } una base ortogonale n di W. Per ogni v ∈ V il vettore v − i=1 (v · vi )vi e’ ortogonale a tutti i vettori di W , ossia n v− (v · vi )vi ∈ W ⊥ . Poiche’ n i=1 (v i=1 · vi )vi ∈ W e W ∩ W ⊥ = {0}, si ha V = W ⊕ W ⊥. 46 Le matrici ortogonali e i fatti precedenti giocano un ruolo essenziale nella diagonalizzazione di matrici simmetriche reali. Vedremo che ogni matrice simmetrica reale A e’ simile ad una matrice diagonale tramite una matrice P ortogonale, ossia esiste P ortogonale e una matrice ∆ diagonale tali che tale che ∆ =t P AP Si prova in particolare che Rn ammette una base B ortonormale formata da autovettori per A. Teorema 7.3. Se A ∈ Mn (R) e’ una matrice simmetrica reale, ogni radice del suo polinomio caratteristico |XI − A| e’ un numero reale. Data una matrice simmetrica reale A, siano f : V → V una applicazione lineare e E una base di V tale che A = MEE (f ). Usando il teorema precedente si prova allora che tutte le radici del polinomio caratteristico di f sono numeri reali. In particolare f ha sicuramente un autovettore non nullo. Questa osservazione sara’ fondamentale nella prova del seguente risultato: Teorema 7.4. Siano f : Rn → Rn un omomorfismo e E una base di Rn tale che A = MEE (f ) e’ simmetrica, allora Rn possiede una base ortonormale di autovettori. Come corollario immediato si ottiene: Teorema 7.5. Se A e’ una matrice simmetrica reale, allora esiste una matrice invertibile U tale che U −1 AU e’ diagonale e inoltre U −1 =t U. Basta infatti considerare la matrice U che ha per colonne la base ortonormale di V costituita da autovettori. 8. Accenno alle forme quadratiche Sia A una matrice quadrata reale e siano x1 , . . . , xn indeterminate. Se indichiamo con X la matrice (x1 . . . xn ), la matrice XA t X e’ un polinomio omogeneo di secondo grado in x1 , . . . , xn che si dice forma quadratica associata alla matrice A. E’ facile vedere che matrici diverse possono individuare la stessa forma quadratica. 47 Ad esempio se A= 1 −3 −1 5 B= 1 −2 −2 5 allora XA t X = XB t X = x21 − 4x1 x2 + 5x22 . Se viceversa Q(x1 , . . . , xn ) e’ una forma quadratica reale, ossia un polinomio omogeneo di secondo grado in x1 , . . . , xn , e’ chiaro che ci possono essere tante matrici A tali che Q(x1 , . . . , xn ) = XA t X, ma una sola di esse e’ simmetrica. Infatti se bij xi xj Q(x1 , . . . , xn ) = 1≤i≤j≤n e’ chiaro che la matrice A = (aij ) ove bij 2 , se i minore di j aij = bji , se j minore di i 2 bii , se i=j . e’ l’unica matrice simmetrica tale che Q(x1 , . . . , xn ) = XA t X. Data la forma quadratica Q(x) := Q(x1 , . . . , xn ) = XA t X con A matrice simmetrica reale , sia U la matrice unitaria che diagonalizza A, ossia tale che U −1 =t U e λ1 0 . . . 0 0 λ2 . . . 0 t U AU = ∆ = .. .. .. ... . . . 0 0 . . . λn Allora si ha A = U ∆t U e se si considera la ”trasformazione” Y = XU si ottiene t Y =t U t X e quindi: Q(x) = XA t X = X(U ∆t U ) t X = Y ∆t Y = n λi yi2 . i=1 Diremo che la trasformazione Y = XU riduce la forma quadratica alla forma diagonale. Esempio. Ridurre a forma diagonale la forma quadratica Q(x1 , x2 , x3 ) = 2x1 x2 − x23 . 48 Si ha Q = XAt X ove 0 1 A= 1 0 0 0 0 0 . −1 Calcoliamo il polinomio caratteristico di A. Si ha X −1 0 |XI − A| = det −1 X 0 = (X + 1)(X 2 − 1) = (X + 1)2 (X − 1). 0 0 X +1 Quindi gli autovalori di A sono 1 con molteplicita’ 1 e −1 con molteplicita’ 2. L’autospazio V1 e’ costituito dai vettori soluzione del sistema x1 − x2 = 0 2x3 = 0 e quindi una sua base e’ (1, 1, 0). L’autospazio V−1 e’ costituito dai vettori soluzione del sistema −x1 − x2 = 0 e quindi una sua base e’ (1, −1, 0), (0, 0, 1). La base di V1 si ortonormalizza imme√ √ diatamente ottenendo ( 2/2, 2/2, 0). √ √ Una base ortonormale di V−1 e’ data dai vettori ( 2/2, − 2/2, 0), (0, 0, 1). √ √ 22 U := 2/2 0 Sia allora √ √2/2 0 − 2/2 0 0 1 Se consideriamo la trasformazione Y = XU ossia la trasformazione √ √ y1 =√2/2x1 +√2/2x2 y = 2/2x1 − 2/2x2 2 y3 = x3 . si ottiene Q(x1 , x2 , x3 ) = y12 − y22 − y32 . E infatti e’ facile verificare che √ √ √ √ ( 2/2x1 + 2/2x2 )2 − ( 2/2x1 − 2/2x2 )2 − x23 = 2x1 x2 − x23 . 49