Dati multivariati Variabili statistiche Quando il numero delle variabili rilevate sullo stesso soggetto aumenta, il problema diventa gestirle tutte e capirne le relazioni. Unità statistiche Statistica multivariata Var. 1 Var. 2 … Var. m 1 x11 x12 … x1m 2 x21 x22 … x2m … … xn1 … xn2 … … xnm n … osservazioni, rilevazioni, … Matrice dei dati (n!m) : n righe, m colonne con n!m valori Covarianza Matrice di covarianza Unità statistiche Variabili statistiche Var. 1 Var. 2 … Var. m 1 x11 x12 … x1m 2 x21 x22 … x2m … … … … … n xn1 xn2 … xnm x.1 x.2 Diagonale principale: varianza della variabile i-esima Altre celle: covarianza tra variabili x.m Covarianza : indice della relazione (lineare) tra due variabili k Quadrata e simmetrica Analisi multivariata Statistica multivariata Cercare di capire le relazioni che intercorrono tra le variabili ! Analisi fattoriale Introdurre tante variabili in un’analisi non ha molto senso, né al livello biologico, né al livello statistico. ! ! ! ! analisi (prevalentemente) simmetrica rappresentare un numero elevato di variabili per mezzo di un numero inferiore di variabili ipotetiche (o latenti), i cosiddetti fattori Il modello diventa troppo complesso. Diventa difficile interpretare i risultati. Le stime dei parametri diventano molto instabili. Più parametri inseriamo, più osservazioni ci vogliono per stimarli. ! Regressione multipla analisi asimmetrica formulare opportuni modelli descrittivi/interpretativi Eliminiamo le variabili che sono molto correlate tra di loro. Se due variabili sono molto correlate, allora l’informazione di una è contenuta quasi completamente nell’altra. Metodi multivariati - 1 Analisi fattoriale Definizioni Riduzione di dimensione ! componenti principali (PCA) ! multidimensional scaling (MDS) ! Insieme di diverse tecniche per l’analisi della struttura dei dati, legate da un obiettivo comune, quello di rappresentare un numero elevato di variabili per mezzo di un numero inferiore di variabili ipotetiche (o latenti), i cosiddetti fattori. ! Processo di “riduzione della complessità” della realtà con il duplice obiettivo di una semplificazione dei modelli interpretativi e di un chiarimento concettuale, arrivando anche al risultato di una riduzione dei dati. Analisi fattoriale Analisi di raggruppamento tecnica descrittiva Analisi discriminante - analisi di segmentazione/cluster - analisi interna tecnica predittiva (unsupervised learning) - classificazione (machine/supervised learning) Componenti principali Riduzione della dimensione m dimensioni Perché ? " " Informazione ridondante Algoritmi lenti Come ? " " " " Analisi delle componenti principali Analisi delle corrispondenze Multidimensional scaling ... 2. Non potendo le distanze essere uguali, cerco di minimizzare le distorsioni. Var. m 1 x11 x12 … x1m 2 x21 x22 … x2m … … xn1 … xn2 … … xnm … Per visualizzare i dati ho bisogno di un metodo che riduca la dimensione del mio spazio ad al più 3 dimensioni. Componenti principali Si costruiscono m nuovi assi cartesiani: # ortogonali; # combinazione lineare delle variabili originarie; # catturano man mano porzioni decrescenti di variabilità. PC2 Y " La proiezione riduce le distanze; quindi seguiremo il criterio di rendere max la media dei quadrati delle distanze tra le proiezioni. … n punti 3. Geometricamente si ottiene proiettando i punti su sottospazi dello spazio originario. " Scegliamo il piano di proiezione in cui le distanze saranno conservate al meglio. Var. 2 n Componenti principali 1. Voglio costruire un grafico in modo che le distanze originali tra i punti siano mantenute al meglio. Var. 1 PC1 … combinazione lineare delle variabili originarie X Analisi delle componenti principali # PC loadings : Misura l’importanza di ogni variabile nel catturare la variabilità di una PC. Si può dare una interpretazione alle prime PCs in base alle variabili originali che hanno loadings maggiori. # Scores : nuove coordinate cartesiane dei punti nel nuovo sistema di assi. Analisi delle componenti principali Analisi componenti principali Calcolando, quindi, la matrice di covarianze delle nuove variabili ottengo: Per costruzione queste nuove variabili sono: # ortogonali o indipendenti; (Se ricalcolo la matrice di covarianza sulle Zi, i valori al di fuori della diagonale principale saranno tutti nulli.) # “catturano” quantità decrescente di varianza. Var(Z1) = !1 La varianza totale dei dati è data dalla somma delle varie componenti di varianza: Var(Z2) = !2 … Var(Zn) = !n con !1" !2 " … " !n traccia della matrice di covarianza delle Zi Analisi delle componenti principali Scree test La porzione spiegata da ogni singola componente è data da: Quante componenti principali usare senza perdere troppa informazione? Esistono degli indici per definire il numero ottimo di PC da prendere. Generalmente si fa in modo di catturare almeno l’80% della variabilità totale. Correlazione o covarianza ? Quando la curva diventa piatta (visivamente), quello è il numero di PC più adatto da prendere. Correlazione o covarianza ? Le variabili statistiche possono avere delle unità di misura e dei range di variazione molto diversi. Omogeneizzare i dati: cioè devo standardizzare. standardizzare Fare l’analisi con la matrice di covarianza o con la matrice di correlazione cambia i risultati. Facendo l’analisi PC su queste nuove variabili standardizzate otteniamo che la matrice di covarianza in realtà è una matrice di correlazione. Standardizzare solo quando è necessario ! Esempio Difetti delle PC Classe ED #Sensibilità ai valori anomali (outliers): Poche osservazioni con valori particolarmente “strani” possono far variare sostanzialmente la direzione delle componenti principali. #Si deve usare la totalità dei dati: Non è possibile in una successiva raccolta dei dati ridurre il numero di variabili da raccogliere limitandosi solo ai valori delle variabili latenti che non sono in generale misurabili direttamente. PC è un buon metodo a posteriori. # oggettivo # L’interpretazione dei fattori può essere complessa. # Cosa vuol dire che una PC ha varianza nulla? 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 KRH 15,8 11,29 13,28 13,45 13,15 11,51 13,96 14,16 13,82 11,66 13,9 11,5 13,35 14,05 11,88 11,78 10,31 11,87 13,31 12,05 12,17 10,3 10,29 10,26 11,31 12,32 11,05 11,13 11,1 12,32 13,67 13,06 12,37 10,69 V ar ia nza tota le s pie ga ta 3 4 5 To tale % di vari anza 5 2.42 6 2 8.55 0 1 2.64 3 6. 38 1 2 .775 E- 05 2 .621 1 .427 .632 .319 1 .388 E- 06 STQN 12,54 14,03 14,58 14,18 14,72 14,76 14,69 15,3 14,66 18,42 15,81 18,49 16,54 16,32 19,11 18,72 19,37 17,87 19,36 20,77 19,22 16,18 16,14 16,32 17,02 19,94 21,18 20,93 21,15 20,67 19,19 19,49 21,19 19,96 AGP LVIFMWYC 21,86 22,55 18 18,19 17,85 23,99 16,67 15,13 18,95 15,77 16,75 15,85 16,92 19,61 17,2 18,17 22,68 21,35 18,11 17,4 23,92 28,06 27,88 27,46 24,72 15,1 17,77 18,25 17,65 14,72 14,83 14,36 17,52 20,97 P es i d e i fatto ri non ruo tati % cu mul at a 52 .4 26 80 .9 75 93 .6 19 1 00.00 0 1 00.00 0 T otale % di var ianza 52 .4 26 28 .5 50 2 .621 1 .427 % cumul ata 5 2.42 6 8 0.97 5 • ED : acidi • KRH : basici • STQN : non carichi • AGP : non idrofobici • LVIFMWYC : idrofobici a Componente ED K RH S TQN A GP LVI FMWYC M etod o di e str az io ne: An alisi co mpo ne nti pr incipali. Classificazione dei proteomi batterici attraverso la composizione aminoacidica 35,5 38,39 39,19 39,13 39,22 36,38 38,77 39,73 38,4 40,69 38,8 40,42 38,53 36,79 38,73 38,55 35,69 35,45 36,51 36,73 32,69 33,19 33,34 33,17 34 38,52 36,98 36,79 36,96 38,21 38,38 38,47 36,47 35,97 Mat rice di comp onenti A uto valor i iniziali C omp one nte 1 2 14,3 13,74 14,94 15,04 15,06 13,36 15,91 15,67 14,17 13,46 14,74 13,75 14,66 13,23 13,08 12,78 11,95 13,46 12,71 13,05 12 12,27 12,35 12,78 12,95 14,14 13 12,89 13,12 14,08 13,93 14,62 12,45 12,4 1 .347 .761 .429 -.972 .890 2 .742 .409 -.820 .189 -3.76E-02 Met odo estra zione: ana lisi com ponenti principali. a. 2 componenti estrat ti Grafico decrescente degli autovalori 3.0 4 2.5 2 2.0 1.5 0 1.0 CLASSE .5 -2 Autovalore 3.00 0.0 1 2 Numero componente 3 4 5 REGR factor score 2 for analysis -4 -3 -2 -1 0 REGR factor score 1 for analysis 2.00 1 1.00 1 2 1 3 Esempio RI 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Na 3,01 -0,39 -1,82 -0,34 -0,58 -2,04 -0,57 -0,44 1,18 -0,45 -2,29 -0,37 -2,11 -0,52 -0,37 -0,39 -0,16 3,96 1,11 -0,65 -0,5 1,66 -0,64 -0,49 -0,8 -0,36 -0,07 -0,79 -0,32 -0,16 -0,32 Mg 13,64 13,89 13,53 13,21 13,27 12,79 13,3 13,15 14,04 13 12,72 12,8 12,88 12,86 12,61 12,81 12,68 14,36 13,9 13,02 12,82 14,77 12,78 12,81 13,38 12,98 13,21 12,87 12,56 13,08 12,65 Al 4,49 3,6 3,55 3,69 3,62 3,61 3,6 3,61 3,58 3,6 3,46 3,66 3,43 3,56 3,59 3,54 3,67 3,85 3,73 3,54 3,55 3,75 3,62 3,57 3,5 3,54 3,48 3,48 3,52 3,49 3,56 Si 1,1 1,36 1,54 1,29 1,24 1,62 1,14 1,05 1,37 1,36 1,56 1,27 1,4 1,27 1,31 1,23 1,16 0,89 1,18 1,69 1,49 0,29 1,29 1,35 1,15 1,21 1,41 1,33 1,43 1,28 1,3 K 71,78 72,73 72,99 72,61 73,08 72,97 73,09 73,24 72,08 72,99 73,2 73,01 73,28 73,21 73,29 73,24 73,11 71,36 72,12 72,73 72,75 72,02 72,79 73,02 72,85 73 72,64 73,04 73,15 72,86 73,08 Ca 0,06 0,48 0,39 0,57 0,55 0,64 0,58 0,57 0,56 0,57 0,67 0,6 0,69 0,54 0,58 0,58 0,61 0,15 0,06 0,54 0,54 0,03 0,59 0,62 0,5 0,65 0,59 0,56 0,57 0,6 0,61 Ba 8,75 7,83 7,78 8,22 8,07 8,07 8,17 8,24 8,3 8,4 8,09 8,56 8,05 8,38 8,5 8,39 8,7 9,15 8,89 8,44 8,52 9 8,7 8,59 8,43 8,53 8,43 8,43 8,54 8,49 8,69 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 V ar ia nza tota le s pie ga ta A population of women at least 21 years old, of Pima Indian heritage and living near Phoenix, Arizona, was tested for diabetes according to World Health Organization criteria. C omp one nte 1 2 3 4 A uto valor i iniziali % di vari anza 3 4.41 8 2 1.37 8 1 3.02 7 1 1.42 8 9. 85 9 5. 56 9 4. 32 1 To tale 2 .409 1 .496 .912 .800 .690 .390 .302 5 6 7 % cu mul at a 34 .4 18 55 .7 96 68 .8 23 80 .2 51 90 .1 10 95 .6 79 1 00.00 0 2 .409 1 .496 .912 P es i d e i fatto ri non ruo tati % di var ianza 34 .4 18 21 .3 78 13 .0 27 6 7 T otale % cumul ata 3 4.41 8 5 5.79 6 6 8.82 3 M etod o di e str az io ne: An alisi co mpo ne nti pr incipali. Grafico decrescente degli autovalori 3.0 2.5 2.0 Npreg : number of pregnancies Glu : plasma glucose concentration in an oral glucose tolerance test Bp : diastolic blood pressure (mm Hg) Skin : triceps skin fold thickness (mm) Bmi : body mass index (weight in kg/(height in m)^2) Ped : diabetes pedigree function Age : age in years Type : Yes or No, for diabetic according to WHO criteria 1.5 1.0 .5 Autovalore 0.0 1 2 3 4 5 Numero componente REGR factor score 1 REGR factor score 2 Mat rice d icom po nenti a .567 .568 Component e 2 -.566 -1.56E-02 3 8.174E-02 .399 bp .640 -.132 -8.59E-02 sk in bmi .670 .607 .507 .627 -.322 -.230 ped age 4.522E-02 .732 .550 -.453 .750 .141 preg glu 1 Metodo es traz ione: analisi componenti princi pal i. a. 3 componenti estratt i REGR factor score 3 type 2.00 1.00 5 4 3 2 1 0 -1 VAR00009 -2 REGR factor score 3 for analysis -3 -3 -2 -1 0 1 REGR factor score 1 for analysis 2.00 1 1.00 2 1 3 4 Analisi delle corrispondenze Analisi delle corrispondenze È un metodo simile all’analisi delle componenti principali, ma per dati categoriali. Il punto di partenza è quindi una tabella di contingenza a doppia, tripla, … entrata. Il primo passo è standardizzare la tabella facendo in modo di avere le frequenze relative per ogni cella. (La somma delle frequenze sarà 1.) Analisi delle corrispondenze A NA tot B pB,A pB,NA pB. NB pNB,A pNB,NA pNB. tot p.A p.NA 1 • Massa : 1 unità di massa è distribuita all’interno della tabella. Analisi delle corrispondenze A NA tot B pB,A pB,NA pB. NB pNB,A pNB,NA pNB. tot p.A p.NA 1 Considerando le righe (colonne) come osservazioni statistiche si può procedere come per l’analisi delle componenti principali. • Massa di righe : totali di riga • Massa di colonne : totali di colonna • Inerzia : X2/n (corrisponde al concetto di varianza per variabili numeriche) Calcolo gli autovalori (loadings) e gli autovettori (scores) e disegno i punti nel nuovo sistema cartesiano. Esempio fair blue light medium dark tot red 326 688 343 98 1455 38 116 84 48 286 medium dark black tot 241 110 3 718 584 188 4 1580 909 412 26 1774 403 681 85 1315 2137 1391 118 5387 Esempio Biplot : Usualmente si disegnano i punti di riga e colonna nello stesso grafico. Attenzione: Si possono valutare solo distanze tra punti di righe e tra punti di colonne separatamente, ma non tra punti di riga e colonne. Si possono solo fare delle considerazioni qualitative sui possibili significati dei fattori. Esempio fair blue light medium dark tot 326 688 343 98 1455 red 38 116 84 48 286 medium dark black tot 241 110 3 718 584 188 4 1580 909 412 26 1774 403 681 85 1315 2137 1391 118 5387 Analisi delle corrispondenze multiple … e quando ci sono più di due variabili categoriali da analizzare? Costruisco una matrice disgiuntiva di tante righe quante sono le osservazioni e tante colonne quante sono le modalità di tutte le variabili considerate. Da una trasformazione di questa matrice (matrice di Burt) procediamo esattamente come abbiamo fatto per l’analisi delle componenti principali. Esempio Analisi dei gruppi Nodal Involvement in Prostate Cancer # Unsupervised methods (analisi interna) ANALISI CLUSTER (di raggruppamento, di segmentazione) tecnica descrittiva 1 : grave – 0 : non grave # Supervised methods (“machine learning”) ANALISI DISCRIMINANTE tecnica predittiva Grade : biopsia Xray : raggi X Acid : fosfatasi Stage : visita R : indice post operatorio Analisi cluster Var. 1 Var. 2 … Var. m 1 x11 x12 … x1m Identificazione di gruppi di soggetti con caratteristiche … … … … … simili n xn1 xn2 … xnm Simili rispetto a cosa ? Definizione di distanza m=3 n punti in uno spazio di m dimensioni Var 2 Var 3 Le osservazioni diventano punti nello spazio: punti vicini nello spazio sono raggruppati insieme. Ogni riga è un punto in uno spazio di m dimensioni Var 1 Misure di similarità o dissimilarità • Matrice dei dati • Matrice di similarità • Matrice di dissimilarità # # x 11 ... x i1 ... x n1 ... ... ... ... ... x 1f .. . x if .. . x nf . .. . .. . .. . .. . .. x 1p . .. x ip . .. x np $ 0 d % 2,1 & 0 d % 3,1 & d % 3,2 & 0 : : : d % n ,1 & d % n ,2 & . .. . . . 0 Alcune distanze Dati i vettori x = (x1, …, xn) e y = (y1, …, yn), definiamo: () n • distanza euclidea $ d E % x,y &' i=1 % x i* y i & 2 n • distanza di Manhattan d M % x,y &' ) +x i * y i+. i=1 • distanza di correlazione ) % x i* ,x &% y i * ,y & d C % x,y &'1* i=1 () % xi*,x &2 ) % y i* ,y &2 i=1 Alcune distanze . i=1 Multidimensional Scaling (MDS) • MDS algorithms work by finding coordinates in 2-D or 3-D space that preserve the distance ranking between the points in the high dimensional space. • The starting point of MDS algorithms is the distance or similarity matrix between the data points, which is followed by an optimisation algorithm. • MDS preserves the notion of nearness, and therefore clusters in the high dimensional space still look like cluster on an MDS plot. # 0 d % 2,1 & 0 d % 3,1 & d % 3,2 & 0 : : : d % n ,1 & d % n ,2 & . .. . . . 0 $ Esempio Multidimensional Scaling (MDS) 1. Calcola la matrice di dissimilarità. • Decidi il numero di dimensioni (k) in cui vuoi vedere i tuoi oggetti. 2. # Classe ED 0 d % 2,1 & 0 d % 3,1 & d % 3,2 & 0 : : : d % n ,1 & d % n ,2 & . .. . . . 0 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 $ Metti i punti in una configurazione iniziale magari inizializzata da una PCA. • Sposta iterativamente i punti nello spazio a k dimensioni in modo tale che le distanze tra gli oggetti e gli indici di dissimilarità iniziali siano più correlati possibili (funzione di stress). 3. KRH 15,8 11,29 13,28 13,45 13,15 11,51 13,96 14,16 13,82 11,66 13,9 11,5 13,35 14,05 11,88 11,78 10,31 11,87 13,31 12,05 12,17 10,3 10,29 10,26 11,31 12,32 11,05 11,13 11,1 12,32 13,67 13,06 12,37 14,3 13,74 14,94 15,04 15,06 13,36 15,91 15,67 14,17 13,46 14,74 13,75 14,66 13,23 13,08 12,78 11,95 13,46 12,71 13,05 12 12,27 12,35 12,78 12,95 14,14 13 12,89 13,12 14,08 13,93 14,62 12,45 STQN 12,54 14,03 14,58 14,18 14,72 14,76 14,69 15,3 14,66 18,42 15,81 18,49 16,54 16,32 19,11 18,72 19,37 17,87 19,36 20,77 19,22 16,18 16,14 16,32 17,02 19,94 21,18 20,93 21,15 20,67 19,19 19,49 21,19 AGP 21,86 22,55 18 18,19 17,85 23,99 16,67 15,13 18,95 15,77 16,75 15,85 16,92 19,61 17,2 18,17 22,68 21,35 18,11 17,4 23,92 28,06 27,88 27,46 24,72 15,1 17,77 18,25 17,65 14,72 14,83 14,36 17,52 Classificazione dei proteomi batterici attraverso la composizione aminoacidica LVIFMWYC 35,5 38,39 39,19 39,13 39,22 36,38 38,77 39,73 38,4 40,69 38,8 40,42 38,53 36,79 38,73 38,55 35,69 35,45 36,51 36,73 32,69 33,19 33,34 33,17 34 38,52 36,98 36,79 36,96 38,21 38,38 38,47 36,47 2.0 1.5 1.0 .5 0.0 • ED: acidi • KRH: basici • STQN: non carichi • AGP: non idrofobici • LVIFMWYC: idrofobici Continua fino a convergenza. 2.0 CLASS -.5 3.00 -1.0 2.00 DIM_2 -1.5 -2.0 1.00 -1.5 -1.0 -.5 0.0 .5 1.0 1.5 2.0 DIM_1 Analisi cluster 1.5 1.0 # .5 0.0 CLASS -.5 Risultato: dendrogramma 3.00 -1.0 2.00 DIM_2 -1.5 -2.0 1.00 2.0 -1.5 DIM_1 -1.0 -.5 0.0 .5 1.0 1.5 Metodi gerarchici: Il numero di cluster non è definito a priori. 2.0 # 4 1.5 1.0 2 Metodi non gerarchici: Il numero di cluster è definito a priori. Risultato: gruppi separati .5 0 0.0 # Metodi divisivi: Parto dalla radice per arrivare alle foglie. # Metodi agglomerativi: Parto dalle foglie per arrivare alle radici. CLASSE CLASS -.5 -2 3.00 -1.0 REGR factor score 2 for analysis -4 DIM_2 -1.5 -3 -2.0 -2 -1.5 -1 -1.0 0 -.5 0.0 REGR factor score 1 for analysis DIM_1 2.00 1 1.00 1 .5 2 1 1.0 3 1.5 3.00 2.00 1.00 2.0 ANALISI CLUSTER Dendrogramma non gerarchica radice gerarchica agglomerativi divisivi complete single foglie dell’albero average correlazione euclidea … Esempio Analisi CLUSTER gerarchica 4 3 1 – procedimento agglomerativo – 6 5 Punto di partenza : matrice di distanza 2 1 Prendo la distanza minima e collego i due punti corrispondenti. radice 2 3 1 2 3 4 foglie dell’albero 5 Ricalcolo la matrice di distanza. Prendo la distanza minima della nuova matrice di distanza e collego i due punti corrispondenti. 6 4 Ricalcolo la matrice di distanza. … … Esempio Matrice di distanza iniziale 1 2 3 4 5 1 0 1 2 1.2 1.3 2 1 0 7 2.01 4.5 3 2 7 0 3.2 4 4 1.2 2.01 3.2 0 1.1 5 1.3 4.5 4 1.1 0 A 3 4 5 A 0 4.5 1.6 2.9 3 4.5 0 3.2 4 4 1.6 3.2 0 1.1 5 2.9 4 1.1 0 A 3 B A 0 4.5 2.2 3 4.5 0 5.2 B 2.2 5.2 0 A 1 2 1 C 2 4 5 B A B A 1 2 4 C 3 C 0 4.8 3 4.8 0 1 2 4 5 3 5 Metodi NON gerarchici 1 (posiziono a caso 3 centri) Analisi CLUSTER non gerarchica – K-Means – Inizializzazione random dei centri dei clusters # Iterazione: " riassegna le osservazioni al centro più vicino " ricalcola le medie dei cluster # Termina a convergenza 2 (assegno i punti al centro più vicino) # 3 (ricalcolo i centri) 4 (riassegno i punti) Note: $ veloce $ Come selezionare k ? $ Ho gruppi e non relazioni tra gruppi. … fino a convergenza … ancora sulle distanze … Single Come definiamo la distanza tra gruppi? " single linkage " complete linkage " average linkage Complete dati originali Average … ancora sulle distanze … Complete " " Distanze diverse danno risultati diversi ! Definizione degli obiettivi dello studio Definizione della distanza Euclidea Correlazione di Pearson Single Livelli vs. Pattern … ancora sulle distanze … Var. 1 Var. 2 … Var. m 1 x11 x12 … x1m … … … … … n xn1 xn2 … xnm # Distanza euclidea : Raggruppa soggetti con livelli simili di valori delle variabili. Ogni profilo può essere inserito in un grafico … 1 X # Indice di correlazione di Pearson : Raggruppa soggetti con 2 andamenti simili dei valori delle variabili. 1 2 3 4 m Esempio Distanza euclidea Correlazione di Pearson Variabili Ross et al. (2000) Nature Gen. 24: 227-235 Esempio La classificazione molecolare dei tumori – I linfomi • Lymphochip -18,000 trascritti • 46 DLBCL, 9 FL, 11 CLL • 96 esperimenti in tutto • esperimenti di controllo Alizadeh et al. (2000) Nature 403: 503-511 • Le tre patologie DLBCL, FL e CLL sono separate chiaramente. • CLL e FL sono raggruppate insieme a “resting B cell”. . tumori relativamente lenti • La maggiore differenza tra CLL e FL si ha nel profilo “germinal centre B”. Curve di Kaplan-Meier (curve di sopravvivenza) • Focalizzandosi sui geni del profilo “germinal centre B” riescono ad evidenziare 2 grandi gruppi tra i DLBCL. • Questi due gruppi sono evidenziati dall’espressione differenziale di centinaia di geni. • I due gruppi sembrano essere correlati a diversi stadi di differenziazione e attivazione delle cellule tipo B. Alizadeh et al. (2000) Nature 403: 503-511 Analisi discriminante (Machine Learning) Alizadeh et al. (2000) Nature 403: 503-511 • I due gruppi di DLBCL devono essere considerati come due malattie distinte, senza però eliminare l’ipotesi di ulteriori divisioni al loro interno. • I profili evidenziati potrebbero essere usati come indicatori prognostici della patologia. • Non sono ancora stati identificati geni particolarmente correlati ad una migliore risposta al trattamento chemioterapico. Analisi discriminante " SUPPORT VECTOR MACHINE (SVM) Perché ? Fase di calibrazione Perché imparano Training set " LINEAR DISCRIMINANT ANALYSIS (LDA) " QUADRATIC DISCRIMINANT ANALYSIS " NEURAL NETWORKS (NNET) NON parametrici Parametrici " RECURSIVE PARTITIONING (RPART) Fase di predizione Test set " k-NEAREST NEIGHBOUR Problema: $ Parametrici: Fanno forti assunzioni sui dati (normalità, varianza Se il training set è troppo diverso dal test set, l’analisi non è robusta. robusta $ Non parametrici: Non fanno assunzioni sui dati, ma hanno spesso uguale, …). bisogno di un un training set molto grande. Analisi discriminante lineare Analisi discriminante lineare vs. Analisi delle componenti principali Funzione discriminante In base al valore della funzione discriminante si classifica una nuova osservazione in una delle due classi iniziali. Analisi discriminante quadratica Funzione discriminante In base al valore della funzione discriminante si classifica una nuova osservazione in una delle due classi iniziali. Il metodo stima la varianza all’interno di ogni classe, quindi bisogna avere un numero elevato di untià statistiche per classe. % LDA utilizza una combinazione lineare delle variabili iniziali in modo da separare i due gruppi. % PCA utilizza combinazioni lineari delle variabili originali per catturare porzioni diverse di variabilità dei dati. Confusione Matrice di confusione Matrice dei dati Il risultato di un’analisi discriminante è generalmente riportato sotto forma di matrice di confusione e di errore di classificazione. classificazione Matrice iniziale x1,2 x1,3 object 2 object 3 ... object i object i+1 object i+2 ... object n-1 object n Predictor variables Criterion variable variable 2 ... variable p class x2,1 xp,1 ... A x2,2 xp,2 ... A x2,3 x ... A p,3 ... x1,i ... x2,i ... ... ... xp,i ... B x1,i+1 x1,i+2 ... x1,n-1 x1,n x2,i+1 x2,i+2 ... x2,n-1 x2,n ... xp,i+1 xp,i+2 B xp,n-1 xp,n K ... ... ... predetti originali variable 1 x1,1 object 1 B K variable 1 x1,1 x1,2 x1,3 object 2 object 3 ... object i object i+1 object i+2 ... object n-1 object n 1 2 … n 3 2 … 0 2 1 5 … 1 … … … … … n 1 0 … 5 Classificazione errata Matrice finale object 1 1 Predictor variables variable 2 ... variablep x2,1 xp,1 ... x2,2 xp,2 ... x2,3 xp,3 ... A B A ... K 1 2 3 xp,i+1 xp,i+2 B B B B 1 3 2 0 xp,n-1 xp,n K K K K 2 1 5 1 3 1 0 5 ... x2,i ... ... ... xp,i x1,i+1 x1,i+2 ... x1,n-1 x1,n x2,i+1 x2,i+2 ... x2,n-1 x2,n ... ... ... Somma delle classificazioni errate Totale unità statistiche Error rate = A ... B ... x1,i ... C riterionvariable know n predicted A A Classificazione corretta Error rate = 5/18 = 0.27 = 27% Applicazione Matrice di confusione I metodi discriminanti sono altamente dipendenti dalle classi definite dall’utente. L’errata classificazione potrebbe essere indice di: % errata divisione in classi; % training set errato; % effettiva omogeneità dei dati. In alcuni casi la matrice di confusione può dare degli indizi sulle similarità delle osservazioni statistiche. Alu originali predetti 1 2 … n 1 3 2 … 0 2 1 5 … 1 … … … … … n 1 0 … 5 A volte la classe predetta potrebbe avere un significato biologico. Y Matrici di confusione Applicazione Applicazion van’t Veer et al. (2002) Nature 415: 530-536 • Chemioterapia e terapia ormonale riduce di un terzo il rischio di recidive. • 70%-80% delle pazienti che ricevono questi trattamenti avrebbero comunque avuto un esito positivo. • 98 primary breast cancer Gli errori di classificazione sembrano ricalcare molto bene le linee migratorie dell’Homo Sapiens ipotizzate attraverso studi antropologici. • 34 distant metastasis, 44 disease-free, 18 con mutazioni in BRCA1, 2 con mutazioni su BRCA2 • Distant metastasis: comparsa di metastasi nei cinque anni successivi alla mastectomia Prima analisi esplorativa su tutti i campioni disponibili • La presenza di cellule tumorali nei linfonodi al momento della diagnosi è considerato un elemento aggravante per la prognosi. • 78 casi lymph-node negative, 44 disease-free, 34 distant metastasis van’t Veer et al. (2002) Nature 415: 530-536 • Con 70 geni ottengono un errore di class. del 10%.