Analisi multivariata Parte 3 : Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Cercare di capire le relazioni che intercorrono tra le variabili Introdurre tante variabili in un’analisi non ha molto senso, né al livello biologico, né al livello statistico. ! ! ! ! Il modello diventa troppo complesso. Diventa difficile interpretare i risultati. Le stime dei parametri diventano molto instabili. Più parametri inseriamo, più osservazioni ci vogliono per stimarli. Eliminiamo le variabili che sono molto correlate tra di loro. Se due variabili sono molto correlate, allora l’informazione di una è contenuta quasi completamente nell’altra. Dati multivariati Statistica multivariata Variabili statistiche analisi (prevalentemente) simmetrica rappresentare un numero elevato di variabili per mezzo di un numero inferiore di variabili ipotetiche (o latenti), i cosiddetti fattori Unità statistiche ! Analisi fattoriale ! Regressione multipla Var. 1 Var. 2 … Var. m 1 x11 x12 … x1m 2 x21 x22 … x2m … … … … … n xn1 xn2 … xnm analisi asimmetrica formulare opportuni modelli descrittivi/interpretativi osservazioni, rilevazioni, … Matrice dei dati (n!m) : n righe, m colonne con n!m valori Covarianza Misure di concordanza Variabili statistiche Concordanza positiva Concordanza negativa Unità statistiche Voglio un indice (una misura) che mi dica il grado di concordanza tra i valori di una variabile X con quelli di una variabile Y. Var. 1 Var. 2 … Var. m 1 x11 x12 … x1m 2 x21 x22 … x2m … … … … … n xn1 xn2 … xnm x.1 x.2 x.m Covarianza : indice della relazione (lineare) tra due variabili Assenza di concordanza k Correlazione Matrice di covarianza Varianza : indice di dispersione Covarianza : indice di relazione Diagonale principale: varianza della variabile ima k Altre celle: covarianza tra variabili Correlazione : indice di relazione normato Quadrata e simmetrica k … e se le variabili sono di tipo qualitativo ? k chi-quadro – indici di associazione – Associazione nominali … tra due variabili quantitative: indice di correlazione ordinali Coefficiente ! # di Kendall … tra due variabili qualitative: indice del chi-quadro D di Somers … tra variabile quantitativa e qualitativa: Coefficiente di contingenza Sia X categoriale con categorie 1, 2, …, k. Sia Y numerica. Allora: … Coefficiente " dove le Yi sono le medie dei valori di Y a cui è associata la modalità ima della variabile X. Analisi della varianza ad una via Assumendo: Coefficiente V di Cramér Statistica multivariata • indipendenza dei campioni e delle osservazioni • normalità dei dati ! Analisi fattoriale • varianze all’interno dei k gruppi uguali (test F/test di Levene) Varianza entro gruppi Varianza tra gruppi 2 $ 2B $ w F = $2B / $2w ~ Fk-1, n-k analisi (prevalentemente) simmetrica rappresentare un numero elevato di variabili per mezzo di un numero inferiore di variabili ipotetiche (o latenti), i cosiddetti fattori ! Regressione multipla analisi asimmetrica formulare opportuni modelli descrittivi/interpretativi Metodi multivariati - 1 Ross et al. (2000) Nature Gen. 24:227-235 Riduzione di dimensione ! componenti principali (PCA) ! multidimensional scaling (MDS) Analisi fattoriale Analisi di raggruppamento tecnica descrittiva Analisi discriminante - analisi di segmentazione/cluster - analisi interna tecnica predittiva (unsupervised learning) - classificazione (machine/supervised learning) Metodi multivariati - 2 Regressione lineare - risposta continua - predittori continui/categoriali Regressione multipla Regressione logistica - risposta binaria - predittori continui/categoriali - dati di durata - predittori continui/categoriali Alizadeh et al. (2000) Nature 403: 503-511 Modello di regressione Quando ho una variabile risposta Y e tante variabili esplicative Xi , si può ipotizzare di “spiegare” la relazione tra Y e le Xi attraverso un modello lineare (nei parametri). Dati di sopravvivenza Minimi quadrati Come stimare i parametri ? Metodo dei minimi quadrati (MMQ) Nel caso univariato semplice lavoriamo in un piano; man mano che aumentano le Xi aumentano le dimensioni dello spazio. Caso univariato semplice Y = %0 + %1 X1 + & Esempio: y = %0 + %1 x1 + %2 x2 + & Lavoriamo in 3 dimensioni. Caso multivariato Y = %0 + %1 X1 + %2 X2 + " + %k Xk + & Qui & è la componente casuale che si suppone abbia media nulla e varianza costante pari a $ 2. Logica – Rendiamo minima la differenza tra i valori osservati (blu) e quelli predetti dal modello (rossi): min ' i [ yi – (%0 + %1 X1i + %2 X2i + " + %k Xki )]2 Minimi quadrati Minimi quadrati Caso monovariato (una sola variabile esplicativa): Come stimare i parametri ? Metodo dei minimi quadrati (MMQ) Y = %0 + %1 X1 + & Allora, in base al MMQ: b0 = y – b1 X1 b1 = Cov(X,Y) Var(X) Caso multivariato: b = (X!X)-1 X!y dove X è la matrice dei dati. Var. 2 … Var. m x11 x12 … x1m 2 x21 x22 … x2m … … … … … n xn1 xn2 … xnm Analisi dei residui Analisi di regressione Il mio modello è un buon modello ? Var. 1 1 Residui vs. valori predetti R2 È la percentuale della variabilità spiegata dal modello rispetto alla variabilità totale. Più tende a 1 più il modello è buono. Test sui parametri Deviazioni dalla casualità indicano una specificazione errata del modello. Può essere utile fare delle verifiche di ipotesi sul valore dei singoli parametri. Se H0 : %i = 0 Residui vs. xi non è rifiutata allora la variabile può essere eliminata senza perdita di informazione. Analisi grafica dei residui I residui ottenuti dal modello, in base al modello che abbiamo utilizzato, dovrebbero essere quantità con media nulla e varianza costante. Quindi, ci aspettiamo che siano omogeneamente distribuiti intorno allo zero. Analisi dei residui Una terza condizione necessaria per poter fare inferenza sul modello (parametri e R2) è la NORMALITÀ del termine d'errore. Confondente vs Modificatore d'effetto (interazione) Q-Q plot MM M F F Confondente vs Modificatore d'effetto (interazione) Scelta del modello Quante e quali variabili inserire nel modello quando se ne hanno a disposizione molte ? Y = %0 + %1 X1 + %2 X2 + … + %k Xk + & Regressione step-wise M 1. Parto dal modello con una variabile: forward Y = %0 + %1 X1 + & F … e man mano ne aggiungo un'altra. Se l’inclusione della variabile è significativa, la tengo; altrimenti, la scarto. M F 2. Parto dal modello completo: backward Y = %0 + %1 X1 + %2 X2 + … + %k Xk + & … e man mano ne levo una. Se l’esclusione della variabile è significativa, la tengo; altrimenti, la scarto. Modello di regressione casi particolari Modello di regressione logistico Le analisi fatte finora sono valide se Y è una variabile numerica. E se non lo fosse ? E se la variabile (o le variabili) X sono delle variabili categoriali (fattori) ? Il modello lineare non è altro che un'analisi della varianza ad una o a più vie. Yij = %0 + (i + %j + &ij In questo caso la matrice X è una matrice di “dummies” (cioè di zeri e uno). Età e sintomi di malattia coronarica (CHD) Età CHD Età CHD Età CHD 22 23 24 27 28 30 30 32 33 35 38 0 0 0 0 0 0 0 0 0 1 0 40 41 46 47 48 49 49 50 51 51 52 0 1 0 0 0 1 0 1 0 1 0 54 55 58 60 60 62 65 67 71 77 81 0 1 1 1 0 1 1 1 1 1 1 Modello di regressione logistico Modello di regressione logistico grafico di dispersione / a punti tabella della prevalenza % Malati Gruppo d’età # in gruppo 20 -29 5 # 0 % 0 30 - 39 6 1 17 40 - 49 7 2 29 50 - 59 7 4 57 60 - 69 5 4 80 70 - 79 2 2 100 80 - 89 1 1 100 Malati % Divido in classi d’età. 0 con probabilità ) Y= 1 con probabilità 1-) 100 80 Utilizzo le percentuali all’interno delle classi. 60 40 20 0 0 1 2 3 4 Età (anni) 5 6 7 Modello di regressione logistico Vantaggi del logit " " " " " 1.0 0.8 Probabilità di malattia e !+"x 1 +e !+"x 0.6 P # y$ x %= 0.4 0.2 Transformazione semplice di P(y|x) Relazione lineare con x ... ... e continua (logit tra - ' to + ') Distribuzione nota: binomiale (P tra 0 ed 1) Diretto legame con la nozione di odds di malattia 0.0 x ln [ ln ] P# y$x % =! +"x 1 &P# y$x % [ ] P # y$ x % =! +"x 1&P # y$x % logit of P(y|x) Interpretazione di % Esposizione (x) Malati (y) Si Si P # y$x=1 % No No P # y$x=0 % 1& P # y$x=1 % 1& P # y$x= 0 % Esempio Rischio di sviluppare malattia delle arterie coronarie in accordo con età (< 55 e 55+ anni) CHD 55+ (1) < 55 (0) Present (1) 21 22 Absent (0) 6 51 Odds of disease among exposed = 21/6 Odds of disease among unexposed = 22/51 odds d$e = e !+" odds d$(e = e ! !+" e " =e e! ln #OR % = " OR = Modello di regressione logistico ln # % P 1 -P = ! + " Age = &0 .841 + 2. 094 Age Coefficient SE Coeff/SE 2.094 -0.841 0.529 0.255 3.96 -3.30 Age Constant Log-odds = 2.094 OR = e2.094 = 8.1 Regressione logistica multipla ) Più di una variabile indipendente dicotomica, ordinale, nominale, continua, … ) Interpretazione di %i incremento del log odds per un incremento unitario di xi con tutte le altre xj constanti Odds ratio = 8.1