Statistica multivariata

annuncio pubblicitario
Analisi multivariata
Parte 3 :
Statistica multivariata
Quando il numero delle variabili rilevate sullo
stesso soggetto aumentano, il problema diventa
gestirle tutte e capirne le relazioni.
Cercare di capire le relazioni che intercorrono tra le variabili
Introdurre tante variabili in un’analisi non ha molto senso, né al livello
biologico, né al livello statistico.
!
!
!
!
Il modello diventa troppo complesso.
Diventa difficile interpretare i risultati.
Le stime dei parametri diventano molto instabili.
Più parametri inseriamo, più osservazioni ci vogliono per stimarli.
Eliminiamo le variabili che sono molto correlate tra di loro.
Se due variabili sono molto correlate, allora l’informazione di una è
contenuta quasi completamente nell’altra.
Dati multivariati
Statistica multivariata
Variabili statistiche
analisi (prevalentemente) simmetrica
rappresentare un numero elevato di variabili per mezzo di un
numero inferiore di variabili ipotetiche (o latenti), i cosiddetti
fattori
Unità
statistiche
! Analisi fattoriale
! Regressione multipla
Var. 1
Var. 2
…
Var. m
1
x11
x12
…
x1m
2
x21
x22
…
x2m
…
…
…
…
…
n
xn1
xn2
…
xnm
analisi asimmetrica
formulare opportuni modelli descrittivi/interpretativi
osservazioni, rilevazioni, …
Matrice dei dati (n!m) : n righe, m colonne con n!m valori
Covarianza
Misure di concordanza
Variabili statistiche
Concordanza positiva
Concordanza negativa
Unità
statistiche
Voglio un indice (una misura) che mi dica il grado di concordanza tra i valori di
una variabile X con quelli di una variabile Y.
Var. 1
Var. 2
…
Var. m
1
x11
x12
…
x1m
2
x21
x22
…
x2m
…
…
…
…
…
n
xn1
xn2
…
xnm
x.1
x.2
x.m
Covarianza : indice della relazione (lineare) tra due variabili
Assenza di concordanza
k
Correlazione
Matrice di covarianza
Varianza : indice di dispersione
Covarianza : indice di relazione
Diagonale principale: varianza della variabile ima
k
Altre celle: covarianza tra variabili
Correlazione : indice di relazione normato
Quadrata e simmetrica
k
… e se le variabili sono di tipo qualitativo ?
k
chi-quadro
– indici di associazione –
Associazione
nominali
… tra due variabili quantitative:
indice di correlazione
ordinali
Coefficiente !
# di Kendall
… tra due variabili qualitative:
indice del chi-quadro
D di Somers
… tra variabile quantitativa e qualitativa:
Coefficiente di contingenza
Sia X categoriale con categorie 1, 2, …, k.
Sia Y numerica.
Allora:
…
Coefficiente "
dove le Yi sono le medie dei valori di Y a cui è associata la modalità
ima della variabile X.
Analisi della varianza ad una via
Assumendo:
Coefficiente V di Cramér
Statistica multivariata
• indipendenza dei campioni e delle osservazioni
• normalità dei dati
! Analisi fattoriale
• varianze all’interno dei k gruppi uguali (test F/test di Levene)
Varianza entro gruppi
Varianza tra gruppi
2
$ 2B
$
w
F = $2B / $2w ~ Fk-1, n-k
analisi (prevalentemente) simmetrica
rappresentare un numero elevato di variabili per mezzo di un
numero inferiore di variabili ipotetiche (o latenti), i cosiddetti
fattori
! Regressione multipla
analisi asimmetrica
formulare opportuni modelli descrittivi/interpretativi
Metodi multivariati - 1
Ross et al. (2000) Nature Gen. 24:227-235
Riduzione di dimensione
! componenti principali (PCA)
! multidimensional scaling (MDS)
Analisi fattoriale
Analisi di raggruppamento
tecnica descrittiva
Analisi discriminante
- analisi di segmentazione/cluster
- analisi interna
tecnica predittiva
(unsupervised learning)
- classificazione
(machine/supervised learning)
Metodi multivariati - 2
Regressione lineare
- risposta continua
- predittori continui/categoriali
Regressione
multipla
Regressione logistica
- risposta binaria
- predittori continui/categoriali
- dati di durata
- predittori continui/categoriali
Alizadeh et al. (2000)
Nature 403: 503-511
Modello di regressione
Quando ho una variabile risposta Y e tante variabili esplicative Xi , si può ipotizzare di
“spiegare” la relazione tra Y e le Xi attraverso un modello lineare (nei parametri).
Dati di sopravvivenza
Minimi quadrati
Come stimare i parametri ?
Metodo dei minimi quadrati (MMQ)
Nel caso univariato semplice
lavoriamo in un piano; man mano
che aumentano le Xi aumentano le
dimensioni dello spazio.
Caso univariato semplice
Y = %0 + %1 X1 + &
Esempio: y = %0 + %1 x1 + %2 x2 + &
Lavoriamo in 3 dimensioni.
Caso multivariato
Y = %0 + %1 X1 + %2 X2 + " + %k Xk + &
Qui & è la componente casuale che si suppone abbia media nulla e varianza
costante pari a $ 2.
Logica – Rendiamo minima la differenza tra i valori osservati (blu) e quelli
predetti dal modello (rossi):
min
'
i
[ yi – (%0 + %1 X1i + %2 X2i + " + %k Xki )]2
Minimi quadrati
Minimi quadrati
Caso monovariato (una sola variabile esplicativa):
Come stimare i parametri ?
Metodo dei minimi quadrati (MMQ)
Y = %0 + %1 X1 + &
Allora, in base al MMQ:
b0 = y – b1 X1
b1 =
Cov(X,Y)
Var(X)
Caso multivariato:
b = (X!X)-1 X!y
dove X è la matrice dei dati.
Var. 2
…
Var. m
x11
x12
…
x1m
2
x21
x22
…
x2m
…
…
…
…
…
n
xn1
xn2
…
xnm
Analisi dei residui
Analisi di regressione
Il mio modello è un buon modello ?
Var. 1
1
Residui vs. valori predetti
R2
È la percentuale della variabilità spiegata dal modello rispetto alla variabilità
totale. Più tende a 1 più il modello è buono.
Test sui parametri
Deviazioni dalla casualità
indicano una specificazione errata
del modello.
Può essere utile fare delle verifiche di ipotesi sul valore dei singoli parametri. Se
H0 : %i = 0
Residui vs. xi
non è rifiutata allora la variabile può essere eliminata senza perdita di
informazione.
Analisi grafica dei residui
I residui ottenuti dal modello, in base al modello che abbiamo utilizzato,
dovrebbero essere quantità con media nulla e varianza costante. Quindi, ci
aspettiamo che siano omogeneamente distribuiti intorno allo zero.
Analisi dei residui
Una terza condizione necessaria per poter fare inferenza sul modello
(parametri e R2) è la NORMALITÀ del termine d'errore.
Confondente vs
Modificatore d'effetto (interazione)
Q-Q plot
MM
M
F
F
Confondente vs
Modificatore d'effetto (interazione)
Scelta del modello
Quante e quali variabili inserire nel modello quando se ne hanno a disposizione molte ?
Y = %0 + %1 X1 + %2 X2 + … + %k Xk + &
Regressione step-wise
M
1. Parto dal modello con una variabile:
forward
Y = %0 + %1 X1 + &
F
… e man mano ne aggiungo un'altra. Se l’inclusione della variabile è
significativa, la tengo; altrimenti, la scarto.
M
F
2. Parto dal modello completo:
backward
Y = %0 + %1 X1 + %2 X2 + … + %k Xk + &
… e man mano ne levo una. Se l’esclusione della variabile è significativa,
la tengo; altrimenti, la scarto.
Modello di regressione
casi particolari
Modello di regressione logistico
Le analisi fatte finora sono valide se Y è una variabile numerica.
E se non lo fosse ?
E se la variabile (o le variabili) X sono delle variabili categoriali (fattori) ?
Il modello lineare non è altro che un'analisi della varianza ad una o a più vie.
Yij = %0 + (i + %j + &ij
In questo caso la matrice X è una matrice di “dummies” (cioè di zeri e uno).
Età e sintomi di malattia coronarica (CHD)
Età
CHD
Età
CHD
Età
CHD
22
23
24
27
28
30
30
32
33
35
38
0
0
0
0
0
0
0
0
0
1
0
40
41
46
47
48
49
49
50
51
51
52
0
1
0
0
0
1
0
1
0
1
0
54
55
58
60
60
62
65
67
71
77
81
0
1
1
1
0
1
1
1
1
1
1
Modello di regressione logistico
Modello di regressione logistico
grafico di dispersione / a punti
tabella della prevalenza %
Malati
Gruppo d’età # in gruppo
20 -29
5
#
0
%
0
30 - 39
6
1
17
40 - 49
7
2
29
50 - 59
7
4
57
60 - 69
5
4
80
70 - 79
2
2
100
80 - 89
1
1
100
Malati %
Divido in classi d’età.
0 con probabilità )
Y=
1 con probabilità 1-)
100
80
Utilizzo le percentuali
all’interno delle classi.
60
40
20
0
0
1
2
3
4
Età (anni)
5
6
7
Modello di regressione logistico
Vantaggi del logit
"
"
"
"
"
1.0
0.8
Probabilità
di malattia
e !+"x
1 +e !+"x
0.6
P # y$ x %=
0.4
0.2
Transformazione semplice di P(y|x)
Relazione lineare con x ...
... e continua (logit tra - ' to + ')
Distribuzione nota: binomiale (P tra 0 ed 1)
Diretto legame con la nozione di odds di malattia
0.0
x
ln
[
ln
]
P# y$x %
=! +"x
1 &P# y$x %
[
]
P # y$ x %
=! +"x
1&P # y$x %
logit of P(y|x)
Interpretazione di %
Esposizione (x)
Malati (y)
Si
Si
P # y$x=1 %
No
No
P # y$x=0 %
1& P # y$x=1 %
1& P # y$x= 0 %
Esempio
Rischio di sviluppare malattia delle arterie coronarie in accordo con
età (< 55 e 55+ anni)
CHD
55+ (1)
< 55 (0)
Present (1)
21
22
Absent (0)
6
51
Odds of disease among exposed = 21/6
Odds of disease among unexposed = 22/51
odds d$e = e !+"
odds d$(e = e !
!+"
e
"
=e
e!
ln #OR % = "
OR =
Modello di regressione logistico
ln
# %
P
1 -P
= ! + " Age = &0 .841 + 2. 094 Age
Coefficient
SE
Coeff/SE
2.094
-0.841
0.529
0.255
3.96
-3.30
Age
Constant
Log-odds = 2.094
OR = e2.094 = 8.1
Regressione logistica multipla
) Più di una variabile indipendente
dicotomica, ordinale, nominale, continua, …
) Interpretazione di %i
incremento del log odds per un incremento unitario di
xi con tutte le altre xj constanti
Odds ratio = 8.1
Scarica