Tecniche di analisi multivariata

Tecniche di analisi multivariata∗
• Metodi che fanno riferimento ad un modello distributivo assunto per le osservazioni e alla base degli sviluppi inferenziali tecniche collegate allo studio della dipendenza (modello lineare generale, modelli lineari generalizzati), approccio confermativo (logica del giustificare). Applicazioni prevalentemente
nell’ambito delle scienze sperimentali.
• Metodologie giustificate prevalentemente da argomenti logicointuitivi - metodi di analisi dei dati, metodi esplorativi, statistica descrittiva multidimensionale, procedure di analisi euristiche, di carattere intuitivo-analogico (logica del trovare).
Applicazioni prevalentemente in ambito socio-economico.
∗ A.
Pollice - Statistica Multivariata
Analisi discriminante
• Insieme di metodologie che permettono di assegnare una
generica osservazione x ad una delle p sottopopolazioni X1, . . . , Xp
in cui è suddiviso un universo campionario k-dimensionale X
• R. A. Fisher (1936): attribuizione di alcuni reperti fossili
alla categoria dei primati o a quella degli umanoidi in base a
diverse misurazioni effettuate sugli stessi
Funzione discriminante lineare di Fisher
• L’obiettivo è quello di individuare la sottopopolazione di appartenenza di un’osservazione multidimensionale x in base
alla conoscenza campionaria del comportamento delle p sottopopolazioni X1, . . . , Xp sulle quali non viene effettuata alcuna assunzione distributiva
• A tal fine si dispone di n osservazioni k-dimensionali già correttamente classificate nelle p sottopopolazioni, ovvero di p
campioni X1, . . . , Xp di numerosità nj da ciascuna sottopopolazione Xj con j = 1, . . . , p
• L’assegnazione dell’osservazione x viene effettuata tramite
una combinazione lineare W = a0X delle k componenti della
variabile X rilevata
• Il vettore k-dimensionale di costanti a deve essere tale da
massimizzare la separazione (o discriminazione) tra i p campioni in modo da rendere meno ambigua la classificazione
dell’osservazione w = a0x
• Ciò corrisponde a rendere massima la differenza tra le medie
di W nei p campioni
• matrice nj × k del j-esimo campione


x11j · · · x1kj

...  = [x ]
Xj =  ...

ihj
xnj 1j · · · xnj kj
• j-esimo vettore k-dimensionale delle medie campionarie
X̄j =
1 0
Xj unj = (X̄1j , . . . , X̄kj )0
nj
• j-esima matrice k × k delle varianze e covarianze campionarie
1
Sj = (Xj − unj X̄j0 )0(Xj − unj X̄j0 ) = [Shlj ]
nj
• matrice n × k di tutte le osservazioni disponibili
X = (X10 , . . . , Xp0 )0
• vettore k-dimensionale delle medie campionarie complessive
X̄ =
1 0
X un = (X̄1, . . . , X̄k )0
n
• matrice k × k delle varianze e covarianze campionarie complessive
1
S = (X − unX̄ 0)0(X − unX̄ 0) = [Shl ]
n
• vettore n-dimensionale di tutte le osservazioni disponibili trasformate
W = Xa
• media di tutte le osservazioni disponibili trasformate
W̄ = a0X̄
• varianza di tutte le osservazioni disponibili trasformate
2 = a0 Sa
SW
• scomposizione della matrice di varianze e covarianze campionarie S
S = S(w) + S(b)
Pp
n
– S(w) = j=1 nj Sj matrice di varianze e covarianze all’in-
terno dei p campioni (within)
– S(b) matrice di varianze e covarianze tra i p campioni
(between)
• scomposizione della varianza campionaria di W
2 = a0 Sa = a0 S
0S a
SW
a
+
a
(w)
(b)
• Per definire W bisogna individuare il vettore a che massimizza
le differenze tra le medie campionare W̄1, . . . , W̄p, ovvero la
varianza between di W a0S(b)a
• Vincolo sulla dimensione di a dato dall’espressione a0Sa = 1,
che corrisponde a pretendere che W abbia varianza unitaria.
• Problema di massimo vincolato:
(
maxa a0S(b)a
a0Sa = 1
• Funzione lagrangiana
£(a, λ) = a0S(b)a − λ(a0Sa − 1)
• Sistema per la soluzione del problema di massimo vincolato

(

 ∂ £(a,λ) = 2S a − 2λSa = o
λ = a0S(b)a
(b)
∂a
=
0 Sa = 1

∂
£
(a,λ)
0
a

= a Sa − 1 = 0
∂λ
• S −1S(b)a = λa implica che λ è uno degli autovalori di S −1S(b)
ed a è l’autovettore ad esso associato
• affinché sia λ = a0S(b)a = max, bisogna scegliere il massimo
tra gli autovalori
• Sia a1 l’autovettore associato al maggiore degli autovalori λ1
• prima funzione discriminante lineare: combinazione lineare
delle componenti della variabile k-dimensionale di partenza
che separa maggiormente i p campioni
W(1) = a0(1)X
• l’autovalore λ1, equivalente alla varianza between della variable W(1), è detto potere discriminante di W(1) e ne misura
la capacità di separare le medie dei p campioni
• La seconda funzione discriminante lineare W(2) deve soddisfare la condizione di massimo e il vincolo precedenti, e deve
essere incorrelata con W(1)
W(2) = a0(2)X
• il vettore a(2) è dato dalla soluzione del sistema

0 S a

max
a
a

(2) (2) (b) (2)


a0(2)Sa(2) = 1



 a0 Sa(2) = 0
(1)
• funzione lagrangiana
£(a(2), µ1, µ2) = a0(2)S(b)a(2) −µ1(a0(2)Sa(2) −1)−2µ2a0(1)Sa(2)
• sistema per la soluzione del problema di massimo vincolato

∂ £(a(2) ,µ1 ,µ2 )



= 2S(b)a(2) − 2µ1Sa(2) − 2µ2Sa(1) = o

∂a(2)


∂ £(a,µ1 ,µ2 )
= a0(2)Sa(2) − 1 = 0

∂µ
1




 ∂ £(a,µ1,µ2) = a0 Sa
(2) = 0
∂µ2
(1)
• dopo qualche passaggio algebrico la prima equazione del
sistema diventa
S −1S(b)a(2) = µ1a(2)
• µ1 = λ2 è il secondo maggiore autovalore della matrice S −1S(b)
ed a(2) è l’autovettore corrispondente e tale che a0(2)Sa(2) = 1
• tante funzioni discriminanti lineari quanti sono gli autovalori
non nulli della matrice S −1S(b) (numero pari al rango della
matrice g = r(S −1S(b)))
• in genere si considera un numero t < g di funzioni discriminanti
• misura del potere discriminante complessivo delle prime t
funzioni discriminanti
Pt
Pt
λ
q=1 q
q=1 λq
=
Pg
λ
tr(S −1S(b))
q=1 q
• Se si considerano t funzioni discriminanti lineari, l’osservazione
x è assegnata alla sottopopolazione j ∗-esima tale che, calcolato per q = 1, . . . , t, si abbia
t
X
q=1
|w(q) − W̄(q),j ∗ | = min
j
t
X
|w(q) − W̄(q),j |
q=1
dove w(q) = a0(q)x è il valore dell’osservazione non classificata
x corrispondente alla q-esima funzione discriminante e W̄(q),j
è la media di W(q) nel j-esimo campione
• L’output di un’analisi discriminante deve includere il rango
del modello discriminante (t), la posizione di ciascuna sua
dimensione rispetto al riferimento originario (i vettori a(q)),
la posizione dei p campioni di osservazioni nel sottospazio
delle variabili discriminanti (le medie W̄(q),j )
Funzioni discriminanti di massima verosimiglianza - sottopopolazioni normali con parametri
noti
• La j-esima sottopopolazione abbia una certa distribuzione
k-dimensionale pj (x) nota nella forma e nei parametri per
j = 1, . . . , p
• L’osservazione x è classificata nel gruppo per il quale la
verosimiglianza è massima
pj ∗ (x) ≥ pj (x)
∀j 6= j ∗
r = 1, . . . , p
implica che x sia classificata nella j ∗-esima sottopopolazione
• Assunzione distributiva di normalità delle sottopopolazioni
pj (x) = Nk (µj , Σj )
si assume che µj e Σj siano noti
• Funzione discriminante quadratica: l’osservazione x è assegnata alla j ∗-esima sottopopolazione se vale
1
1
0 Σ−1 (x − µ )
∗
(x
−
µ
)
τj ∗ − (x − µj ∗ )0Σ−1
(x
−
µ
)
=
max
τ
−
∗
j
j
j
j
j
j
j
2
2
con τj = − 1
2 ln |Σj |
• Funzione discriminante lineare: se si può assumere Σ1 =
· · · = Σp = Σ, la funzione discriminante quadratica diventa
αj ∗ + x0Σ−1µj ∗ = max αj + x0Σ−1µj
j
0 Σ−1 µ
µ
con αj = − 1
j
2 j
Funzioni discriminanti di massima verosimiglianza - sottopopolazioni normali con parametri
incogniti
• Se i parametri delle delle sottopopolazioni µ1, . . . , µp e Σ sono
incogniti bisogna stimarli
• tramite la matrice X = (X10 , . . . , Xp0 )0 si calcolano le medie X̄j
campionarie e la matrice di varianze e covarianze within del
campione S(w)
• la funzione discriminante lineare diventa
1
1 0 −1
−1
−1
−1
0
0
− (X̄j ∗ ) S(w)X̄j ∗ + x S(w)X̄j ∗ = max − X̄j S(w)X̄j + x0S(w)
X̄j
j
2
2
Analisi discriminante bayesiana
• Alle sottopopolazioni sono assegnate delle probabilità di appartenenza a priori πj = Pr(x ∈ Xj ) per j = 1, . . . , p
• il teorema di Bayes permette di calcolare le probabilità a
posteriori che aggiornano le probabilità a priori tramite le
osservazioni campionarie
Pr(x ∈ Xj |x) =
Pr(x ∈ Xj ) Pr(x|x ∈ Xj)
Pr(x)
πj pj (x)
= Pp
j=1 πj pj (x)
essendo p1, . . . , pp le distribuzioni completamente specificate
del carattere X nelle p sottopopolazioni
• l’osservazione x viene attribuita alla sottopopolazione j ∗ che
ha la massima probabilità a posteriori di averla generata
p(Xj ∗ |x) = max p(Xj |x)
j
Minimizzazione del costo atteso di errata classificazione
• p = 2 sottopopolazioni k-dimensionali X1 e X2 con distribuzioni p1 e p2
• Ω = Ω1 ∪ Ω2 spazio campionario k-dimensionale dei possibili
valori di x
• x ∈ Ω1 ⇒ x viene assegnata alla prima sottopopolazione
x ∈ Ω2 ⇒ x viene assegnata alla seconda sottopopolazione
• probabilità a priori delle due sottopopolazioni:
π1 = Pr(x ∈ X1), π2 = Pr(x ∈ X2)
• probabilità complessiva di una classificazione errata
Pr[(x ∈ Ω1) ∩ (x ∈ X2)] + Pr[(x ∈ Ω2) ∩ (x ∈ X1)] =
= Pr(x ∈ X2) Pr[x ∈ Ω1|x ∈ X2]+Pr(x ∈ X1) Pr[x ∈ Ω2|x ∈ X1] =
= · · · = π1 +
Z
Ω1
π2p2(x) − π1p1(x)dx
• la probabilità di classificazione errata è minima quando Ω1
contiene elementi tali che
π2p2(x) − π1p1(x) < 0 =⇒
p1(x)
π
> 2
p2(x)
π1
• regola di classificazione:
p1(x)
π
> 2 ⇒ x ∈ X1
p2(x)
π1
p1(x)
π2
<
⇒ x ∈ X2
p2(x)
π1
• c(1|2) e c(2|1) perdite che si determinano assegnando erroneamente l’osservazione x alla sottopopolazione X1 e alla
sottopopolazione X2
• perdita attesa complessiva:
c(1|2) Pr[(x ∈ Ω1)∩(x ∈ X2)]+c(2|1) Pr[(x ∈ Ω2)∩(x ∈ X1)] =
= · · · = c(2|1)π1 +
Z
Ω1
c(1|2)π2p2(x) − c(2|1)π1p1(x)dx
• la perdita attesa complessiva risulta minima quando Ω1 contiene elementi tali che
c(1|2)π2p2(x) − c(2|1)π1p1(x) < 0
=⇒
• regola di classificazione:
c(1|2)π2
p1(x)
>
⇒ x ∈ X1
p2(x)
c(2|1)π1
p1(x)
c(1|2)π2
<
⇒ x ∈ X2
p2(x)
c(2|1)π1
c(1|2)π2
p1(x)
>
p2(x)
c(2|1)π1
Stima della probabilità di errata classificazione
(due gruppi)
• Metodo parametrico: forma distributiva nota delle due sottopopolazioni, parametri θ1 e θ2 stimati. Probabilità complessiva di errata classificazione:
π2
Z
Ω1
p2(x|θ̂2)dx + π1
Z
Ω2
p1(x|θ̂1)dx
• Metodi non parametrici
– Tassi di errore apparenti: le osservazioni dei due campioni
estratti da ciascuna delle sottopopolazioni sono riclassificate tramite la regola di decisione prescelta. Il tasso di
errore è ottenuto calcolando la frazione di osservazioni
classificate erroneamente
– Cross-validation (sample splitting): ciascun campione viene
suddiviso in due parti di cui una viene utilizzata per definire
la regola di classificazione e l’altra per valutarla, calcolando la proporzione degli individui classificati in modo sbagliato
– Cross-validation (leave one out): si prendono in considerazione n1 − 1 osservazioni del primo campione e tutte le
n2 osservazioni del secondo per determinare la regola discriminante. In base ad essa si classifica l’osservazione esclusa dal primo campione. Il procedimento esposto viene
ripetuto escludendo volta per volta ciascuna osservazione
del primo e successivamente ciascuna osservazione del
secondo campione