Tecniche di analisi multivariata∗ • Metodi che fanno riferimento ad un modello distributivo assunto per le osservazioni e alla base degli sviluppi inferenziali tecniche collegate allo studio della dipendenza (modello lineare generale, modelli lineari generalizzati), approccio confermativo (logica del giustificare). Applicazioni prevalentemente nell’ambito delle scienze sperimentali. • Metodologie giustificate prevalentemente da argomenti logicointuitivi - metodi di analisi dei dati, metodi esplorativi, statistica descrittiva multidimensionale, procedure di analisi euristiche, di carattere intuitivo-analogico (logica del trovare). Applicazioni prevalentemente in ambito socio-economico. ∗ A. Pollice - Statistica Multivariata Analisi discriminante • Insieme di metodologie che permettono di assegnare una generica osservazione x ad una delle p sottopopolazioni X1, . . . , Xp in cui è suddiviso un universo campionario k-dimensionale X • R. A. Fisher (1936): attribuizione di alcuni reperti fossili alla categoria dei primati o a quella degli umanoidi in base a diverse misurazioni effettuate sugli stessi Funzione discriminante lineare di Fisher • L’obiettivo è quello di individuare la sottopopolazione di appartenenza di un’osservazione multidimensionale x in base alla conoscenza campionaria del comportamento delle p sottopopolazioni X1, . . . , Xp sulle quali non viene effettuata alcuna assunzione distributiva • A tal fine si dispone di n osservazioni k-dimensionali già correttamente classificate nelle p sottopopolazioni, ovvero di p campioni X1, . . . , Xp di numerosità nj da ciascuna sottopopolazione Xj con j = 1, . . . , p • L’assegnazione dell’osservazione x viene effettuata tramite una combinazione lineare W = a0X delle k componenti della variabile X rilevata • Il vettore k-dimensionale di costanti a deve essere tale da massimizzare la separazione (o discriminazione) tra i p campioni in modo da rendere meno ambigua la classificazione dell’osservazione w = a0x • Ciò corrisponde a rendere massima la differenza tra le medie di W nei p campioni • matrice nj × k del j-esimo campione x11j · · · x1kj ... = [x ] Xj = ... ihj xnj 1j · · · xnj kj • j-esimo vettore k-dimensionale delle medie campionarie X̄j = 1 0 Xj unj = (X̄1j , . . . , X̄kj )0 nj • j-esima matrice k × k delle varianze e covarianze campionarie 1 Sj = (Xj − unj X̄j0 )0(Xj − unj X̄j0 ) = [Shlj ] nj • matrice n × k di tutte le osservazioni disponibili X = (X10 , . . . , Xp0 )0 • vettore k-dimensionale delle medie campionarie complessive X̄ = 1 0 X un = (X̄1, . . . , X̄k )0 n • matrice k × k delle varianze e covarianze campionarie complessive 1 S = (X − unX̄ 0)0(X − unX̄ 0) = [Shl ] n • vettore n-dimensionale di tutte le osservazioni disponibili trasformate W = Xa • media di tutte le osservazioni disponibili trasformate W̄ = a0X̄ • varianza di tutte le osservazioni disponibili trasformate 2 = a0 Sa SW • scomposizione della matrice di varianze e covarianze campionarie S S = S(w) + S(b) Pp n – S(w) = j=1 nj Sj matrice di varianze e covarianze all’in- terno dei p campioni (within) – S(b) matrice di varianze e covarianze tra i p campioni (between) • scomposizione della varianza campionaria di W 2 = a0 Sa = a0 S 0S a SW a + a (w) (b) • Per definire W bisogna individuare il vettore a che massimizza le differenze tra le medie campionare W̄1, . . . , W̄p, ovvero la varianza between di W a0S(b)a • Vincolo sulla dimensione di a dato dall’espressione a0Sa = 1, che corrisponde a pretendere che W abbia varianza unitaria. • Problema di massimo vincolato: ( maxa a0S(b)a a0Sa = 1 • Funzione lagrangiana £(a, λ) = a0S(b)a − λ(a0Sa − 1) • Sistema per la soluzione del problema di massimo vincolato ( ∂ £(a,λ) = 2S a − 2λSa = o λ = a0S(b)a (b) ∂a = 0 Sa = 1 ∂ £ (a,λ) 0 a = a Sa − 1 = 0 ∂λ • S −1S(b)a = λa implica che λ è uno degli autovalori di S −1S(b) ed a è l’autovettore ad esso associato • affinché sia λ = a0S(b)a = max, bisogna scegliere il massimo tra gli autovalori • Sia a1 l’autovettore associato al maggiore degli autovalori λ1 • prima funzione discriminante lineare: combinazione lineare delle componenti della variabile k-dimensionale di partenza che separa maggiormente i p campioni W(1) = a0(1)X • l’autovalore λ1, equivalente alla varianza between della variable W(1), è detto potere discriminante di W(1) e ne misura la capacità di separare le medie dei p campioni • La seconda funzione discriminante lineare W(2) deve soddisfare la condizione di massimo e il vincolo precedenti, e deve essere incorrelata con W(1) W(2) = a0(2)X • il vettore a(2) è dato dalla soluzione del sistema 0 S a max a a (2) (2) (b) (2) a0(2)Sa(2) = 1 a0 Sa(2) = 0 (1) • funzione lagrangiana £(a(2), µ1, µ2) = a0(2)S(b)a(2) −µ1(a0(2)Sa(2) −1)−2µ2a0(1)Sa(2) • sistema per la soluzione del problema di massimo vincolato ∂ £(a(2) ,µ1 ,µ2 ) = 2S(b)a(2) − 2µ1Sa(2) − 2µ2Sa(1) = o ∂a(2) ∂ £(a,µ1 ,µ2 ) = a0(2)Sa(2) − 1 = 0 ∂µ 1 ∂ £(a,µ1,µ2) = a0 Sa (2) = 0 ∂µ2 (1) • dopo qualche passaggio algebrico la prima equazione del sistema diventa S −1S(b)a(2) = µ1a(2) • µ1 = λ2 è il secondo maggiore autovalore della matrice S −1S(b) ed a(2) è l’autovettore corrispondente e tale che a0(2)Sa(2) = 1 • tante funzioni discriminanti lineari quanti sono gli autovalori non nulli della matrice S −1S(b) (numero pari al rango della matrice g = r(S −1S(b))) • in genere si considera un numero t < g di funzioni discriminanti • misura del potere discriminante complessivo delle prime t funzioni discriminanti Pt Pt λ q=1 q q=1 λq = Pg λ tr(S −1S(b)) q=1 q • Se si considerano t funzioni discriminanti lineari, l’osservazione x è assegnata alla sottopopolazione j ∗-esima tale che, calcolato per q = 1, . . . , t, si abbia t X q=1 |w(q) − W̄(q),j ∗ | = min j t X |w(q) − W̄(q),j | q=1 dove w(q) = a0(q)x è il valore dell’osservazione non classificata x corrispondente alla q-esima funzione discriminante e W̄(q),j è la media di W(q) nel j-esimo campione • L’output di un’analisi discriminante deve includere il rango del modello discriminante (t), la posizione di ciascuna sua dimensione rispetto al riferimento originario (i vettori a(q)), la posizione dei p campioni di osservazioni nel sottospazio delle variabili discriminanti (le medie W̄(q),j ) Funzioni discriminanti di massima verosimiglianza - sottopopolazioni normali con parametri noti • La j-esima sottopopolazione abbia una certa distribuzione k-dimensionale pj (x) nota nella forma e nei parametri per j = 1, . . . , p • L’osservazione x è classificata nel gruppo per il quale la verosimiglianza è massima pj ∗ (x) ≥ pj (x) ∀j 6= j ∗ r = 1, . . . , p implica che x sia classificata nella j ∗-esima sottopopolazione • Assunzione distributiva di normalità delle sottopopolazioni pj (x) = Nk (µj , Σj ) si assume che µj e Σj siano noti • Funzione discriminante quadratica: l’osservazione x è assegnata alla j ∗-esima sottopopolazione se vale 1 1 0 Σ−1 (x − µ ) ∗ (x − µ ) τj ∗ − (x − µj ∗ )0Σ−1 (x − µ ) = max τ − ∗ j j j j j j j 2 2 con τj = − 1 2 ln |Σj | • Funzione discriminante lineare: se si può assumere Σ1 = · · · = Σp = Σ, la funzione discriminante quadratica diventa αj ∗ + x0Σ−1µj ∗ = max αj + x0Σ−1µj j 0 Σ−1 µ µ con αj = − 1 j 2 j Funzioni discriminanti di massima verosimiglianza - sottopopolazioni normali con parametri incogniti • Se i parametri delle delle sottopopolazioni µ1, . . . , µp e Σ sono incogniti bisogna stimarli • tramite la matrice X = (X10 , . . . , Xp0 )0 si calcolano le medie X̄j campionarie e la matrice di varianze e covarianze within del campione S(w) • la funzione discriminante lineare diventa 1 1 0 −1 −1 −1 −1 0 0 − (X̄j ∗ ) S(w)X̄j ∗ + x S(w)X̄j ∗ = max − X̄j S(w)X̄j + x0S(w) X̄j j 2 2 Analisi discriminante bayesiana • Alle sottopopolazioni sono assegnate delle probabilità di appartenenza a priori πj = Pr(x ∈ Xj ) per j = 1, . . . , p • il teorema di Bayes permette di calcolare le probabilità a posteriori che aggiornano le probabilità a priori tramite le osservazioni campionarie Pr(x ∈ Xj |x) = Pr(x ∈ Xj ) Pr(x|x ∈ Xj) Pr(x) πj pj (x) = Pp j=1 πj pj (x) essendo p1, . . . , pp le distribuzioni completamente specificate del carattere X nelle p sottopopolazioni • l’osservazione x viene attribuita alla sottopopolazione j ∗ che ha la massima probabilità a posteriori di averla generata p(Xj ∗ |x) = max p(Xj |x) j Minimizzazione del costo atteso di errata classificazione • p = 2 sottopopolazioni k-dimensionali X1 e X2 con distribuzioni p1 e p2 • Ω = Ω1 ∪ Ω2 spazio campionario k-dimensionale dei possibili valori di x • x ∈ Ω1 ⇒ x viene assegnata alla prima sottopopolazione x ∈ Ω2 ⇒ x viene assegnata alla seconda sottopopolazione • probabilità a priori delle due sottopopolazioni: π1 = Pr(x ∈ X1), π2 = Pr(x ∈ X2) • probabilità complessiva di una classificazione errata Pr[(x ∈ Ω1) ∩ (x ∈ X2)] + Pr[(x ∈ Ω2) ∩ (x ∈ X1)] = = Pr(x ∈ X2) Pr[x ∈ Ω1|x ∈ X2]+Pr(x ∈ X1) Pr[x ∈ Ω2|x ∈ X1] = = · · · = π1 + Z Ω1 π2p2(x) − π1p1(x)dx • la probabilità di classificazione errata è minima quando Ω1 contiene elementi tali che π2p2(x) − π1p1(x) < 0 =⇒ p1(x) π > 2 p2(x) π1 • regola di classificazione: p1(x) π > 2 ⇒ x ∈ X1 p2(x) π1 p1(x) π2 < ⇒ x ∈ X2 p2(x) π1 • c(1|2) e c(2|1) perdite che si determinano assegnando erroneamente l’osservazione x alla sottopopolazione X1 e alla sottopopolazione X2 • perdita attesa complessiva: c(1|2) Pr[(x ∈ Ω1)∩(x ∈ X2)]+c(2|1) Pr[(x ∈ Ω2)∩(x ∈ X1)] = = · · · = c(2|1)π1 + Z Ω1 c(1|2)π2p2(x) − c(2|1)π1p1(x)dx • la perdita attesa complessiva risulta minima quando Ω1 contiene elementi tali che c(1|2)π2p2(x) − c(2|1)π1p1(x) < 0 =⇒ • regola di classificazione: c(1|2)π2 p1(x) > ⇒ x ∈ X1 p2(x) c(2|1)π1 p1(x) c(1|2)π2 < ⇒ x ∈ X2 p2(x) c(2|1)π1 c(1|2)π2 p1(x) > p2(x) c(2|1)π1 Stima della probabilità di errata classificazione (due gruppi) • Metodo parametrico: forma distributiva nota delle due sottopopolazioni, parametri θ1 e θ2 stimati. Probabilità complessiva di errata classificazione: π2 Z Ω1 p2(x|θ̂2)dx + π1 Z Ω2 p1(x|θ̂1)dx • Metodi non parametrici – Tassi di errore apparenti: le osservazioni dei due campioni estratti da ciascuna delle sottopopolazioni sono riclassificate tramite la regola di decisione prescelta. Il tasso di errore è ottenuto calcolando la frazione di osservazioni classificate erroneamente – Cross-validation (sample splitting): ciascun campione viene suddiviso in due parti di cui una viene utilizzata per definire la regola di classificazione e l’altra per valutarla, calcolando la proporzione degli individui classificati in modo sbagliato – Cross-validation (leave one out): si prendono in considerazione n1 − 1 osservazioni del primo campione e tutte le n2 osservazioni del secondo per determinare la regola discriminante. In base ad essa si classifica l’osservazione esclusa dal primo campione. Il procedimento esposto viene ripetuto escludendo volta per volta ciascuna osservazione del primo e successivamente ciascuna osservazione del secondo campione