Analisi Fattoriale Discriminante A. Iodice classificazione Analisi Fattoriale Discriminante Analisi fattoriale discriminante Strumenti quantitativi per l’economia e la finanza I Soluzione AFD Alfonso Iodice D’Enza [email protected] Regola di decisione Esempio di applicazione Selezione delle variabili Università degli studi di Cassino e del Lazio Meridionale A. Iodice () Analisi Fattoriale Discriminante Statistica 1 / 19 Outline Analisi Fattoriale Discriminante A. Iodice 1 classificazione 2 Analisi fattoriale discriminante 3 Soluzione AFD 4 Regola di decisione 5 Esempio di applicazione 6 Selezione delle variabili classificazione Analisi fattoriale discriminante Soluzione AFD Regola di decisione Esempio di applicazione Selezione delle variabili A. Iodice () Analisi Fattoriale Discriminante Statistica 2 / 19 La classificazione Analisi Fattoriale Discriminante A. Iodice Si considerino n individui su cui sono osservate p variabili di tipo quantitativo. Si consideri che gli individui siano suddivise in K gruppi La matrice dei dati v1 x11 x21 x31 x41 x51 x61 x71 x81 x91 x101 classificazione Analisi fattoriale discriminante Soluzione AFD Regola di decisione Esempio di applicazione Selezione delle variabili v2 x12 x22 x32 x42 x52 x62 x72 x82 x92 x102 v3 x13 x23 x33 x43 x53 x63 x73 x83 x93 x103 gruppi G1 G1 G1 G2 G2 G2 G2 G2 G3 G3 I gruppi sono definiti dalle modalità di una variabile categorica, che funge da variabile di risposta. Le variabili quantitative (dette esplicative) invece servono a spiegare l’appartenenza di un individuo ad uno dei gruppi definiti dalla modalità di risposta. A. Iodice () Analisi Fattoriale Discriminante Statistica 3 / 19 Obiettivi dell’Analisi Fattoriale Discriminante (AFD Analisi Fattoriale Discriminante A. Iodice classificazione Analisi fattoriale discriminante Soluzione AFD Regola di decisione Esempio di applicazione Selezione delle variabili Esempio di applicazione dell’AFD Si supponga che la variabile di risposta classifichi i clienti di una banca in due tipologie, coloro che possono accendere un mutuo e coloro che non possono farlo; in questo caso le variabili esplicative di interesse per la banca sono il reddito annuo percepito, il numero di componenti della famiglia del cliente ed altre caratteristiche socio-economiche che possano stabilire se ad un cliente siano da concedere un mutuo o meno. Obiettivo esplorativo L’AFD, in ottica esplorativa, serve a valutare se la suddivisione delle unità statistiche fatta in base alle modalità delle variabile di risposta si riflette anche nei valori assunti dalle unità sulle variabili di risposta. Esempio: Le variabili socio-economiche osservate assumono effettivamente valori diversi in corrispondenza dei clienti a cui è stato concesso un mutuo rispetto a quelli a cui non è stato concesso? A. Iodice () Obiettivo decisionale L’AFD in ottica decisionale consente di assegnare un nuovo individuo, di cui si conoscano i valori assunti sulle variabili esplicative, ad una delle categorie della variabile di risposta. Esempio: In base alle caratteristiche socio-economiche di un nuovo cliente, la banca può concedergli un mutuo oppure no? Analisi Fattoriale Discriminante Statistica 4 / 19 Interpretazione geometrica dell’Analisi Fattoriale Discriminante (AFD Analisi Fattoriale Discriminante Si consideri un esempio di dati n = 10, p = 2 e K = 3. Dati Dati centrati A. Iodice classificazione Analisi fattoriale discriminante Soluzione AFD Regola di decisione Esempio di applicazione x1 1 2 2 3 4 8 11 9 10 16 9 10 12 x2 12 9 8 10 15 2 3 1 4 2 13 11 12 gr A A A A A B B B B B C C C x1 -7 -6 -6 -5 -4 0 3 1 2 8 1 2 4 x2 5 2 1 3 8 -5 -4 -6 -3 -5 6 4 5 gr A A A A A B B B B B C C C Selezione delle variabili Obiettivo L’AFD mira a trovare un sottospazio di proiezione tale che i K baricentri siano tra loro separati al meglio, e tale che i punti di ciascun gruppo siano raggruppati al meglio intorno al proprio baricentro. Esempio: poichè i dati sono in due dimensioni, il sottospazio di proiezione è solo un asse (in rosso). A. Iodice () Analisi Fattoriale Discriminante Statistica 5 / 19 AFD: ricerca della soluzione Analisi Fattoriale Discriminante A. Iodice classificazione Analisi fattoriale discriminante Formula della decomposizione della varianza di Huygens Dato un insieme di dati (n individui descritti da p variabili quantitative) organizzati in una matrice Xn×p e suddivisi in gruppi, la variabilità totale associata ai dati può essere calcolata come somma tra le varianze interne ai gruppi, e la varianza tra i gruppi. V =W+B Soluzione AFD T 1 Pn varianza totale V = n i=1 (xi − g) (xi − g), con xi che è l’individuo i e g il baricentro dei dati. Regola di decisione varianza interna ai gruppi W = Esempio di applicazione Wj = Selezione delle variabili 1 nj Pnj i=1 nj j=1 n PK xi − gj T Wj xi − gj , con nj è la numerosità del gruppo j e gj il baricentro del gruppo j. T PK varianza tra i gruppi B = gj − g j=1 gj − g A. Iodice () Analisi Fattoriale Discriminante Statistica 6 / 19 AFD: ricerca della soluzione Analisi Fattoriale Discriminante A. Iodice Definizione alternativa delle matrici di varianza totale, interna ai gruppi ed esterna ai gruppi classificazione X: matrice n × p di dati quantitativi (variabili indipendenti) Analisi fattoriale discriminante y: vettore n × 1 di assegnazione degli individui alle K classi/gruppi (variabile dipendente) C: matrice n × K della codifica disgiuntiva completa del vettore y: Cij = 1 se l’individuo i appartiene al gruppo j, Cij = 0 altrimenti. −1 G = CT C CT X: matrice K × p dei centroidi (o medie condizionate). Soluzione AFD Regola di decisione CG: matrice n × p contenente per ogni riga i il centroide del gruppo a cui l’individuo i appartiene. 1 XT 1 µx = n n : vettore p × 1 delle medie generali delle p variabili (centroide generale). 1n Esempio di applicazione vettore n × 1 i cui elementi sono tutti uguali ad 1. XT 1n : vettore p × 1 delle medie generali delle p variabili (centroide generale). 1 M= n Selezione delle variabili A. Iodice () Analisi Fattoriale Discriminante Statistica 7 / 19 AFD: ricerca della soluzione Analisi Fattoriale Discriminante A. Iodice Definizione alternativa delle matrici di varianza totale, interna ai gruppi ed esterna ai gruppi classificazione 1 (X − M)T (X − M): matrice di varianza e covarianza totale; V= n Analisi fattoriale discriminante 1 (X − CG)T (X − CG): matrice di varianza e covarianza interna ai gruppi; W= n 1 (CG − M)T (CG − M): matrice di varianza e covarianza esterna ai gruppi; B= n Soluzione AFD Regola di decisione Obiettivo: massimizzare la distanza tra le proiezioni dei centroidi ĉ = √1 (CG − M) u n Esempio di applicazione ĉT ĉ = h √1 n (CG − M) u iT h √1 n i 1 (CG − M)T (CG − M) u = (CG − M) u = uT n = uT Bu Selezione delle variabili A. Iodice () Analisi Fattoriale Discriminante Statistica 8 / 19 AFD: ricerca della soluzione Analisi Fattoriale Discriminante Formalizzazione del problema A. Iodice classificazione L’obiettivo è trovare il versore dell’asse di proiezione che massimizzi la varianza tra i gruppi e minimizzi al contempo le varianze interne ai gruppi. Funzione obiettivo: Analisi fattoriale discriminante T max!u Soluzione AFD T u Bu sottoposto al vincolo u Vu = 1 Lagrangiano: T T L = u Bu − λ(u Vu − 1) Regola di decisione ∂L Esempio di applicazione ∂u T T = u Bu − λ(u Vu − 1) = 0 → Bu = λVu Se si pone u = V−1 v allora la precedente diventa Selezione delle variabili BV −1 v = λVV −1 v = λv dunque la soluzione consiste nella ricerca di autovalori e autovettori della matrice BV−1 . A. Iodice () Analisi Fattoriale Discriminante Statistica 9 / 19 AFD: ricerca della soluzione Analisi Fattoriale Discriminante A. Iodice classificazione Assi discriminanti Analisi fattoriale discriminante u: assi discriminanti V−1 u: forme lineari discriminanti Soluzione AFD Regola di decisione Esempio di applicazione Legame tra AFD e ACP Esiste una relazione tra analisi fattoriale discriminante e analisi in componenti principali. In particolare L’AFD su n individui corrisponde ad una ACP sui K baricentri: la metrica utilizzata è V−1 . Selezione delle variabili A. Iodice () Analisi Fattoriale Discriminante Statistica 10 / 19 Separazione dei gruppi Analisi Fattoriale Discriminante A. Iodice classificazione Analisi fattoriale discriminante Soluzione AFD Regola di decisione Esempio di applicazione Selezione delle variabili A. Iodice () Analisi Fattoriale Discriminante Statistica 11 / 19 Costruzione della regola di decisione Analisi Fattoriale Discriminante A. Iodice classificazione Analisi fattoriale discriminante Assegnazione individui ai gruppi Una volta trovato il sottospazio di proiezione che separa al meglio i K baricentri, è necessario verificare se gli individui proiettati su tale sottospazio siano effettivamente da assegnare al gruppo definito dalla classificazione a priori. Soluzione AFD Regola di decisione Esempio di applicazione Sia xi l’individuo i e sia x̂i la sua proiezione sul sottospazio trovato, sia inoltre ĝj la proiezione del baricentro del gruppo j. La regola di decisione sarà formalmente xi → gj Selezione delle variabili A. Iodice () se d(x̂i , ĝj )2 = min d(x̂i , ĝj )2 , j = . . . , K Analisi Fattoriale Discriminante Statistica 12 / 19 Esempio di applicazione Analisi Fattoriale Discriminante A. Iodice classificazione Il data set iris Si considerino n = 150 fiori di iris di tre tipologie: setosa, versicolor e virginica. Le variabili osservate sono p = 4: lunghezza e larghezza del sepalo (LuS e LaS), lunghezza e larghezza del petalo (LuP e LaP) Analisi fattoriale discriminante LuS 5.1 4.9 ... 5 7 6.4 ... 5.7 6.3 5.8 ... 5.9 Soluzione AFD Regola di decisione Esempio di applicazione Selezione delle variabili A. Iodice () LaS 3.5 3 ... 3.3 3.2 3.2 ... 2.8 3.3 2.7 ... 3 LuP 1.4 1.4 ... 1.4 4.7 4.5 ... 4.1 6 5.1 ... 5.1 LaP 0.2 0.2 ... 0.2 1.4 1.5 ... 1.3 2.5 1.9 ... 1.8 Analisi Fattoriale Discriminante gruppi setosa setosa ... setosa versicolor versicolor ... versicolor virginica virginica ... virginica Statistica 13 / 19 Esempio di applicazione Analisi Fattoriale Discriminante Assegnazione ex-ante A. Iodice classificazione Analisi fattoriale discriminante Soluzione AFD Regola di decisione Esempio di applicazione Selezione delle variabili A. Iodice () Analisi Fattoriale Discriminante Statistica 14 / 19 Esempio di applicazione Analisi Fattoriale Discriminante Assegnazione ex-post A. Iodice classificazione Analisi fattoriale discriminante Soluzione AFD Regola di decisione Esempio di applicazione Selezione delle variabili A. Iodice () Analisi Fattoriale Discriminante Statistica 15 / 19 Esempio di applicazione Analisi Fattoriale Discriminante A. Iodice classificazione Matrice di confusione Confronto tra la assegnazione degli individui ai gruppi ex-ante (riportata sulle righe del mosaico) ed ex-post (ottenuta in base alla soluzione AFD, e riportata sulle colonne) Analisi fattoriale discriminante Soluzione AFD Regola di decisione Esempio di applicazione Selezione delle variabili A. Iodice () Analisi Fattoriale Discriminante Statistica 16 / 19 Selezione delle variabili Analisi Fattoriale Discriminante A. Iodice classificazione Analisi fattoriale discriminante Selezione delle variabili Una volta stabilita quale sia la regola di decisione è interessante capire quali delle p variabili considerate abbiano avuto una maggiore importanza nel differenziare tra loro i gruppi. Obiettivo: individuare le q variabili, tra le p considerate, che discriminano al meglio tra i gruppi. Soluzione AFD Regola di decisione Esempio di applicazione Perchè selezionare le varibili? Individuare un insieme ridotto di variabili esplicative consente di ridurre il costo computazionale (ed economico) della procedura; Selezione delle variabili ridurre il ’rumore’ che le variabili di scarso interesse determinano e che finisce per mascherare la reale presenza di una struttura in gruppi di unità statistiche. A. Iodice () Analisi Fattoriale Discriminante Statistica 17 / 19 Selezione delle variabili Analisi Fattoriale Discriminante A. Iodice classificazione Analisi fattoriale discriminante Criteri di selezione L’individuazione delle variabili di interesse rappresenta un problema particolarmente complesso: Soluzione AFD questo perchè per ogni valore di q (numero di variabili da selezionare), ci p! saranno pq = q!(p−q)! possibili sottoinsiemi tra i quali scegliere; Regola di decisione il miglior insieme di q elementi potrebbe non contenere il miglior sottoinsieme di q − 1 variabili, perchè le variabili non sono indipendenti tra loro. Esempio di applicazione Selezione delle variabili A. Iodice () Analisi Fattoriale Discriminante Statistica 18 / 19 Selezione delle variabili Analisi Fattoriale Discriminante Metodi di selezione A. Iodice Metodo passo a passo ascendente: si sceglie la variabile rispetto alla quale i gruppi sono separati al meglio. Ad ogni passo successivo si aggiunge alle precedenti la variabile che, tra quelle rimaste determinano la miglior separazione tra i gruppi. classificazione Metodo passo a passo discendente: si tratta del metodo inverso rispetto al precedente. Si parte dalle p variabili e ad ogni passo si elimina la variabile ’peggiore’. Analisi fattoriale discriminante Soluzione AFD Criteri di selezione Occorre definire un modo per valutare il grado di interesse delle variabili. Regola di decisione Criterio della traccia di Lawley-Hotelling: il grado di interesse del gruppo q di variabili considerate è dato da −1 tr Wq Bq Esempio di applicazione Criterio del determinante di Wilks: il grado di interesse del gruppo q di variabili considerate è dato dal rapporto tra il determinante della matrice delle componenti within della variabilità e quello della matrice delle varianze totali. det(Wq ) Selezione delle variabili det(Vq ) percentuale di ben classificati A. Iodice () Analisi Fattoriale Discriminante Statistica 19 / 19