Analisi statistica multivariata PROF. DIEGO ZAPPA; PROF. GABRIELE CANTALUPPI; PROF. MARCO CERRI I MODULO: Prof. Diego Zappa; II MODULO: Prof. Gabriele Cantaluppi OBIETTIVO DEL CORSO Questo corso introduce alle principali tecniche dell’analisi statistica multivariata, presentate secondo un approccio principalmente descrittivo. Per una piena comprensione degli argomenti svolti, la prima parte del corso richiama alcuni argomenti di algebra matriciale e di geometria, che vengono subito applicati – per una loro immediata comprensione di tipo statistico – alla matrice dei dati. L’esposizione teorica è supportata da applicazioni da svolgersi in aula informatica, nelle quali si utilizzano software statistici espressamente dedicati a questo tipo di analisi. Il corso prevede una introduzione ai moderni metodi di statistical learning (data mining). PROGRAMMA DEL CORSO 1. Richiami e complementi di algebra matriciale e geometria multidimensionale. Spazi lineari, rette, distanze e proiezioni in uno spazio multidimensionale. Il metodo dei minimi quadrati applicato alle distanze; rette di migliore adattamento. 2. Matrici dei dati, di covarianza e di correlazione. Dipendenze lineari e rango di una matrice. Media e varianza di una combinazione lineare di variabili casuali. Vettore di medie e matrice di covarianza di una trasformazione lineare. Distribuzioni multivariate; la distribuzione normale bivariata e multivariata. Il teorema di Cochran. Un’applicazione: il modello lineare stocastico. 3. Analisi delle componenti principali. Derivazione delle componenti principali col metodo di Hotelling e col metodo di Pearson. Coefficienti delle componenti e correlazioni fra variabili e componenti. Aspetti geometrici delle componenti principali. Applicazioni delle componenti principali. 4. Analisi dei fattori. Il modello canonico di analisi dei fattori. Significato dei parametri del modello. Struttura della matrice di covarianza sotto il modello. Il problema delle rotazioni. Identificazione del modello. Metodi di stima non- parametrica dei parametri del modello, in particolare il metodo di Howe. Il metodo di stima parametrico della massima verosimiglianza. Procedimenti di stima dei punteggi fattoriali. 5. Analisi delle corrispondenze. Campi di applicazione dell’analisi delle corrispondenze. Distanza tra profili e metrica del chi-quadrato. Scomposizione dell’inerzia e valori singolari. Rappresentazioni grafiche. 6. Analisi discriminante. La distanza di Mahalanobis. La funzione discriminante di Fisher nel caso di due popolazioni: approccio parametrico e non-parametrico. Probabilità di classificazione errata e sua minimizzazione. Approccio nonparametrico nel caso di k popolazioni, comprensivo della applicazione di funzioni di perdita. 7. Analisi dei gruppi. Indici di distanza e indici di dissimilarità. In particolare: la distanza di Mahalanobis e sue principali proprietà. Caso dicotomico e caso politomico. Scopi perseguiti con l’analisi dei gruppi e principali tecniche di clustering. Criteri gerarchici e non gerarchici. L’algoritmo di classificazione KNN (K-Nearest Neighbors). 8. Lo scaling multidimensionale (MDS). Scopi perseguiti con lo scaling multidimensionale. Lo scaling classico e lo scaling ordinale. Relazione fra lo scaling classico e le componenti principali. 9. Metodi di statistical learning. Definizione di supervised e unsupervised learning. Definizione di accuratezza di un modello. Cross-Validation. Bootstrap. Ridge regression e metodo Lasso. Tree-Based methods. BIBLIOGRAFIA A. AZZALINI-B. SCARPA, Analisi dei dati e data mining, Springer. B.V. FROSINI, Analisi di regressione, con Appendice su Vettori e matrici, EDUCatt, Milano. B.V. FROSINI, Complementi di analisi statistica multivariata, EDUCatt, Milano. G. JAMES-D. WITTEN-T. HASTIE-R. TIBSHIRANI, An Introduction to Statistical Learning, Springer, New York, 2013, http://www-bcf.usc.edu/~gareth/ISL/. S. ZANI-A. CERIOLI, Analisi dei dati e data mining per le decisioni aziendali, Giuffré, Milano. DIDATTICA DEL CORSO Lezioni in aula ed esercitazioni in aula computer. È previsto un ciclo di lezioni, mutuate dal corso di Metodi Statistici per la Finanza e le Assicurazioni, svolte dal Prof. Marco Cerri di introduzione ed impiego del sw SAS per l’applicazione di tecniche multivariate a casi reali. METODO DI VALUTAZIONE Prova scritta. Verrà assegnata una prova suddivisa in due parti. La prima comprende 2 brevi esercizi applicati, volti a verificare la preparazione minima necessaria del candidato. La seconda parte comprende esercizi su cui si misurerà la preparazione pratica e teorica del candidato. Se il candidato non risponde esattamente ad almeno uno dei quesiti della prima parte, la prova complessiva risulterà non sufficiente. AVVERTENZE Orario e luogo di ricevimento I docenti ricevono gli studenti come da avviso affisso all’albo presso il Dipartimento di Scienze statistiche. Ciclo di lezioni integrative di Analisi Statistica Multivariata per la finanza e le assicurazioni PROF. MARCO CERRI OBIETTIVO DEL CORSO Il corso ha come scopo quello di fornire la metodologia di esplorazione di grandi moli di dati e di pervenire ad una loro sintesi che ne evidenzi e preservi le caratteristiche informative principali. Nella prima parte, verranno presentati gli aspetti fondamentali comuni ai diversi algoritmi di analisi statistica multivariata e le principali metodologie di Data Mining, utilizzati nell’analisi di vasti e complessi dataset, nonché la loro applicazione in ambito attuariale mediante l’utilizzo del sistema SAS. Ai partecipanti verranno mostrati i software SAS Base, SAS Enterprise Guide e SAS Enterprise Miner e il loro utilizzo in sede di preparazione, elaborazione, analisi, interpretazione dei risultati ed estensione degli algoritmi. Nella seconda parte del corso, verranno presentate le principali funzionalità di software applicativi GIS (Geographic Information System) attraverso l’uso dell’applicativo ARCVIEW di ESRI, per l’analisi dei dati geografici e le metodologia di integrazione ai processi di data mining. PROGRAMMA DEL CORSO PRIMA PARTE Introduzione a SAS e alle principali tecniche di analisi statistica multivariata – Introduzione ai software di data mining (obiettivi, architettura DB aziendale alla sua interrogazione (cenni), DWH, datamart e ambienti di analisi, tipologie di dati, small e big data) all’ambiente SAS: SAS Base, SAS Enterprise Guide, SAS Enterprise Miner. – Introduzione al Trattamento dati: import, select, merge, sample, funzioni. – Analisi preliminare dei dati: frequenze, descrittive, cross table, correlazioni, ANOVA. Tecniche di analisi esplorative – Analisi in Componenti Principali (PCA). – Cluster Analysis: gerarchiche e non gerarchiche. Tecniche di scoring – Modelli di Regressione: specificazione, stima dei parametri, verifiche di ipotesi e selezione del modello. – Alberi Decisionali: nodi, livelli, principali algoritmi, tabelle guadagni e perdite. – Reti Neurali Artificiali: architetture, funzionamento, apprendimento, ottimizzazione, previsione. – Confronto tra modelli e creazioni dei processi di traning, validation e test. – Estensione del modello migliore per la previsione e la classificazione, logiche di aggiornamento del modello e di utilizzo aziendale. SECONDA PARTE Introduzione al GIS e alle principali tecniche di analisi dei dati territoriali – Panoramica sulle funzionalità dei sistemi informativi geografici. – Presentazione delle principali banche dati territoriali. – Integrazione del GIS ai DB aziendali. – Esempi ed usi di sistemi di qualificazione territoriale per il CRM. – Bacini e Modelli gravitazionali e loro impiego nel CRM. BIBLIOGRAFIA Letture consigliate S. DULLI-N. DEL CIELLO-A. SACCARDI, Metodi di data mining per il CRM, Franco Angeli, 2002. O. PARR-RUD, Business Analytics Using SAS® Enterprise Guide® and SAS® Enterprise Miner™: A Beginner's Guide, SAS Institute Inc, 2014. DIDATTICA DEL CORSO Le lezioni, svolte solo in aula informatica, privilegeranno l’aspetto applicativo delle varie tecniche proposte, sperimentando il sistema SAS e il sistema ESRI nei loro principali software applicativi e su dataset di natura economico-finanziaria. I richiami teorici saranno presentati con supporto di slide in MS PowerPoint eventualmente rilasciate agli studenti. METODO DI VALUTAZIONE Una prova di valutazione in aula sulla applicazione degli argomenti impartiti. AVVERTENZE Orario e luogo di ricevimento Il Prof. Marco Cerri riceve gli studenti come da orari affissi all’albo presso il Dipartimento di Scienze statistiche (Lanzone 18, III piano) nonché come pubblicato sulle pagine web dei docenti.