Analisi statistica multivariata
PROF. DIEGO ZAPPA; PROF. GABRIELE CANTALUPPI; PROF. MARCO CERRI
I MODULO: Prof. Diego Zappa; II MODULO: Prof. Gabriele Cantaluppi
OBIETTIVO DEL CORSO
Questo corso introduce alle principali tecniche dell’analisi statistica multivariata,
presentate secondo un approccio principalmente descrittivo. Per una piena
comprensione degli argomenti svolti, la prima parte del corso richiama alcuni
argomenti di algebra matriciale e di geometria, che vengono subito applicati – per
una loro immediata comprensione di tipo statistico – alla matrice dei dati.
L’esposizione teorica è supportata da applicazioni da svolgersi in aula informatica,
nelle quali si utilizzano software statistici espressamente dedicati a questo tipo di
analisi. Il corso prevede una introduzione ai moderni metodi di statistical learning
(data mining).
PROGRAMMA DEL CORSO
1. Richiami e complementi di algebra matriciale e geometria multidimensionale.
Spazi lineari, rette, distanze e proiezioni in uno spazio multidimensionale. Il
metodo dei minimi quadrati applicato alle distanze; rette di migliore
adattamento.
2. Matrici dei dati, di covarianza e di correlazione. Dipendenze lineari e rango di
una matrice. Media e varianza di una combinazione lineare di variabili casuali.
Vettore di medie e matrice di covarianza di una trasformazione lineare.
Distribuzioni multivariate; la distribuzione normale bivariata e multivariata. Il
teorema di Cochran. Un’applicazione: il modello lineare stocastico.
3. Analisi delle componenti principali. Derivazione delle componenti principali
col metodo di Hotelling e col metodo di Pearson. Coefficienti delle componenti
e correlazioni fra variabili e componenti. Aspetti geometrici delle componenti
principali. Applicazioni delle componenti principali.
4. Analisi dei fattori. Il modello canonico di analisi dei fattori. Significato dei
parametri del modello. Struttura della matrice di covarianza sotto il modello. Il
problema delle rotazioni. Identificazione del modello. Metodi di stima non-
parametrica dei parametri del modello, in particolare il metodo di Howe. Il
metodo di stima parametrico della massima verosimiglianza. Procedimenti di
stima dei punteggi fattoriali.
5. Analisi delle corrispondenze. Campi di applicazione dell’analisi delle
corrispondenze. Distanza tra profili e metrica del chi-quadrato. Scomposizione
dell’inerzia e valori singolari. Rappresentazioni grafiche.
6. Analisi discriminante. La distanza di Mahalanobis. La funzione discriminante
di Fisher nel caso di due popolazioni: approccio parametrico e non-parametrico.
Probabilità di classificazione errata e sua minimizzazione. Approccio nonparametrico nel caso di k popolazioni, comprensivo della applicazione di
funzioni di perdita.
7. Analisi dei gruppi. Indici di distanza e indici di dissimilarità. In particolare: la
distanza di Mahalanobis e sue principali proprietà. Caso dicotomico e caso
politomico. Scopi perseguiti con l’analisi dei gruppi e principali tecniche di
clustering. Criteri gerarchici e non gerarchici. L’algoritmo di classificazione
KNN (K-Nearest Neighbors).
8. Lo scaling multidimensionale (MDS). Scopi perseguiti con lo scaling
multidimensionale. Lo scaling classico e lo scaling ordinale. Relazione fra lo
scaling classico e le componenti principali.
9. Metodi di statistical learning. Definizione di supervised e unsupervised
learning. Definizione di accuratezza di un modello. Cross-Validation.
Bootstrap. Ridge regression e metodo Lasso. Tree-Based methods.
BIBLIOGRAFIA
A. AZZALINI-B. SCARPA, Analisi dei dati e data mining, Springer.
B.V. FROSINI, Analisi di regressione, con Appendice su Vettori e matrici, EDUCatt, Milano.
B.V. FROSINI, Complementi di analisi statistica multivariata, EDUCatt, Milano.
G. JAMES-D. WITTEN-T. HASTIE-R. TIBSHIRANI, An Introduction to Statistical Learning, Springer, New
York, 2013, http://www-bcf.usc.edu/~gareth/ISL/.
S. ZANI-A. CERIOLI, Analisi dei dati e data mining per le decisioni aziendali, Giuffré, Milano.
DIDATTICA DEL CORSO
Lezioni in aula ed esercitazioni in aula computer.
È previsto un ciclo di lezioni, mutuate dal corso di Metodi Statistici per la Finanza e le
Assicurazioni, svolte dal Prof. Marco Cerri di introduzione ed impiego del sw SAS per
l’applicazione di tecniche multivariate a casi reali.
METODO DI VALUTAZIONE
Prova scritta.
Verrà assegnata una prova suddivisa in due parti.
La prima comprende 2 brevi esercizi applicati, volti a verificare la preparazione minima
necessaria del candidato. La seconda parte comprende esercizi su cui si misurerà la
preparazione pratica e teorica del candidato. Se il candidato non risponde esattamente ad
almeno uno dei quesiti della prima parte, la prova complessiva risulterà non sufficiente.
AVVERTENZE
Orario e luogo di ricevimento
I docenti ricevono gli studenti come da avviso affisso all’albo presso il Dipartimento di
Scienze statistiche.
Ciclo di lezioni integrative di Analisi Statistica Multivariata per la finanza e le
assicurazioni
PROF. MARCO CERRI
OBIETTIVO DEL CORSO
Il corso ha come scopo quello di fornire la metodologia di esplorazione di grandi
moli di dati e di pervenire ad una loro sintesi che ne evidenzi e preservi le
caratteristiche informative principali.
Nella prima parte, verranno presentati gli aspetti fondamentali comuni ai diversi
algoritmi di analisi statistica multivariata e le principali metodologie di Data
Mining, utilizzati nell’analisi di vasti e complessi dataset, nonché la loro
applicazione in ambito attuariale mediante l’utilizzo del sistema SAS.
Ai partecipanti verranno mostrati i software SAS Base, SAS Enterprise Guide e
SAS Enterprise Miner e il loro utilizzo in sede di preparazione, elaborazione,
analisi, interpretazione dei risultati ed estensione degli algoritmi.
Nella seconda parte del corso, verranno presentate le principali funzionalità di
software applicativi GIS (Geographic Information System) attraverso l’uso
dell’applicativo ARCVIEW di ESRI, per l’analisi dei dati geografici e le
metodologia di integrazione ai processi di data mining.
PROGRAMMA DEL CORSO
PRIMA PARTE
Introduzione a SAS e alle principali tecniche di analisi statistica multivariata
– Introduzione ai software di data mining (obiettivi, architettura DB aziendale
alla sua interrogazione (cenni), DWH, datamart e ambienti di analisi, tipologie
di dati, small e big data) all’ambiente SAS: SAS Base, SAS Enterprise Guide,
SAS Enterprise Miner.
– Introduzione al Trattamento dati: import, select, merge, sample, funzioni.
– Analisi preliminare dei dati: frequenze, descrittive, cross table, correlazioni,
ANOVA.
Tecniche di analisi esplorative
– Analisi in Componenti Principali (PCA).
– Cluster Analysis: gerarchiche e non gerarchiche.
Tecniche di scoring
– Modelli di Regressione: specificazione, stima dei parametri, verifiche di ipotesi
e selezione del modello.
– Alberi Decisionali: nodi, livelli, principali algoritmi, tabelle guadagni e perdite.
– Reti Neurali Artificiali: architetture, funzionamento, apprendimento,
ottimizzazione, previsione.
– Confronto tra modelli e creazioni dei processi di traning, validation e test.
– Estensione del modello migliore per la previsione e la classificazione, logiche
di aggiornamento del modello e di utilizzo aziendale.
SECONDA PARTE
Introduzione al GIS e alle principali tecniche di analisi dei dati territoriali
– Panoramica sulle funzionalità dei sistemi informativi geografici.
– Presentazione delle principali banche dati territoriali.
– Integrazione del GIS ai DB aziendali.
– Esempi ed usi di sistemi di qualificazione territoriale per il CRM.
– Bacini e Modelli gravitazionali e loro impiego nel CRM.
BIBLIOGRAFIA
Letture consigliate
S. DULLI-N. DEL CIELLO-A. SACCARDI, Metodi di data mining per il CRM, Franco Angeli, 2002.
O. PARR-RUD, Business Analytics Using SAS® Enterprise Guide® and SAS® Enterprise Miner™:
A Beginner's Guide, SAS Institute Inc, 2014.
DIDATTICA DEL CORSO
Le lezioni, svolte solo in aula informatica, privilegeranno l’aspetto applicativo delle
varie tecniche proposte, sperimentando il sistema SAS e il sistema ESRI nei loro principali
software applicativi e su dataset di natura economico-finanziaria.
I richiami teorici saranno presentati con supporto di slide in MS PowerPoint
eventualmente rilasciate agli studenti.
METODO DI VALUTAZIONE
Una prova di valutazione in aula sulla applicazione degli argomenti impartiti.
AVVERTENZE
Orario e luogo di ricevimento
Il Prof. Marco Cerri riceve gli studenti come da orari affissi all’albo presso il
Dipartimento di Scienze statistiche (Lanzone 18, III piano) nonché come pubblicato sulle
pagine web dei docenti.