Cenni di Statistica Multivariata Dr Corrado Costa Università di Roma “La Sapienza” – Zoogeografia – 28 Aprile 2014 La statistica multivariata La statistica multivariata è quella parte della statistica in cui l'oggetto dell'analisi è per sua natura formato da almeno due componenti, il che è il caso di gran lunga più frequente nell'ambito di scienze quali la medicina, psicologia, sociologia, ecologia, biologia ed ingegneria. Università di Roma “La Sapienza” – Zoogeografia – 28 Aprile 2014 Panoramica delle tecniche La statistica inferenziale (inferenza = trarre delle conclusioni logiche a partire dai dati disponibili) ha come obiettivo quello di stabilire delle caratteristiche dei dati e dei comportamenti delle misure rilevate (variabili statistiche) con una possibilità di errore predeterminata. Le inferenze possono riguardare la natura teorica (legge probabilistica) del fenomeno che si osserva. La conoscenza di questa natura permetterà poi di fare una previsione (si pensi, ad esempio, che quando si dice che “l’inflazione il prossimo anno avrà una certa entità” deriva dal fatto che esiste un modello dell'andamento dell'inflazione derivato da tecniche inferenziali). La statistica inferenziale è fortemente legata alla teoria della probabilità. Sotto questo punto di vista descrivere in termini probabilistici o statistici un fenomeno aleatorio nel tempo, caratterizzabile dunque da una variabile aleatoria, vuol dire descriverlo in termini di densità di distribuzione di probabilità e dei suoi parametri di media o valore atteso e varianza. Università di Roma “La Sapienza” – Zoogeografia – 28 Aprile 2014 Panoramica delle tecniche Le tecniche di ordinamento cercano di rappresentare il campione e le relazioni tra variabili il più fedelmente possibile in un spazio dimensionale ridotto al fine di rappresentare i dati in un grafico, ordinare gli oggetti, ottenere una matrice con un minor numero di variabili riducendo al minimo la perdita di informazioni. Le tecniche di clustering consistono nel suddividere i dati in gruppi (clusters) in modo tale che gli oggetti dello stesso gruppo si somiglino e gli oggetti di gruppi diversi siano dissimili, al fine di formare gruppi omogenei di entità (osservazioni, campioni, siti, specie, etc.) e/o identificare discontinuità (nello spazio, nel tempo). Università di Roma “La Sapienza” – Zoogeografia – 28 Aprile 2014 Panoramica delle tecniche Le tecniche di classificazione classificano un oggetto (campione per l’analisi, individuo, ..) in una tra le n classi previste dal problema. Ovviamente si applicano quando il problema prevede almeno due categorie. Essi forniscono la risposta alla domanda “A quale delle categorie è probabile che appartenga l’oggetto da classificare?”. Le tecniche di modellamento si applicano anche quando vi è una sola categoria. Essi forniscono la risposta alla domanda “L’oggetto ha caratteristiche compatibili con quelle tipiche della categoria modellata?”. Le tecniche di predizione derivano da quelle di regressione e servono per predire un evento a partire un modello basato su variabili quantitative definite. Università di Roma “La Sapienza” – Zoogeografia – 28 Aprile 2014 Il dataset multivariato Un dataset multivariato è composto da un’insieme di informazioni ripartite in righe e colonne inserite un una matrice. Sulle righe (di solito) sono rappresentate le osservazioni, sulle colonne le variabili Variabili Osservazioni Università di Roma “La Sapienza” – Zoogeografia – 28 Aprile 2014 Il dataset multivariato – Le variabili Le variabili possono essere qualitative o quantitative. Una variabile si dice quantitativa se è una grandezza misurabile. Per esempio: il peso,l’altezza, il reddito, la temperatura, etc… Variabili Osservazioni Università di Roma “La Sapienza” – Zoogeografia – 28 Aprile 2014 La Principal Component Analysis (PCA) L'Analisi delle Componenti Principali è la tecnica di ordinamento più semplice, nel senso che essa opera esclusivamente una rotazione rigida degli assi dello spazio multidimensionale dei dati in modo tale da orientarli in maniera coerente con i pattern di dispersione dei dati stessi. Ciò consente di rappresentare un insieme di dati in maniera più efficace anche in un numero ridotto di dimensioni, cioè in un sistema di assi ortogonali (le Componenti Principali) definiti come combinazioni lineari dei descrittori originali. Inoltre, è possibile ottenere anche una rappresentazione delle relazioni fra i descrittori stessi e fra questi ultimi e le Componenti Principali. Università di Roma “La Sapienza” – Zoogeografia – 28 Aprile 2014 Utilizzi • Può anche essere utilizzata per la data reduction fornendo variabili indipendenti (es. trasmissione del segnale, imaging) Attenzione! La PCA lavora solo su variabili quantitative Università di Roma “La Sapienza” – Zoogeografia – 28 Aprile 2014 La Principal Component Analysis (PCA) La PCA è una rotazione rigida degli assi: non cambia le posizioni degli oggetti nel loro spazio, ma ridefinisce il sistema di coordinate. Nella PCA gli assi sono definiti in modo che le distanze di ciascun oggetto dagli assi sia minimizzata (come nel caso dell’asse maggiore). Università di Roma “La Sapienza” – Zoogeografia – 28 Aprile 2014 Da Scardi, 2009