Cenni di Statistica Multivariata
Dr Corrado Costa
Università di Roma “La Sapienza” – Zoogeografia – 28 Aprile 2014
La statistica multivariata
La statistica multivariata è quella parte della statistica in cui l'oggetto
dell'analisi è per sua natura formato da almeno due componenti, il che è il
caso di gran lunga più frequente nell'ambito di scienze quali la medicina,
psicologia, sociologia, ecologia, biologia ed ingegneria.
Università di Roma “La Sapienza” – Zoogeografia – 28 Aprile 2014
Panoramica delle tecniche
La statistica inferenziale (inferenza = trarre delle conclusioni logiche a partire
dai dati disponibili) ha come obiettivo quello di stabilire delle caratteristiche
dei dati e dei comportamenti delle misure rilevate (variabili statistiche) con
una possibilità di errore predeterminata. Le inferenze possono riguardare la
natura teorica (legge probabilistica) del fenomeno che si osserva. La
conoscenza di questa natura permetterà poi di fare una previsione (si pensi,
ad esempio, che quando si dice che “l’inflazione il prossimo anno avrà una
certa entità” deriva dal fatto che esiste un modello dell'andamento
dell'inflazione derivato da tecniche inferenziali). La statistica inferenziale è
fortemente legata alla teoria della probabilità. Sotto questo punto di vista
descrivere in termini probabilistici o statistici un fenomeno aleatorio nel
tempo, caratterizzabile dunque da una variabile aleatoria, vuol dire
descriverlo in termini di densità di distribuzione di probabilità e dei suoi
parametri di media o valore atteso e varianza.
Università di Roma “La Sapienza” – Zoogeografia – 28 Aprile 2014
Panoramica delle tecniche
Le tecniche di ordinamento cercano di rappresentare il campione e le
relazioni tra variabili il più fedelmente possibile in un spazio dimensionale
ridotto al fine di rappresentare i dati in un grafico, ordinare gli oggetti,
ottenere una matrice con un minor numero di variabili riducendo al minimo
la perdita di informazioni.
Le tecniche di clustering consistono nel suddividere i dati in gruppi (clusters)
in modo tale che gli oggetti dello stesso gruppo si somiglino e gli oggetti di
gruppi diversi siano dissimili, al fine di formare gruppi omogenei di entità
(osservazioni, campioni, siti, specie, etc.) e/o identificare discontinuità (nello
spazio, nel tempo).
Università di Roma “La Sapienza” – Zoogeografia – 28 Aprile 2014
Panoramica delle tecniche
Le tecniche di classificazione classificano un oggetto (campione per l’analisi,
individuo, ..) in una tra le n classi previste dal problema. Ovviamente si
applicano quando il problema prevede almeno due categorie. Essi forniscono la
risposta alla domanda “A quale delle categorie è probabile che appartenga
l’oggetto da classificare?”.
Le tecniche di modellamento si applicano anche quando vi è una sola categoria.
Essi forniscono la risposta alla domanda “L’oggetto ha caratteristiche compatibili
con quelle tipiche della categoria
modellata?”.
Le tecniche di predizione derivano da quelle di regressione e servono per predire un
evento a partire un modello basato su variabili quantitative definite.
Università di Roma “La Sapienza” – Zoogeografia – 28 Aprile 2014
Il dataset multivariato
Un dataset multivariato è composto da un’insieme di informazioni ripartite in
righe e colonne inserite un una matrice. Sulle righe (di solito) sono
rappresentate le osservazioni, sulle colonne le variabili
Variabili
Osservazioni
Università di Roma “La Sapienza” – Zoogeografia – 28 Aprile 2014
Il dataset multivariato – Le variabili
Le variabili possono essere qualitative o quantitative. Una variabile si dice
quantitativa se è una grandezza misurabile. Per esempio: il peso,l’altezza, il
reddito, la temperatura, etc…
Variabili
Osservazioni
Università di Roma “La Sapienza” – Zoogeografia – 28 Aprile 2014
La Principal Component Analysis (PCA)
L'Analisi delle Componenti Principali è la tecnica di ordinamento più
semplice, nel senso che essa opera esclusivamente una rotazione rigida
degli assi dello spazio multidimensionale dei dati in modo tale da orientarli
in maniera coerente con i pattern di dispersione dei dati stessi.
Ciò consente di rappresentare un insieme di dati in maniera più efficace
anche in un numero ridotto di dimensioni, cioè in un sistema di assi
ortogonali (le Componenti Principali) definiti come combinazioni lineari dei
descrittori originali. Inoltre, è possibile ottenere anche una
rappresentazione delle relazioni fra i descrittori stessi e fra questi ultimi e
le Componenti Principali.
Università di Roma “La Sapienza” – Zoogeografia – 28 Aprile 2014
Utilizzi
• Può anche essere utilizzata per la data reduction fornendo
variabili indipendenti (es. trasmissione del segnale, imaging)
Attenzione! La PCA lavora solo su variabili quantitative
Università di Roma “La Sapienza” – Zoogeografia – 28 Aprile 2014
La Principal Component Analysis (PCA)
La PCA è una rotazione rigida degli assi: non cambia le posizioni degli
oggetti nel loro spazio, ma ridefinisce il sistema di coordinate.
Nella PCA gli assi sono definiti in modo che le distanze di ciascun oggetto
dagli assi sia minimizzata (come nel caso dell’asse maggiore).
Università di Roma “La Sapienza” – Zoogeografia – 28 Aprile 2014
Da Scardi, 2009