Generalità sulle Analisi Multivariate

Si immagini di poter disporre delle osservazioni su alcuni caratteri, ad esempio Y e Xi (i =
1, … , n), per K unità (k = 1, 2, … , K). Generalmente tali informazioni vengono organizzate come
segue:
Tabella 7.1. Matrice delle informazioni
unità/caratteri
𝐘
𝐗𝟏
𝐗𝟐
…
𝐗𝐢
…
𝐗𝐧
𝟏
y1
x1,1
x1,2
…
x1,i
…
x1,n
𝟐
y2
x2,1
x2,2
…
x2,i
…
x2,n
𝟑
y3
x3,1
x3,2
…
x3,i
…
𝑥3,𝑛
…
…
…
…
…
…
…
…
𝐤
yk
xk,1
xk,2
…
xk,i
…
xk,n
…
…
…
…
…
…
…
…
𝐊
yK
xK,1
xK,2
…
xK,i
…
xK,n
Fonte: nostre elaborazioni.
dove con yk e xk,i si indicano, rispettivamente, il valore che il carattere Y ed il carattere Xi
assumono in corrispondenza della k − esima unità.
I diversi strumenti di analisi multivariata (AA.VV, 1983, Kendall, 1975, Morrison, 1976), se
opportunamente utilizzati, eventualmente in modo anche combinato tra loro, possono estrapolare da
questi dati molte informazioni di natura differente fondamentalmente utilizzabili per (i) provare a
spiegare o prevedere Y in risposta ai valori delle varie X i e (ii) provare a descrivere alcuni aspetti della
struttura dei caratteri Y ed X i stessi.
Con maggiori dettagli:
a) qualora, a seconda della natura dei dati a disposizione e delle finalità della ricerca, l’obiettivo
principale risiedesse nello spiegare o prevedere i valori di Y in base alle informazioni che sono in
grado di dare n sue variabili esplicative X1 , X2 , … , Xi , … , Xn
- se Y è un carattere quantitativo, si può ricorrere ad un modello di regressione (semplice o
multipla),
- se invece Y è una variabile binaria, ci si può avvalere di un modello di regressione lineare nelle
probabilità o di tipo logit e probit1;
b) qualora si volesse analizzare se l’insieme delle informazioni è omogeneo o può essere
ulteriormente suddiviso in sottogruppi omogenei, si può ricorrere ad una cluster analysis;
c) se le osservazioni sono già divise in gruppi (eventualmente ottenuti anche ricorrendo alla
appena citata cluster analysis) e si desidera classificare delle nuove unità statistiche in uno di essi, si
può ricorrere ad un’analisi discriminante;
d) se l’intento è quello di provare a sintetizzare i dati a disposizione attraverso la creazione di
nuovi caratteri (ottenuti combinando quelli di partenza) che possano spiegare una buona parte della
variabilità dei dati originari, si può ricorrere all’analisi delle componenti principali;
1
Le peculiarità della regressione semplice e multipla sono descritte in dettaglio nel Capitolo VIII. Il lettore interessato potrà
rintracciare all’interno della medesima sezione anche dei brevi cenni ed adeguati riferimenti bibliografici sulle specifiche peculiarità
dei modelli di regressione lineare nelle probabilità e di tipo logit e probit.
e) se infine si pensa che i caratteri a disposizione possano dipendere da alcuni fattori latenti (non
osservabili), si può invece indagare tale circostanza facendo riferimento ad un’analisi fattoriale.