Si immagini di poter disporre delle osservazioni su alcuni caratteri, ad esempio Y e Xi (i = 1, … , n), per K unità (k = 1, 2, … , K). Generalmente tali informazioni vengono organizzate come segue: Tabella 7.1. Matrice delle informazioni unità/caratteri ๐ ๐๐ ๐๐ … ๐๐ข … ๐๐ง ๐ y1 x1,1 x1,2 … x1,i … x1,n ๐ y2 x2,1 x2,2 … x2,i … x2,n ๐ y3 x3,1 x3,2 … x3,i … ๐ฅ3,๐ … … … … … … … … ๐ค yk xk,1 xk,2 … xk,i … xk,n … … … … … … … … ๐ yK xK,1 xK,2 … xK,i … xK,n Fonte: nostre elaborazioni. dove con yk e xk,i si indicano, rispettivamente, il valore che il carattere Y ed il carattere Xi assumono in corrispondenza della k − esima unità. I diversi strumenti di analisi multivariata (AA.VV, 1983, Kendall, 1975, Morrison, 1976), se opportunamente utilizzati, eventualmente in modo anche combinato tra loro, possono estrapolare da questi dati molte informazioni di natura differente fondamentalmente utilizzabili per (i) provare a spiegare o prevedere Y in risposta ai valori delle varie X i e (ii) provare a descrivere alcuni aspetti della struttura dei caratteri Y ed X i stessi. Con maggiori dettagli: a) qualora, a seconda della natura dei dati a disposizione e delle finalità della ricerca, l’obiettivo principale risiedesse nello spiegare o prevedere i valori di Y in base alle informazioni che sono in grado di dare n sue variabili esplicative X1 , X2 , … , Xi , … , Xn - se Y è un carattere quantitativo, si può ricorrere ad un modello di regressione (semplice o multipla), - se invece Y è una variabile binaria, ci si può avvalere di un modello di regressione lineare nelle probabilità o di tipo logit e probit1; b) qualora si volesse analizzare se l’insieme delle informazioni è omogeneo o può essere ulteriormente suddiviso in sottogruppi omogenei, si può ricorrere ad una cluster analysis; c) se le osservazioni sono già divise in gruppi (eventualmente ottenuti anche ricorrendo alla appena citata cluster analysis) e si desidera classificare delle nuove unità statistiche in uno di essi, si può ricorrere ad un’analisi discriminante; d) se l’intento è quello di provare a sintetizzare i dati a disposizione attraverso la creazione di nuovi caratteri (ottenuti combinando quelli di partenza) che possano spiegare una buona parte della variabilità dei dati originari, si può ricorrere all’analisi delle componenti principali; 1 Le peculiarità della regressione semplice e multipla sono descritte in dettaglio nel Capitolo VIII. Il lettore interessato potrà rintracciare all’interno della medesima sezione anche dei brevi cenni ed adeguati riferimenti bibliografici sulle specifiche peculiarità dei modelli di regressione lineare nelle probabilità e di tipo logit e probit. e) se infine si pensa che i caratteri a disposizione possano dipendere da alcuni fattori latenti (non osservabili), si può invece indagare tale circostanza facendo riferimento ad un’analisi fattoriale.